当ブログでは論文をご紹介することがありますが、当然、論文のそれぞれの質(信頼度)は異なります。
今回は論文の種類や科学的根拠(エビデンス)の質についてまとめておきます。



エビデンスレベル概要

科学的根拠(エビデンス)のある支援方法をご紹介する際に参考にしているのが研究論文。実は、論文にもレベル(質・信頼度)がありまして、ここでは、まず、ざっくりとエビデンスレベルを一覧でご紹介します。

  • 個人の体験談(エビデンスレベル:1)
  • 専門家の意見(エビデンスレベル:2)
  • 事例研究(エビデンスレベル:3)
  • 動物実験・生体外実験(エビデンスレベル:4)
  • 観察研究(エビデンスレベル:5)
  • 準実験(エビデンスレベル:6)
  • ランダム化比較試験(RCT)(エビデンスレベル:7)
  • レビュー論文(エビデンスレベル:8)
  • ナラティブレビュー(エビデンスレベル:9)
  • 観察研究の系統的レビュー(メタ分析なし)(エビデンスレベル:10)
  • 観察研究のメタ分析・系統的レビュー(エビデンスレベル:11)
  • ランダム化比較試験(RCT)の系統的レビュー(メタ分析なし)(エビデンスレベル:12)
  • ランダム化比較試験(RCT)のメタ分析・系統的レビュー(エビデンスレベル:13)
  • アンブレラレビュー(エビデンスレベル:14)

エビデンスレベル1が最も信頼度が低く、エビデンスレベル14が最も高い物となります(当然個々の研究の質によって、更にエビデンスレベルの上下はあります)
では次に一つずつ掘り下げていきましょう…!



個人の体験談(エビデンスレベル:1)

個人の体験談とは個人の実体験に基づいた内容のこと。私が良くするセルフ調査やセルフ実験なんかがコレで、エビデンスレベルはほぼ0(笑)。まぁ、万人に対して有効…!とはほぼ縁遠いですからね~。
当ブログだと、よく「サンプル数1」と書いているのがそれですね~。

【参考】



専門家の意見(エビデンスレベル:2)

専門家の意見とは、明確な研究データがない単なる意見、経験のみに基づいた主観的意見のこと。例えば、「長年の臨床経験からこの治療法はとても効果がある…!」みたいなのがコレ。どんな名医でもエビデンスがない個人的な意見では科学的根拠はかなり低くなってしまいます。また、バイアスにも特に注意が必要で、

  • 確証バイアス(自分に都合の良い情報だけ集めてしまう)
  • 記憶バイアス(自分の都合の良いように記憶を歪めてしまう)
  • 関連性の錯誤(ある目立ったことが2つ前後して生じると、それらに誤った因果関係を想定してしまう。例えば、太る原因は糖質…!と決めつけるが、実際は糖質を多く摂取する人はタンパク質やビタミン、ミネラルの摂取量が少なくて、実は、こちらが太る原因だったり、ストレスや睡眠不足が原因だったりする場合もあるなど)

などなど、怖いバイアスはいっぱいあるんで、データに基づかない物は、安易に鵜呑みにするのは危険…!



事例研究(エビデンスレベル:3)

事例研究とはいくつかの事例を集めたもの。事例を集める際に上記で挙げたようなバイアスの発生が多くあり、エビデンスレベルは低いです。因みにデータとは系統的にバイアスを排除できるようにデザインされた研究から得られたものを言います。



動物実験・生体外実験(エビデンスレベル:4)

動物実験とはマウスやラットなどを使った研究のことを言います。
生体外実験とは人間の細胞などを使って研究することを言います。
上記2つのエビデンスレベルは実際の人間を使っているものに比べ、やはりエビデンスレベルは落ちます。が、しかし、何事も、まずはこの当たりから調べてみて「おや…?これはもしかして…?」ってのがきっかけとなり、更なる下記に挙げる質の高い研究へ移行、最終的に大発見につながるケースも多々あるんで、意外と大事だったりします。特に人間では試せないケースに有効。

【参考】



観察研究(エビデンスレベル:5)

観察研究とは長期間にわたって追跡する研究のことを言います。
こちらは、

  • サンプル数
  • 期間(年数)
  • 年齢
  • 性別
  • 経済状況
  • 人種
  • 地域

などなど、これらが大規模になればなるほどエビデンスレベルがアップしていきます。
また、観察研究にはいくつか種類が分かれまして、

  • ケース・コントロール研究(症例対照研究)…症例群と対照群を比較する研究。例えば、うつ病患者と健康な人を比較し、親子関係の特徴を検討するみたいな研究のこと
  • 横断研究…時間経過を伴わない研究
  • 縦断研究…時間経過を伴う研究(縦断研究は更にコホート研究に分かれる)
  • 前向きコホート研究…観察時間が現在から未来に向かって(前向きに)行う研究のこと。一般的にコホート研究と呼ばれるものはこちらになる。死亡等でサンプル数が減ることがある
  • 後ろ向きコホート研究…観察時間が過去から現在に向かって(後ろ向きに)行う研究のこと
  • メンデルランダム化研究…観察研究の一種。遺伝子検査から因果関係が分かる

う~ん。奥が深いですね~。

【参考】



準実験(エビデンスレベル:6)

準実験(臨床研究・介入研究)とは実際に参加者に介入を行い、変化を測定する研究のこと。下記で紹介するランダム化比較試験(RCT)との違いはランダム化した対照群がいない(比較しない)というところ。エビデンスレベルはそんなに高くない。



ランダム化比較試験(RCT)(エビデンスレベル:7)

ランダム化比較試験(RCT)とは、ランダムに数グループにわけて効果のありそうな方法と嘘の方法(プラセボ効果を消すため)を行ってもらい、本当に効果があるのか調べる研究のこと。こちらから少しずつ標準のエビデンスレベルは高くなっていきます。まぁ、一番ポピュラーな研究方法とも言えますね~。
また、エビデンスレベルをアップする方法として、

  • 観察研究同様、サンプル数や期間などを多くする
  • ランダムパターンを多くする
  • 単盲検(単盲検試験=シングル・ブラインド・テストとも言う)を行う。単盲検とは参加者に本当に効果がありそうな方法と嘘の方法がどちらか分からないようにして行う実験のことを言う(観察者(研究者)のみ分からないようにする場合もある
  • 二重盲検(二重盲検法=ダブル・ブラインド・テストとも言う)を行う。二重盲検とは参加者にも観察者(研究者)にも本当に効果がありそうな方法と嘘の方法がどちらか分からないようにして行う実験のことを言う

などがあります。
また、サンプル数などの問題などで時々出てくるのが、クロスオーバーデザイン(クロスオーバー試験)です。これは2つの異なった介入を交互に実施して両者の効果を比較する研究になります。例えば、

  1. Aグループのうつ病患者に認知行動療法を一定期間行い、Bグループのうつ病患者にウォーキングを一定期間行ってもらいます。
  2. その後、方法を交換して(クロスして)、
  3. Aグループのうつ病患者にウォーキングを一定期間行ってもらい、Bグループのうつ病患者に認知行動療法を一定期間行います。

少ないサンプル数で多くの検証結果を得られますし、参加した方は、効果がありそうな方法をたくさん受けられるんでお得なんですが、一方で、結局どっちの方法で良くなったのか…?がイマイチ分からなくなるというデメリットもあったりします。最初に行った方法の効果がまだ続いているんじゃないか説(いわゆるキャリーオーバー効果)が拭い去れないってことですね~。
因みにこれを防ぐために次の実験に入るまでのインターバル期間(ウォッシュアウト期間)を設けたりします。

【参考】



レビュー論文(エビデンスレベル:8)

レビュー論文とは、統計的な手法によらず、著者独自の視点から先行研究を選んでレビューすることを言います。記述的レビュー(従来の古典的レビュー)とも言われます

【参考】



ナラティブレビュー(エビデンスレベル:9)

ナラティブレビューとは、系統的レビュー(下記参照)のようにバイアスリスクを最小限にするための手法(メタ分析など)を用いずに複数の論文をまとめた論文のことを言います。



メタ分析・系統的レビュー(エビデンスレベル:10~13)

メタ分析・系統的レビューとは、過去に行われた大量の研究データを集めてチェックし、信頼できない研究を排除。質の高いデータだけを集めて統計処理(メタ分析)し、大きな結論を出す論文(系統的レビュー)のことを言います。一言で言うと論文の論文。
因みにメタ分析と系統的レビューは同じ意味合いで使われることが多いですが、厳密には違いがありまして、

  • メタ分析(メタ解析・メタアナリシス)とは、個々の研究を統合して解析する際に用いられる統計的手法のことを言います。
  • 系統的レビュー(システマティックレビュー)とは、あらかじめ定められた手続きによって既存の研究(先行研究)をまとめて新たな知見を出す論文のことを言います。そのため、メタ分析を用いない系統的レビューも存在します

となります。
メタ分析・系統的レビューは、例えば100人を対象とした研究が10件見つかれば、1000人を対象とした一つの研究と看做すことができます。そのため、個々の研究の質の高さにもよりますが、エビデンスレベルは全体的にかなり高めです。
更に詳しく見ると、

  • 観察研究の系統的レビュー(メタ分析なし)(エビデンスレベル:10)
  • 観察研究のメタ分析・系統的レビュー(エビデンスレベル:11)
  • ランダム化比較試験(RCT)の系統的レビュー(メタ分析なし)(エビデンスレベル:12)
  • ランダム化比較試験(RCT)のメタ分析・系統的レビュー(エビデンスレベル:13)

と言った形で、下に行くにつれ、エビデンスレベルはどんどん上がっていきます。
因みに2007年のオタワ大学の研究によると、発表された系統的レビューのうち最大50%が、発表からわずか5.5年を過ぎると時代遅れになるそうです。つまり約5年半で半分の研究の内容が古いとなってしまうみたいなんですな。
そのため、同様の内容を調べた最近の研究が出たら結論や各ポイントが変わっていないかチェックした方が良さげです。

アンブレラレビュー(エビデンスレベル:14)

アンブレラレビューとは、過去に出たメタ分析や系統的レビューを集めて、それらを解析したりまとめたりしたデータのこと。つまり、メタ分析のメタ分析や系統的レビューの系統的レビュー。最終的な質はそれぞれのメタ分析や系統的レビューによりますが、エビデンスレベルは最高レベルです。
更に詳しく知りたい時に参考になるのが2015年のアデレード大学の研究でして、これまで系統的レビューはエビデンスに基づく医療の基本であり、意思決定に役立つ最高レベルのエビデンスを提供したものでした。しかし、系統的レビューの数がたくさん増えたことで、これらを更にまとめることが必要になったとのこと。
そこで登場したのがアンブレラレビューです。
アンブレラレビューは他にも、

  • レビューの概要
  • レビューのレビュー
  • システマティックレビューの要約
  • レビューの統合

など、様々な名称で呼ばれているんだとか。
そしてアンブレラレビューは、系統的レビューやメタ分析をレビューしたもの、つまりまとめたものを呼ぶとのこと。このアンブレラレビューの登場により、特定の問題や現象に対しての知見の全体像を把握できるようになったそうです。
まとめると、アンブレラレビューは、特定の研究トピックに対して、包括的・体系的に評価する方法、系統的レビューとメタ分析をまとめる方法となります。
因みに、ギリシャのヨアニナ大学はアンブレラレビューが登場したころから注目し、発表していた大学でして、その辺は2009年のヨアニナ大学の研究なんかを見てもらえるとよろしいかと。

【参考】



その他用語など色々

その他、論文の用語などを色々書いておきます。

  • アブストラクト:要約のこと。研究者はこれを読んで詳しくその論文を読むかどうか決めたりします。
  • プレスリリース:一般向けに簡素にまとめた論文の発表方法のこと。論文は関係者や興味がある一部の人しか見ない為、一般にも研究成果を広めるためにこの方法をとることがあります。
  • 査読:学術雑誌の掲載前に内容をチェックすること。ここで間違いや掲載するかどうかを決めたりします。また、一流雑誌になればなるほど査読は厳しくなります。
  • フォローアップ研究:追跡研究のこと。その後どうなったかな~ってのを調べます。
  • パイロット研究(パイロットスタディ):予備調査のこと。大規模な研究をする前に、その研究が合っているっぽいか小規模で実験して確認する事を言います。ここで間違いなさそうだとなれば、サンプル数を増やして大規模な研究を行っていきます。
  • 追試:論文テストで赤点を取った人が受ける地獄のテストのこと…ではなく(笑)、過去の論文の結果が本当に正しいのか、似たような状況を再現して、サンプル数を増やし確かめること。実際、近年、心理学では追試で再現できんかった…!ってケースがたびたび起こっており、激動の時代を迎えている。有名な物としては、意志力減る減らない問題(自我消耗)パワーポーズなど。
  • 業界から資金提供を受けた研究(スポンサー問題):業界から資金提供を受けるとやっぱ資金提供元に有利な結果を出したくなる可能性があります。ちょっと気になっちゃいますよね~。



個人的考察

長文になるけどいつか書こうと思っていた今回の内容。個人的にかけて満足しました(笑)
因みに、ここから雑学です。
世界で最初のRCTは1948年の英国医学研究会議チームの論文と言われております(下記参照)


そして、世界で初めてのメタ分析が1976年の心理学者Glassのメタ分析と言われております(下記参照)


つまり、エビデンスに基づいた研究を始めてからまだ100年も経っていないんですよね~。それにしては、日々、仮説と検証の繰り返しによる、この日進月歩のすごさ。恐れ入りますな~。研究者の方々には感謝しかありません。



参考文献