観察研究論文の批判的吟味

大規模なデータの蓄積により質の高い観察研究が増えてきており、RCTができない(できにくい)分野のエビデンスもどんどん蓄積されています。一方で、質の低い観察研究も増えており、私たちがそれにどのように対応するのかという点は大きな課題だと思います。AIがこのような問題にどのように適応してくれるかという点も、期待が大きな部分かもしれませんが、現状では課題は多いと思います。

観察研究結果を日常業務に活かすために

論文数の劇的な増加により、全ての観察研究を批判的吟味することはできなくなりました。ただし、RCTで解決できない課題も多く(RCTの質も問題もありますが)、それは観察研究結果に頼らざるを得なく、質の高い観察研究を判別して、業務に役立てていく必要があります。一方で、質の低い観察研究も多く出版されており、現状のAIがこれらを判別して、結果を出力しているようには見えません。

ということは、現状ではやっぱり私たち自身が観察研究の質を評価できる必要があるように思います(いずれはAIがやってくれるとは思いますが)。ここで難しい点は、観察研究の分析手法により流儀や解釈が異なってくることです。そこに各国の医療状況や、薬の特性による違いなども生じるため、ますます状況は複雑です。これにAIがどこまで適応できるのかという点と、明確な線引きができない状況を考えると、まだまだこの部分に人間の仕事があるように思います。


観察研究結果を研究に活かすために

新しい研究テーマを想起するには、現状の到達点と限界を把握しておく必要があり、そのためには日々論文を読むことの重要性はAIが進化している今でも変わらないと思います。特に懸念する点は、AIが質の高くない研究を考慮した答えを出力しないかというところで、論文の要約などで多くAIが使われていますが、方法論の吟味ができているのかは疑問があるところです。

そういった意味では、ある程度の質の担保されたジャーナルの研究論文を読む重要性はますます高まっており、逆に質の低い観察研究の結果は簡単に覆ってしまう状況があると思います。そのため、面白いトピックの研究結果については、報告があるから研究できない・・・という状況ではなくなっており、より質の高い方法で再現できた(または再現できなかった)という、再現性に関する研究テーマのニーズも高まっているように思います。これはオリジナルの研究テーマを想起できなくても、研究テーマを発掘できる可能性があるということだと思います。

ということは、質の高くない観察研究の中から、良いテーマを見つけて、より質の高い手法で再現性があるかどうかを確認するということもできるので・・・、そんなことを言い始めたら、質に関係なくたくさんの論文に目を通した方が良いのかもなので、どうしたら良いのかわからなくなってきますが。とりあえず現状で自分の研究テーマに関連する研究にはしっかり目を通す重要性は変わらないということだと思います。


少し前置きが長くなってしまいましたが、ここからが本題です。素人が勝手に思っていることを書いているだけですので、間違いがあればご容赦下さい(ご指摘頂けると幸いです)。


研究デザイン

まずは横断研究か縦断研究かを確認します。

使用しているデータベースやデータの取り方などによって判断が変わりますし、論文によっては縦断研究っぽく書いているのに横断研究デザインであることもあるので、質が低めの観察研究を見る場合は要注意です。査読時にも最初に確認する点で、これによって論文の評価ポイントが変わってきます。

横断研究はJADER、FAERS、Vigibaseなどが有名ですが、他のデータベースでも情報の集め方によってこのような分析がされるケースもしばしばあります。基本的に仮説生成研究であり、曝露とアウトカムの時間的な因果関係が確認できないのですが、日本ではこういった負の部分が強調され過ぎている印象は少し感じます。この手の研究でも作用機序から因果関係が強く疑われる場合もありますし、より安全な代替薬があればそちらに処方変更提案するというエビデンスにもなりうるものだと思います。私は横断研究の場合は(査読でない限り)、方法論はそれほど詳細には読まないですし、そもそもアブストでストップすることがほとんどです。ただし、不均衡分析でも間違った方法論でやられている論文も多いのも事実かと思います。

縦断研究の場合は次から記載する曝露、アウトカム、共変量の定義を確認します。


薬剤の定義

まずは興味ある薬剤の曝露がどのような定義に基づいているかを確認します。現在増えているRCT模倣研究の場合、Intent-to-Treat (ITT) 解析とper-protocol (PP) 解析のどちらか、または両方が採用されていると思います。

ITT解析は曝露の定義が簡単である点がメリットで、主に初日に投与された薬剤で定義します。これはRCTのような厳密なプロトコル上で運用する研究では重要ですが、観察研究の場合はどうしても多くのバイアスが入ってきてしまう可能性が高く、臨床では様々な薬物治療が変更されることは多いと思います。その中でも例えば高血圧や脂質異常などの慢性疾患治療薬では比較的薬剤の中止や変更は多くは無いため、ITTのみで評価されている研究論文も散見されます。私はこういった薬剤でもPPで解析すべきだとは思いますが、査読で見逃されているのか、こういう手法が許容されているのかはわかりません。

一方で、簡単に薬が変更されるような疾患などを対象にする場合は、PP解析が併用されていることが多いと思います。実際ITT解析とPP解析の結果が乖離するRCT模倣研究もあり、この場合はPP解析の結果が重要視されることが多いように思います。どちらの解析が採用されているにしても、その定義が実臨床の実態を反映できているデザインになっているかを評価することが大切だと思います。また、これらの詳細がAppendixなどにも書かれていない論文もあり、過去の同様のデータベースを使った研究論文を参考にしたりするのですが、このような場合は曝露の定義が妥当と判断できるケースは少ないように思います。

この曝露の定義はデータベース研究だと査読時に疫学の専門家が入ると、非常に細かく指摘されることがあります。また、実際に解析してみるとわかるのですが、初日のみしか薬を投与していない(その後中止もしくは別の薬に変更している)患者が思いのほか多いことも経験するので、個人的には観察研究のITT解析の結果にはかなり懐疑的です。

PP解析の場合は単純に初日の使用で薬剤曝露を定義できないので、データ処理に工夫が必要です。ただし、この手法にもスタンダートな方法はなく、

①データベースの処方歴から処方を繋げて、曝露期間を算出する

②3-12ヶ月に1回処方があれば、薬剤曝露が継続と判断する(数年単位の観察期間を有する研究だとこれがよく採用されているように思います)

などが多く見かけるように思います。

どちらのデータ処理が良いのかというのを調査した研究などもありますが、各国の医療状況や薬の特性によって変わってくるので、現状では研究者自身が妥当性の高い方法を選択する必要がありますし、必要に応じて定義を変えた感度分析もするべきかと思います。

実際に何万人の患者さんの処方データを上記の定義で解析するのは、結構なスペックのPCが必要であったり、このデータをRやPythonで処理できるスキルが必要だったりと、少しハードルは上がってしまいます。今後はAIが処理してくれるようにもなると思いますが、どのようなデータ処理をしているのかという点は、常に確認が必要な部分だと思います。

最後にwashout periodが設定されているかどうかも確認します。特にデータベース研究では特定の薬剤が使用されている患者が、データベース組み入れ前から使用されている場合もあり、こういった患者群では曝露期間が低く見積もられてしまいます。このようなことを防止するために、データベースの組み入れ日から180-365日以内に薬剤曝露が開始となった患者を除外する、いわゆる新規ユーザーデザインが通常採用されます。


対照の定義

比較対照を何にするかという点も重要です。対照を薬剤の非投与群で定義している場合は特に注意が必要で、immortal time biasなど様々なバイアスリスクが生じやすくなります。これは薬剤の非投与群に対象とする疾患以外の患者が入ってしまったり、治療(非治療)に伴う様々な因子が両群でコントロールできなくなる可能性が高いためです。このため、SGLT2i vs DPP4iに代表されるようなネガティブコントロールを設定することが通常ですが、どうしてもネガコンが設定できない研究もあるので、そういった場合は想定されるバイアスリスクがクリアできているかどうかの確認が重要です。

また、このような場合ICD-10コードで対象疾患を絞る場合がありますが、そのICD-10コードが本当に目的とする疾患群を捉えているのかどうかというバリデーション研究の有無も重要となりますし、次に記述するICD-10コードの種々の問題点をクリアしているかどうかも確認する必要があります。


アウトカム/共変量の定義

アウトカムや共変量がICD-10コードで定義されている場合は、そのコード群が正しい臨床状況を反映しているかというバリデーション研究があるかどうかという点も重要です。バリデーション研究がなく、かつその正確性が疑わしい場合(特に日本ではレセプト病名、疑い病名などでコード付与されるため)はそのコード群に臨床的な妥当性があるかどうかは十分に吟味する必要があります。

ICD-10コードを使用していない場合もアウトカムの定義が先行研究と同じかどうか、またそれが臨床的に妥当性があるかどうかの評価も必要です。特に多施設共同研究の場合は同じ定義でカルテ情報を拾えているのか(各調査者の主観的な判断が大きく影響していないか)を確認します。

必要な共変量が調査されているかどうかも重要です。アウトカムに大きく影響する共変量がモデルに組み入れられていない場合、モデルの妥当性は低くなり、出力された結果の信頼性に影響します。これは統計解析のプロセスで変数選択(単変量解析の結果から多変量解析に入れる因子を決めたり、ステップワイズを用いた変数調整をすること)した場合も同様で、モデルに重要な共変量が入っていない場合の結果の信頼性は低くなります。

複合アウトカムを定義している場合、RCTでも同様ですが、おそらく複合アウトカムの中で最も軽度なアウトカムの頻度が高くなります。それが臨床的に妥当性があるアウトカムなのかどうかの評価は重要ですし、必要があれば感度分析でより重要なアウトカムだけで再分析する必要があります。

*例えばバンコマイシンのAUCと急性腎障害(AKI)の関連性を検討した結果、AUCが高い方がAKIリスクが高くなった研究報告は多いですが、AUCが高い群というのはより重篤な感染症であるために血中濃度を高くコントロールされていたり(重篤な感染ではAKIリスク増になります)、より重症な併存疾患のためAKIリスクが高い薬(注射の心血管薬の使用、抗菌薬の併用療法など)が多く投与されている可能性も考えられるため、単純にAUCが高いからAKIリスクが高くなったのではなく、別の要因によるAKIリスクの増加の可能性も想定されます。このように多くの共変量の影響を受けている可能性が高い場合には、多変量解析で調整が必要な共変量も多くなってしまいますし、それが調整できていない研究結果の妥当性は高くない可能性があります。



まだまだ観察研究の評価ポイントは沢山あるのですが、まずは薬剤曝露、対照、共変量/アウトカムの定義を確認するだけでも、研究の信頼性をある程度判定することが可能です。

もちろん完璧な観察研究は存在しないので、様々な事情で調整できない共変量が必ずあります。ただし、影響が大きくない共変量は調整されていなくても結果の妥当性には大きく影響しませんし、またビッグデータがある程度は解決してくれるケースもあります。また、単一の研究結果だけでなく、いくつかの観察研究で一貫した結果が得られていることも重要だと思います。

0コメント

  • 1000 / 1000