こんにちは、Rikです。
メルマガ購読いだだきまして、本当にありがとうございます!
今回は12月にNEJMで発表された「Comparative Effectiveness of BNT162b2 and mRNA-1273 Vaccines in U.S. Veterans」をみていきます(https://www.nejm.org/doi/full/10.1056/NEJMoa2115463)。
ファイザー(BNT162b2)とモデルナ(mRNA-1273)のワクチン効果のhead-to-head comparisonという面白そうなテーマです。ハーバードの疫学グループが主導の研究で、コホートを使いながらTarget trial emulationという方法で因果効果を推定しています。
今後流行ってきそうな考え方ですが、Trialistsの中で少し議論のあるものなので、その辺りを解説してみようと思います。
目次:
✔︎背景
✔︎どういう研究?
✔︎Table 1がすごいが、、
✔︎結果は?
✔︎議論のあるポイント
✔︎まとめ
✔︎背景
RCTでファイザーワクチン(BNT162b2)とモデルナワクチン(mRNA-1273)はそれぞれ95%程度の「有効性」があると示されています。ただしdoseに含まれるmRNA量や投与間隔に差があり、モデルナの方が抗体価が高くなると示されています。これによりモデルナの方が良いのでは、と示唆した研究もありますが、疫学的には示されていません。
というか、今更「ファイザー vs モデルナ」のRCTを組むなんて、ややナンセンスですよね。どちらもかなり効く+安全なわけで、大規模RCTを組む労力に見合わない。
そこでこの研究では、アメリカ退役軍人の大規模コホートを使って、あたかもRCTをやったような解析(target trial emulation)をしてみた、というわけです。
✔︎どういう研究?
130の退役軍人の医療データベースを統合したコホートを使います。600万人の退役軍人が、いつどのワクチンを受けたか、どういう転機を辿ったか、などの情報があるわけです。すごいですよね。
Target trial emulation=RCTの模倣をやるわけですが、これは解析法ではなく、観察研究の捉え方、と言えます。これがわからないと、Table 1みて「すげー」という印象で終わってしまいます。
まずRCTらしくinclusion/exclusion criteriaを設定します。当然今までワクチンを受けていない+コロナ感染していない成人、というのがざっくりとしたinclusion criteriaです。
さて、intervention/comparisonは、ファイザーワクチン(BNT162b2)とモデルナワクチン(mRNA-1273)。
outcomeは5つ設定してあり、コロナ感染、ICU入室、コロナによる死亡など。
follow-upは、最初のワクチン投与日〜follow-up期間(2021/7)までとなります。
次にStratified randomizationを模倣します(これが一つ議論のポイントになります)。この論文では、calendar date, age, sex, race, urbanicity of residence, and geographic locationでstratifyすると考え、これらの要素でマッチングしました。
そしてoutcome measureはrisk ratio, risk differenceとしました。
✔︎Table 1がすごいが、、
目を引くのはTable 1です。これがNEJMに採択されたかなり強い要因とも言えます。
つまり、ほとんどの要素がperfect matchしているのです。
これはそういうアルゴリズムでマッチングをやったから当然の結果なのですが、Table 1としてpresentationされると、やはり目をひきます。
*実際にランダム化してもここまで揃いません
しかしTarget trial emulationのポイントはそこではありません。繰り返しですが、「RCTを模倣した考え方でコホートを解析する」ということが大事なのです。このマッチングは交絡因子の調整法に過ぎません。
*RCTで大事なのはFigure 1、study flowです。ここで「exclusionによりどのようなselection biasが生じているか」確認することが極めて重要です。ご覧のとおりTarget trial emulationだとかなり多くがexcludeされ、external validityは?となっています。
✔︎結果は?
一番見せたかった結果はKaplan-meier curveです。
それから切り取って、例えば24週間の感染リスクは、ファイザーで5.75/1000人、モデルナで4.52/1000人となりました。
リスク比は1.11 (95% CI, 0.69 to 1.91)でした。
リスク差は1.23 (95% CI, 0.72 to 1.81) / 1000人 over 24 weeksでした。モデルナの方が少ない。
結果、NNTは813 (95% CI, 552 to 1389)でした。1人の感染を減らすには813人をファイザーの代わりにモデルナを打つ必要がある、ということです。
その他いろいろなsensitivity analysisをしています。
*ポイントは「p<0.05」「95% CIが1や0を含む」かということで「有意かどうか」という判断は重要視していない、ということにあります。
✔︎議論のあるポイント
結論は、そんなに差はないだろう、となりました。
このtarget trial emulationというframeworkについて、少し深掘りしていきたいと思います。
■target trial emulationはすごいのか?
まず重要なのは、これは(素晴らしい)観察研究の取り組み方だが、当然ランダム化試験ではない、ということです。いくらTable 1が揃っていようと、unmeasured confoundersは揃いません。そもそもRCTのすごいところはunmeasured confounderを含めてfairなdistributionとする点にあるわけです。
この論文は推定された因果効果の質が高いと判断されますが、それは「そもそもconfounderが少ないテーマである」というところが大きいです。ファイザーを打つかモデルナを打つか、という判断の原因になる事柄が、感染率や死亡率に強い影響をもつことは考えにくいです。地域や年齢が特に重要な因子ですが、それらはmatchingされています。
つまり、どんな方法の解析であったとしても想定されるconfoundingは少なく、それなりにvalidなestimateが得られるという意味です。
でもそんな中、キチンとinclusion/exclusionを設定して、マッチングによりconfoundingを調整する、というのは理想的な方法だということです。
なお、論文中に「RCTだったら、これらの因子でstratified assignmentすることが考えられる」とかいてあります。stratified assignmentは、より強力にその因子のconfoundingを調整するRCTのassignment方法です。これは理論的には推奨されますが、実際のRCTで取り入れられることは今のところ少ないです。
■「有意かどうかの判断」がなくてもよいのか
普通研究というと「〇〇は有意差があった。だから大事だ」みたいな主張を想像しますよね。でもこの論文はそのように判断していません。
これはとても大事で、結局hypothesis testingのframeworkに当てはめられる(=有意ありなしの判断が妥当と考えられる)のは、適切なpower calculationをしたRCTのみ妥当だ、という事実がにあります。ただしpower calculationもなかなか現実的には難しい部分もあり、、
より本質的なのは、「因果推論の目標は因果効果を推定する事にある(estimate [95%CI])」というところに行き着きます。それが1や0をまたごうが、些細なことです。より正確に(CIが狭い形で)、妥当な(バイアスのない=RCTに近い)因果効果が推定できれば、それがゴールなのです。
実際この論文でも、RRは有意でないのにRDだと有意な項目が見受けられますよね。そんなのは大事じゃないんです。
そもそも一つの観察研究で結論が得られる状況は非常に限られています。多くはメタ解析が必要です。このあたりはHernanのコメンタリーが参考になります(https://riklog.com/research/observational-sample-size-calculation/)。
✔︎まとめ
観察研究はtarget trial emulationが良い方法だ、ただしこの論文のトピックについてはconfoundingがそもそも少ない、有意かどうかはどうでもよく、より正確な因果効果を推定することが目標、という感じのまとめになります。
ファイザーもモデルナもそんなにかわりありませんでした。
ご意見、感想、批判などありましたらコメントいただけると嬉しいです!
ではまた。
下記のボタンから、このメルマガを無料購読できます。毎週火曜日の朝7時に、最新の医学論文解説を配信します。
メルマガのシェアをいただけると大変嬉しいです!拡散いただけると続けるモチベーションになります。