在医疗健康领域,我们迫切需要真实世界证据(RWE)来指导临床决策。然而,RWE通常来自观察性研究(如电子病历、医疗数据库),最大的“阿喀琉斯之踵”就是混杂偏差(Confounding Bias)。
简单来说:治疗A组的患者,可能本来就比治疗B组的患者更年轻、更健康。你观察到的“A疗法更好”,很可能只是因为A组的患者基础条件好。如何把一个“不随机”的观察性研究,变成一个“伪随机”的试验?
答案是:倾向性得分(Propensity Score, PS)匹配或加权。
1.1.先看看“RCT”到底干了啥?
随机对照试验(RCT)的核心是随机分组。也就是说:
不看年龄;
不看疾病严重程度;
不看医生偏好;
不看钱包厚不厚。
完全靠随机分组。
于是有一个非常关键的性质:在足够大样本下,治疗组和对照组在所有基线特征(已观测+未观测)上平均起来差不多。专业一点讲,就是:
T⊥X
治疗T与基线协变量X独立。
结论就是:可直接比两组结局的平均值;差值就可以被理解为治疗本身的因果效应;中间不用再费劲去调一堆协变量。
这是 RCT 的设计优势:从源头切断了“谁用药”的决定机制。
1.2.观察性研究的问题:治疗是“挑人”的
在真实世界里,治疗绝不是随机分配:
年纪大的,更可能上某种药;
病重的,更容易被加用联合治疗;
有肾功能问题的,被刻意避开某种药;
医生习惯、医院资源、医保政策,都在“暗中拉人”。
于是:治疗组和对照组,天生不一样。
形式上:Pr(T=1∣X),不同的X(患者性别、年龄、病情等)预测了患者的治疗方案。
1.3.PS 得分:体现个体的分配概率
那么我们是不是可以用患者的混杂因素去预测患者治疗的概率,然后通过这个概率去调整构建一个可比的伪人群?
答案:是肯定的。
我们可以通过Logistic回归、机器学习算法等进行预测。得到给定一堆混杂特征X,个体被分配到治疗组的概率:PS=e(X)=Pr(T=1∣X)。
在一定条件下,只要在给定PS的前提下,治疗与混杂独立:T ⊥X | e(X)。
翻译成大白话:在“PS相同”的人群里,治疗组和对照组的基线分布是一样的。
也就是说:
RCT:在“事前”通过随机化,让T与X独立
PS 加权:在“事后”通过加权,让加权意义上的 T 与 X 近似独立
原理是一样的,都是为了得到一个“可交换”的世界,给谁用药这件事,和患者的基本特征“脱钩”。说到这里,PS加权,只能模仿RCT的一部分性质,它永远不可能成为真正的 RCT。
倾向评分加权所做的,是先用一个模型刻画“每个人本来被分配到某种治疗的倾向(概率)”,再利用这一概率给每个人设置合适的权重,构造出一个“伪人群”。在这个伪人群里,个体被分配到治疗组和对照组的概率是一样的,在已观测协变量上的分布趋于一致,从而在设计思想上尽量靠近RCT,结局差异更可以被理解为治疗本身的差异,而不是“患者本来就不一样”。
很多人最早学的倾向评分方法是:PS 匹配
即:找一个概率差不多的人,跟你做对照,听起来合理,但它有三个致命问题:
第1个问题:浪费数据:
很多人找不到“合适对象”,直接被丢掉了;
样本量瞬间缩水 → 精度大幅下降。
第2个问题:看起来平衡,可能是假象
有时候,匹配后反而更不平衡,也就是说,你以为平衡了,其实只是换了一种不平衡。
第3个问题:回答的不是你想问的问题
因为你真正比较的是:一小撮“刚好合得上”的人而不是原本的研究总体。但是你往论文里写的却是:“XXX药物对糖尿病患者的作用”。
而加权它不是剔除不平衡的个体,而是通过数学“权重”来给每个个体重新赋值,从而在统计上创造出一个两组基线特征完全平衡的“虚拟人群”(Pseudo-population),这就像让不同重量的砝码,在天平上达到了平衡。
原文来源:https://mp.weixin.qq.com/s/q4UwdwfUrN_iInfk7R3J3w