一场长达40年的开卷考
一场长达40年的开卷考
李华芳 | 匹兹堡大学
1
这篇文章的背景与公共管理研究最近一二十年里发生了一场静默的“星号通货膨胀”紧密相关。三颗星( *** p<0.01)曾是统计严谨的标志,如今却沦为许多论文的装饰。仿佛只要数据经过适当“处理”,总能找到几组显著的结果。那些追星星的人,让大量发表出来的研究都看起来很美。
而这篇介绍的文章是由斯坦福大学的经济学家Guido Imbens (2021年诺贝尔经济学奖得主 无实验,不因果?2021年诺贝尔经济学奖简评)与斯坦福大学的青年政治学者徐轶青合著的《Comparing Experimental and Nonexperimental Methods: What Lessons Have We Learned Four Decades after LaLonde (1986)?》,回顾了因果推断领域过一场四十年的开卷考。
轶青是【读品贩子】的老朋友了。(参见《快乐社科联线》文字整理稿,长达3万多字,要收获需耐心 | 美国高校青椒如何理财?)轶青比我年轻,但学术上却是我的先进,我的博士论文也离不开这位指导老师。举贤不避亲,这篇文章绝对值得一读。
Guido Imbens和徐轶青的这篇文章,是对LaLonde (1986)考题的回应。考题是公开的:在无法进行科学随机实验的现实世界里,我们真能相信那些看起来很美的研究吗?
LaLonde当时的回答,客气点说是恐怕不能,不客气的话就是not even close。四十年后,答案又如何呢?
2
让我先解释一下什么叫随机实验,以及为什么真实世界里往往没有办法做随机实验。
在科学研究中,随机对照实验(RCT)是公认的“黄金准则”。比如测试一种新药,我们随机把病人分成两组:一组吃药,一组吃安慰剂。因为两组人是随机分配的,唯一的差别就是吃没吃药,其他条件(年龄、体质、生活习惯等)在大样本下几乎是一样的,或者说他们在统计上没有任何差别。如果过了一段时间,最后吃药的那组病好了,我们就可以说:是药发挥了作用。(参见实验微光照亮贫困世界—简评2019诺贝尔经济学奖 | 公共管理如何搞实验?)
但在社会科学,尤其是公共管理领域,我们面临一个巨大的困境:那就是绝大多数时候,我们没有办法做实验。
比如我们经常看到读书无用论,主要是有人质疑读书的不如卖肉的收入高。对此的科学回答当然是随机选一批孩子多读书,然后另一批随机选的就不读了,去打工之类的,然后追踪他们几年甚至几十年,看看收入水平是不是有差异。因为孩子们是随机选取的,所以除了是不是多读书之外,没有什么差异,如果最后读书人未来的收入更高,那么我们就可以理直气壮地支持多读书。(参见 你只能靠读书改变命运 | 读书总有用)
但现实是第一步就没有办法实现,你很难“随机”选一部分孩子去上学,让另一部分辍学。凭什么?凭摇号凭运气吗?这是显失公平,不符伦理。所以现实中要“随机实验”困难重重。
另外政府的很多政策都是指向一个特定群体。比如就业培训是为人帮助人找工作,但找工作的人里大相径庭。所以很可能有一些人很有上进心所以参加了培训项目。假如政府推行了一项“职业技能培训计划”。参加培训的人后来工资确实高了。那么这究竟是因为培训有效,还是因为那些愿意参加培训的人本身就更有上进心导致的呢?
如果最后证实其实就是因为人的上进心导致的,那么培训项目就可能只是浪费钱。这种由于非随机分配导致的偏差,经济学上称为“选择性偏差”,意思就是更有上进心的人更有可能自我选择去培训。这种自选择导致的偏差让我们分不清这是“培训的功劳”还是“人的上进心”。
3
1986 年,Robert LaLonde 发表了一篇基于其博士论文的具有里程碑意义论文。也正是这篇文章让很多人灰心丧气。他把一个真实的实验数据(作为标准答案)和当时流行的各种非实验统计方法(回归分析之类的估算答案)进行对比,结果发现:非实验方法算出来的结果简直是南辕北辙,根本对不上。这引发了巨大的信任危机,称之为“因果推断的黑暗时代”也不为过。
为什么会南辕北辙呢?这里有两个背景因素需要解释。LaLonde1986年的研究用的数据是1970年代美国的“国家支持工作示范项目”(NSW)。第一个背景是参加这个培训项目的人可以说有很多边缘人士。样本中大部分是少数族裔、失业的。参加培训的有许多单亲妈妈和有前科的刚被释放的男性。他们过去几年的收入要比普通人要低很多。
第二个背景是方法上当时流行Hackman两步法,大家觉得走两步这个高级的统计方法能解决选择性偏误的问题。但LaLonde得出的结论却给这个思潮泼了一盆冷水。
LaLonde当年的警示在今天依然有效。当我们将参加职业培训的底层失业者与全国样本中的普通工作者比较时,我们不仅犯了方法错误,更暴露了想象力的贫乏。因为我们竟然相信,这两个群体除了“是否参加培训”外,其他方面“在统计意义上”是等价的。
另外按照LaLonde的看法,回归模型、标准误、显著性检验等工具本身并无过错。真正的危机在于,我们逐渐养成了一种“统计仪式主义”:将复杂的因果问题简化为控制变量的技术操作,将社会过程的厚重性压缩进简单的回归系数。
考题是公开透明,就是非实验数据分析能和实验数据分析一样吗?因果分析革命就是要回答,如果不能实验,有没有可能用非实验数据“逼近”实验结果?以及多大程度上我们可以相信这种“逼近”?
这个示范项目是一个实验,所以有一个实验组,包括那些真正通过抽签进入培训计划的人。而对照组就是那些虽然抽了签但是没有被选中的人。另外LaLonde还从全美人口调查数据(CPS或PSID)中选出来一批人作为非实验的对比组。这个非实验对比组就是我们用来模拟真实世界的挑战的。
面对这场开卷考,LaLonde的思路是先看标准答案,利用实验组和实验对照组计算出培训到底有没有增加收入以及增加了多少收入(可以把这个看做是答案)。然后假设我们没有实验对照组,只能从茫茫人海中选一组相似的人作为参照,这样我们就“人为”创造了一个非实验对比组可以用来与实验组进行比较。
为什么要这么做呢?因为只有我们的“人为”非实验对比组能和实验组真正进行比较,换句话说,不管我们使用什么模型,要是我们能在已知真相的情况下推导出正确答案,我们才敢在真相未知的现实政策评估中放心使用它们。
4
这“人为”就是我们大有可为之处。
在过去的40年里,研究者工具箱里的工具越来越多,例如比如倾向得分匹配、双重稳健估计、机器学习方法等。
而Imbens和轶青提交的这份答卷,主要就是写下:四十年来,我们在因果分析上有了更先进的工具,那么我们能比LaLonde那时做得更好吗?这些方法上的进展能给我们更多信心吗?
Imbens和轶青得出的结论如下:
1. 选对“像”的人比选更多人重要。LaLonde当年把参加培训的“贫困失业者”和全美调查里的“普通打工人”混在一起比,但我们现在知道这两群人的差别其实非常大。如果我们用现在的技术看“重合度”(Overlap),只在那些看起来确实“有可能参加培训”的人群中做对比,剔除掉那些完全不沾边的人,结果会准确得多。当然,按照轶青的说法,不管是用CPS还是PSID样本,要找到实验样本重合度足够来对照,非常困难。
2. 相比 40 年前,现在的估计方法(如倾向得分加权、子抽样分析等)在处理数据偏差时表现得更稳健。只要我们掌握了足够丰富的个人背景信息(比如过去几年的收入轨迹),非实验方法也能给我们一些有益的信息。但是如果没有办法评估“识别假设”的话,我们得到的是一个“统计估值(Statistical estimand)“,而不一定是因果的。两者之间的差距要通过识别假设来弥补。也就是说,当你没有信心说那些对选择重要的因素已经被度量和观察的时候,就没法对识别假设有信心。
3. Imbens和徐轶青的文章系统梳理了现代因果推断的逻辑骨架,其中最重要的结论或许是:想通过数学技巧凭空变出因果关系是不现实的,关键在于“观测变量的质量”。即你是否记录了所有影响决策的关键因素?
这第三点其实和我一直说的学界要努力提高数据质量是一样的。
5
而且这对公共管理学者而言,恐怕是很要紧的一个提醒。
我们虽然已经跨过了看到一组数字增长就说政策有效果的阶段(当然也有人说我们真的跨过了吗?利用数据耍流氓的比比皆是),但我们必须重视预处理,尤其是在做政策或项目评估之前,要先看看“对照组”和“实验组”是不是真的具有可比性。如果两群人本来就是两个世界的,那么哪怕再高级模型都很难弥补数据的缺陷。
还有非常重要的一个提醒就是要做安慰剂检验。就像新药测试一样,我们在社会科学里也要做“假手术”测试。
在医学里,安慰剂(Placebo)是一颗没有药效的药丸,通常为了尝起来好吃点,就用糖丸。如果病人吃完糖丸病就好了,那说明药效可能是心理作用。在因果推断中,安慰剂检验的逻辑如出一辙:如果在一个“理论上绝对不应该产生效果”的地方,用你的统计模型却算出了“显著效果”,那说明你的模型是错的,有毒。
具体而言,我们可以换一个假装的结果,找一个理论上完全不受政策影响的变量作为结果变量。在上面的培训是否影响工资的例子中,正常而言我们会看培训后的工资,例如1978年的工资。但安慰剂检验可以拿一个完全无关的变量,例如眼球颜色之类的(但秃头可能是相关的结果变量),如果用你的模型算出来参加培训能让人的眼睛从黑的变成蓝的之类的,那么说明你的模型把一些无关的系统性差异当成了因果效应,你的模型就是错的。
还有一个安慰剂检验的办法是换个假的时间段。例如“穿越”回去一个政策还没有发生的阶段,看看用你的模型能不能算出“效果”。例如1976年开始职业培训,正常我们会对比1974-75年(前)和1977-78年(后)的差异。但我们假装穿越,假设政策1973年就开始了,然后对比1972年和1974年的收入。因为实际上1973年还没开始培训,所以对照组和实验组的收入变化趋势应该是一样的。但如果你的模型算出来1974年就有显著收入差别了,那说明收入差别其实是两组人本来就有的先天差异(选择性偏差)导致的,而不是培训带来的。
一句话,如果你在政策还没实施的时间段里,就通过模型算出了“显著效果”,那很显然就说明你的模型是错的。安徽剂检验就像是科研界的“测谎仪”。如果你的模型连“假药”都能算出疗效,那它算的“真药”效果又有多大可信度呢?
6
40 年前,LaLonde 给学术界泼了一盆冷水,告诉大家:“别乱猜了,你们算的都不准。” 40 年后,Imbens 和徐轶青通过这篇回顾告诉我们:“路虽然难走,但我们或许已经找到了正确的地图。”
Imbens 和徐轶青给社会科学研究者提供了5条建议:
首先,任何使用非实验数据进行的因果效应分析,都应从仔细调查“处理赋值机制”(Treatment Assignment Mechanism)开始。 清楚地理解研究的“设计”对于评估“无混杂性假设”(Unconfoundedness Assumption)的可信度至关重要。只有当研究者确信,进入处理组的选择过程是由那些已被充分理解、观测并测量到的因素驱动时,依赖无混杂性假设的理由才最为充分。在这种情况下,灵活地调整观测到的处理前协变量,可以减少对强模型假设的依赖。如果存在重要的不可观测混杂因素,研究者可以转向面板数据方法,以处理那些不随时间变化的不可观测混杂因素。
其次,评估并改善协变量分布“重合度”。 LaLonde 当年使用的对比组与实验样本之间存在显著差异,这促使他不得不根据年龄、就业状态和收入剔除部分样本。自那时起,学者们开发了更系统、更由数据驱动的方法来诊断和解决重合度不足的问题,包括基于倾向得分的剔除和加权策略。虽然这可能会牺牲一定的统计效率,但这种损失通常很小。相对于分析质量而言,代价非常值得。
第三,与此相关的是,倾向得分已成为诊断重合度和估计处理效应的核心。 现在的研究人员常规性地使用灵活的方法来估计倾向得分,并通过对比处理组和对照组的倾向得分分布来评估重合度。必要时,可以对样本进行剔除以提高可比性。双重稳健估计,尤其是那些结合了结果建模与倾向得分逆概率加权的方法,只要结果模型或倾向得分模型中有一个设定正确,就能得出一致的估计。再加上机器学习技术与因果推断的结合,能进一步减少对人为特定模型设定的依赖。
第四,从单纯估计平均处理效应(ATE)转向理解处理效应的“异质性”(Heterogeneity)。 决策者越来越多地追问:这项政策不仅是“有效吗?”,更是“对谁有效?”以及“在何处会产生负面影响?” 大量研究者已经开发出估算“条件平均处理效应”(CATE)和“分位数处理效应”的工具。这些估计量有助于揭示异质性影响,并为个性化政策决策提供依据。大数据集和算法的进步使得灵活、大规模地估计这些效应变得更加容易。
最后,因果估计的可信度越来越取决于验证性练习——特别是“安慰剂检验”。 虽然 LaLonde 在研究中包含了一些使用滞后收入的安慰剂分析,但他当时的主要焦点是将非实验估计值与实验标杆进行对比。相比之下,现代实践更强调正式的诊断检查。例如,通过估计那些已知不受处理影响的结果变量的效应,安慰剂检验可以为无混杂性等关键识别假设提供极具参考价值的检查,因此应该在实证分析中更常规地使用。
正如Imbens 和徐轶青文章所展示的那样,通过更精细的数据采集、更严谨的重合度分析以及更深思熟虑的统计模型,这场长达40年的开卷考展示了我们正在接近那个“真实的世界”。这不是学术上的数字游戏,而是为了让每一分公共资金都能花在刀刃上,让每一项社会政策都能真正造福于人。
轶青帮我看这个稿子的时候,还提供了他自己学到的最重要的一课,那就是:区别统计估值和因果识别。好的方法能够帮助我们更准确地估计统计估值,但是否具有因果关系还是取决于你是否信任识别假设。
7
对于公共管理学者而言,很多争论最终指向一个很实际的问题:政策研究为谁服务?如何负责?
传统公共管理研究隐含了一种单向关系:研究者评估,决策者采纳。但真正的因果推断要求深入理解政策实施过程,打开政府这个黑箱,这意味着研究者必须对话政策执行者。这当然有出于利益考虑的妥协,但更是认识论的一个必要选择:因为只有政策执行者最清楚分配机制的实际运作。
最危险的政策研究或许还不是有缺陷的研究,尤其是缺陷被摆在台面上的时候,反而是那些过度包装“确定性”的言之凿凿的研究。当复杂的因果推断方法被简化为媒体头条上的“研究表明……”,可能会产生研究本身不能承受之重。研究者的责任不仅是生产知识,更是传递恰当的不确定性。这需要一部分学者更用心用力,让统计不确定性转化为公共讨论的资源而非障碍。
值此岁末,当我们回顾方法论领域的最新进展时,或许应当警惕两种对称的诱惑:
一方面,是技术主义的傲慢——认为更复杂的模型、更大的数据、更精巧的识别策略能够自动产生更好的因果认识。Imbens和徐轶青的分析恰恰表明:没有对现实过程的深刻理解,技术工具只会更高效地产生系统性错误。
另一方面,是直觉主义的回溯——因为方法的局限而退回到“个人洞察”或所谓“理论思辨”的舒适区。因果推断四十年积累的真正智慧是:我们不必在粗糙量化与放弃量化之间二选一,而是可以追求严谨的谨慎。
1986年,LaLonde的冷水泼醒了盲目相信统计模型的一代学者;而四十年后Imbens和徐轶青的分析则告诉我们:觉醒之后,道路依然漫长。
这条道路的终点不是方法的完美,而是研究伦理的重建——它要求我们同时具备两种看似矛盾的美德:技术上的严谨,与认识上的谦逊。
前者让我们不断打磨工具,在数据的约束下寻求最可靠的推断;后者让我们时刻警醒,任何统计模型都只是真实世界的简化投影。重要的不仅仅是提高数据收集处理的透明度,也要提示各种方法的局限性。在公共管理这个既需要科学精确性、又承载着价值选择的领域,这种双重意识或许是最重要的方法论“进步”。
所以当我们再次看到那些漂亮的回归表和显著性星号时,或许应该多问一句:这张表格背后,研究者是否走完了从数据收集到伦理反思的完整循环?是否认真对待了那些无法被星号标记的、却决定研究价值的根本问题?
毕竟,在无法实验的世界里,我们的方法论选择,会影响我们成为什么样的学者与公民。
最后,农历马年来临之际,谨以此句与在学界信马由缰的诸位共勉:
沙场逐星终须坠,崖畔回缰始见真。
Imbens, G. W., & Xu, Y. (2025). Comparing Experimental and Nonexperimental Methods: What Lessons Have We Learned Four Decades after LaLonde (1986)? Journal of Economic Perspectives, 39(4), 173–201. https://doi.org/10.1257/jep.20251440
另轶青他们还提供了一个详细的在线教程(包括 R 代码和文章使用的数据),参见:yiqingxu.org/tutorials/lalonde/。
阅读更多:



