应用定量社会学中的控制变量选择问题:批判性回顾
Controlvariableselectioninappliedquantitativesociology:acriticalreview
译者导读
是否明确定义了研究中的参数?
是否为控制变量调整集的选择提供了充分的理论依据?
是否正确解释了控制变量的回归系数?
摘要
AreviewofallresearchpaperspublishedintheEuropeanSociologicalReviewin2016and2017(N=118)showsthatonlyaminorityofpapersclearlydefinetheparameterofinterestandprovidesufficientreasoningfortheselectedcontrolvariablesofthestatisticalanalysis.Thus,thevastmajorityofpapersdoesnotreachminimalstandardsfortheselectionofcontrolvariables.Consequently,amajorityofpapersinterpretbiasedcoefficients,orstatisticswithoutpropersociologicalmeaning.Wepostulatethatauthorsandreviewersshouldbemorecarefulaboutcontrolvariableselection.Weproposegraphicalcausalmodelsintheformofdirectedacyclicgraphsasanexampleforaparsimoniousandpowerfulmeanstothatend.
一、导言:为何控制变量的选择至关重要?
控制变量的选择是非实验研究中最关键的决策之一。随着定量社会学研究的深入,控制变量的选择已成为因果推断中的核心难题。在许多社会学研究,尤其是基于观察性数据的研究中,因果效应的估计往往依赖于模型中所选的控制变量。控制变量的恰当与否,直接决定了暴露变量(X)与结果变量(Y)之间关系的解释是否精准。然而,尽管这一问题在定量社会学中普遍存在,却鲜有研究深入探讨其理论基础与方法论合理性。
本文的出发点源自Toshkov(2016)的再分析,他对Piatkowska、Messner和Raffalovich(2016)的研究提出质疑,揭示了控制变量选择对研究结论的深远影响。Toshkov(2016)通过对原始数据的再分析,发现欧盟东欧成员国的欧盟加入对谋杀率的正向影响,在重新选择控制变量后消失。这一发现表明,控制变量的选择不仅仅是统计分析中的技术性问题,更是任何观察性研究设计中的核心决策。不当的控制变量选择可能显著扭曲因果效应的估计,甚至完全改变研究结论。相较而言,诸如非线性概率模型的标度参数校正或倾向得分匹配的选择等统计细节,通常对社会学结论的影响较小。因此,本文认为,控制变量的选择是定量社会学研究中最为关键的设计决策之一,直接决定因果推断的有效性。错误的控制变量选择不仅可能导致因果效应的误估,更可能误导社会学理论的进一步发展。研究者应在理论假设的指导下,谨慎选择控制变量,并构建明确的因果模型。
二、研究对象、问题与回顾标准
为此,作者在回顾过程中设定了三个主要标准:
通过这三大回顾标准,作者希望能够揭示现有文献在因果推断方法上的常见不足,并提出改进建议。特别是在控制变量选择和回归系数解释上,针对很多研究存在忽视理论假设、未能充分考虑潜在偏误的情况作出辨析。这些标准为后续的分析提供了清晰的框架,同时为改进定量社会学研究方法提供了指导。
为深入理解控制变量选择的重要性及其在因果推断中的作用,本文引入了因果图模型(DAG)作为可视化工具,帮助指导控制变量的选择。DAG通过图形化展示变量之间的因果关系,帮助研究者明确哪些变量应被控制,哪些应被排除。本文认为,DAG不仅能提升因果推断的透明度,还能帮助研究者更好地理解控制变量选择的理论依据,减少方法学上的错误。
在进行实际回顾之前,本文希望澄清并避免两种可能的误解:
第一个误解是,读者可能认为我们的回顾标准仅适用于那些假设图形因果模型优于潜在结果框架的研究者(例如计量经济学中的框架,Angrist和Pischke,2009年提出,Morgan和Winship(2007年)或Gangl(2010年)等学者将其引入社会学领域)。实际上,这篇回顾同样可以基于潜在结果框架进行,并且在实证结果上不会有任何实质性差异。尽管如此,我们希望因果图模型的方法能够为应用社会学研究者提供启示,推动这一思想的传播。
第二个误解是,读者可能认为,只要满足所有回顾标准,就能证明某个分析是有效、合理的,或者符合良好的实践标准。我们认为,这些回顾标准只是最低要求。如果一个分析涉及调整了控制变量的关联,我们要求对这些控制变量提供某种理论性解释。提供这些解释并不意味着它们一定是正确的,或在所有必要的控制变量都已调整的情况下是完整的。即便我们的标准得到满足,未观察到的异质性(unobservedheterogeneity)仍可能成为问题,针对这一点,我们在文中明确提到控制未观察到的异质性的方法(Wooldridge,2010)。
三、参数定义
3.1.概念辨析
3.2.回顾标准
在本文的目标研究设计中,作者在控制了一个或多个其他变量(A)后,分析并解释了两个变量(X和Y)之间的统计关联。回归分析是这一设计的典型代表,研究者在回归模型中解释协变量的回归系数,同时控制其他变量的影响。如果作者将A中的每个变量逐一视作暴露变量(X)进行分析,那么这种设计将被多次应用。
调整后的暴露与结果之间的关联被视为因果效应的估计。
调整后的非因果关联被视为对某一理论的支持或反驳。
尽管“因果效应的估计”易于理解,但实际估计因果效应却充满挑战。一个主要问题是未观察到的异质性(unobservedheterogeneity),即暴露变量X可能是由未知或未测量的协变量Z引起,而Z与结果变量Y之间也可能存在其他关联(见图1a)。
图1a.未观测到的Z变量对暴露与结果之间的关联起到了混杂作用.此处,X与Y之间的统计关联不能简单地被解释为总效应.
为了解决未观察到的异质性,研究者需要创建一个独立于混杂协变量Z的暴露变量。这可以通过随机分配暴露(经典实验)、控制混杂协变量、测量未观察到的协变量并进行统计调整,或者使用回归模型、工具变量回归等方法来实现。
无论采用何种方法,估计因果效应的研究设计必须满足一系列基本要求,这些要求已被广泛接受并且具有规范性。任何偏离这些标准的做法都可能成为批评的依据。因此,研究者在实际操作中往往避免将统计关联明确解读为因果关系。许多研究者虽然将结果表述为“仅仅是关联”,却仍使用诸如“X影响Y”之类的因果性语言(Breen,2018)。Grosz等人(2020)指出,这种回避因果推断的做法并非社会学独有的现象。
如果某个关联仅仅是关联,那么它究竟意味着什么呢?以鹳密度与生育率的例子为例,尽管鹳并不会直接增加家庭的孩子数量,鹳密度与生育率之间的正向关联实际上是由城市化因素所引起的(见图1b)。当控制城市化因素后,这一正向关联便会消失。
图1b.鹳密度与生育率之间本存在关联。而控制城市化因素后,这一关联被消除,那么“正确”的关联是什么?
图2.在社会经济地位(SES)和美丽(Beauty)之间,某些关系虽然并非因果关系,但却在理论上可以解释,并且具有一定的理论价值.
这个例子表明,关联的意义源自支持它的理论。稳定的关联只有通过包含因果语句的理论才能得到解释(参见Elwert,2013:249-252页),因此,我们称这种理论为“因果模型”。即便研究者不打算探讨因果效应,也应明确指出支撑该关联的因果模型。尽管这些假设可能受到批评,但这有助于提高结果的透明度和可验证性。正如Greenland(2022:605页)所言,“统计学要求有现实的因果模型,即便是纯粹的描述性研究。”
因此,在本次回顾的第一步中,我们将检验作者是否明确了所报告关联的理论含义。如果作者表明其研究目标是探索(某种形式的)因果效应,或清晰阐述了预期关联的因果模型理论框架,我们认为该研究达到了评判标准。
3.3.操作化
关于本章节的具体操作化部分,对于决定论文是否定义其研究参数的编码规则的结构以及有关数据收集过程和决策可靠性的更详细信息,请参见原文及其附录。
3.4.参数定义回顾结果
在58篇选定论文中(占61%),作者未充分阐明研究的效应(见表1)。所有明确概念定义的论文都旨在估计因果效应,且没有使用关联来支持理论模型。对于概念上未定义的论文,我们发现隐性参数与此相似。
总的来说,概念上明确定义研究参数的论文数量较少,这被视为一个严重问题,因为它使得研究免受方法论批评,而Lundberg等人(2021)也得出了类似的结论,这说明该现象在学界可能普遍存在。此外,所有明确避免将关联解读为因果关系的论文仍然在分析设计中隐含了因果效应,或在解释估计结果时使用了因果性术语。而对于那些声称没有明确追求因果效应的论文,情况也是如此。可以说,将研究重点转向关联而非因果效应,被视为了一种常用的“逃避批评”的策略。
四、调整集的合理性
本节讨论了因果研究中合理化调整集选择的基本要求,强调调整集的选择应基于明确的因果模型,并且应避免因果关系假设中的错误和薄弱环节,以确保因果效应的准确估计。依据经典的因果研究方法文献(如Rosenbaum,1984;Morgan&Winship,2007;Pearl,2009;Elwert,2013)。我们聚焦于总效应,并指出研究直接效应或间接效应的研究者也需遵守这些要求,并额外满足其他标准(如Breen,2018)。
4.1.评判标准
4.1.1因果关系
为识别总效应,研究设计必须满足以下假设之一:单元同质性、独立性、常效应或条件独立性假设(Holland,1986)。在非实验设计中,通常通过协变量调整来满足条件独立性假设。协变量调整的目的是选择一组协变量A∈Z,阻断暴露X和结果Y之间的非因果路径,同时保持因果路径不受阻断。这一“调整标准”(Shpitseretal.,2010)对实证研究具有重要意义。
假设一研究者希望估计父亲教育对儿子职业的总效应,图3a和3b展示了符合调整标准的设计。在父亲教育对儿子职业的总效应估计中,必须控制父亲职业,以阻断通过未观察变量U1U1U1的非因果路径。同时,不能控制其他变量,因为这会阻断因果路径。如果假设所有效应线性且同质,则总效应可以通过回归模型
Oc=α+βFaEd+γFaOc+ε
来估计,其中,FaEd为暴露,β为总效应估计,FaOc为调整集。
图3.暴露(X)对结果(Y)总效应的识别(a)父亲教育水平对儿子职业的影响;(b)儿子教育水平对儿子职业的影响.
关键点:调整集的选择取决于假设的因果模型,而这些模型是可辩论的。因果模型中的错误或假设的薄弱环节,可能导致偏倚的估计。例如,社会地位达成模型假设父亲教育与儿子职业的关联应通过父亲职业传递,因此控制父亲职业可能会引入“过度控制偏倚”(Grtz,2019)。在此情况下,识别父亲教育对儿子职业的效应,必须调整未观察变量U1,这要求对这些变量进行观测或使用控制未观察异质性的统计技术。
要求1:因果研究中,暴露X和协变量Z之间的因果模型必须得到合理化。研究者应明确每个协变量是否为暴露的前因或后果。后果变量(如“后处理”变量)不应控制,必须从调整集候选中移除。
图3b展示了父亲教育对儿子职业因果效应的估计。在此设计下,因果路径已经通过父亲职业被阻断,因此无需控制父亲教育。然而,如果父亲教育对儿子职业有直接影响,则应将父亲教育纳入调整集。
调整集的选择不仅依赖于暴露X与协变量Z之间的因果假设,还涉及调整集候选变量与其他协变量及结果YYY之间的因果假设。因此,提出了以下进一步要求:
要求2:调整集候选变量与其他协变量之间的因果模型必须合理化。
要求3:调整集候选变量与结果YYY之间的因果模型必须合理化。
4.1.2.有意义的关联
在“参数定义”一节中,我们指出,ESR期刊在调查的年份内并未发布旨在识别有意义关联的研究。尽管如此,进行此类研究的学者仍需为调整集选择提供合理依据。正如前文所述,关联的有意义性源自于背后有理论支持的数据生成过程。因此,进行这类研究的唯一要求是:
要求4:必须合理化生成关联的因果模型。
4.2.操作化
我们编码了作者是否为以下几点提供合理说明:
·暴露变量X与调整变量集A中所有变量之间假定的因果关系,特别是调整变量与暴露变量之间的因果顺序;
·A中所有变量对Y的影响;
·X对Y的影响。
需要指出的是,对于那些理论上未定义的论文,无法对其调整集提出批评。但我们仍然对这些论文是否提供了上述推理进行编码,按照前文定义的隐性参数进行判断。
4.3.结果
结果显示,只有25%的论文为调整集提供了充分的理由。对于概念未定义的论文,情况更糟,只有14%提供了足够的推理,62%没有对调整集中的任何变量提供合理解释。相比之下,明确界定研究参数的论文中,43%提供了完整的调整集解释,但考虑到这些论文的因果研究目标,这一比例仍然偏低。因果研究中调整集选择的逻辑已经在文献中广泛讨论,且被视为使用观察数据进行因果分析时的核心问题。因此,大多数因果研究未能充分解释协变量的选择,这被认为是一个严重的研究方法问题。
总的来说,结果表明,缺乏足够理由的协变量选择并不是个别现象,而是普遍存在的问题。考虑到ESR期刊的高标准,这一问题尤其突出,在其他方法学要求较低的期刊中,问题可能更加严重。
五、回归系数解读
我们没有直接评估调整集的质量,而是通过一种方法间接判断其正确性。简而言之,我们假设在多元回归模型中,调整集通常只对其中一个协变量是正确的(参见Keele,Stevenson,andElwert,2019)。如果论文明确界定了研究参数,则该参数的调整集可能是正确的。
5.1.评判标准
本章节通过举例解释说明了审查标准细则。假设一个研究旨在评估父亲的第一职业对儿子职业的总效应(如图4所示的社会地位获得模型)。在这种情况下,必须控制儿子的教育和父亲的职业,这可以转化为如下回归模型:
Oc=α+β1stOc+γ1ED+γ2FaOc+ε,
其中,1stOc是暴露变量,β为暴露的总效应估计,ED和FaOc是调整集A。
图4.父亲的第一职业对儿子职业的总效应.
需要注意的是,之前讨论的研究设计暗示了三个不同的回归方程。没有任何一个例子表明需要对所有协变量进行回归分析。实际上,在完整的回归模型中:
Oc=β0+β1FaEd+β2FaOc+β3Ed+β41stOc+ε,
只有“儿子第一职业”的系数可以被解释为总效应的估计。对于其他所有协变量,完整模型通过控制后代变量阻断了因果路径,因此这些变量的估计效应不能作为职业总效应的估计。
这一观察表明,在回归模型中,通常只有一个参数可以被解释为总效应(参见Keele,Stevenson和Elwert,2019)。这很明显,因为在估计暴露对结果的总效应时,不能控制暴露X的后代。如果某个变量A是X的祖先,那么X必然是A的后代,A的系数就不能被解释为总效应,因为它会受到过度控制的偏差。
在两种情况下,回归模型中的多个系数可以被解释为总效应的估计。第一种情况是所有协变量互相独立(见图5a);第二种情况是所有协变量都是同一组共同原因的后代(见图5b)。值得注意的是,只有在后一种情况下,协变量调整才是必要的。然而,我们认为这些情况在非实验性研究中很少成立(尤其是对于图5中的变量来说)。
图5.多个回归系数作为因果效应的解释条件:(a)协变量相互独立;(b)协变量为共同原因的后代.
理论上,我们可以将回归模型中的所有系数都视为直接效应的估计,尽管这种解释远不如“直接效应”这一术语所暗示的那样简单。只要没有控制所有因果链中介变量,估计的直接效应可能更准确地称为“残余效应”,即控制了一些但非所有中介变量后剩余的效应。我们认为,在大多数情况下,这些残余效应的社会学意义在回归模型中的不同变量之间差异巨大,且很难为所有这些直接效应提供合理的社会学解释。
除了残余效应的社会学解释困难外,还有方法论的理由让我们避免轻率地将回归系数解释为直接效应:控制中介变量估计直接效应时,存在显著的碰撞偏差风险。特别是,研究者在估计暴露的直接效应时,不仅需要考虑暴露的祖先,还要考虑中介变量的祖先。仅仅将中介变量纳入回归模型往往不足以解决问题(Breen,2018)。即使对于某个变量有效,也不能假设对所有回归变量都有效。
综合这些论点,通常回归模型中只有一个变量具有明确的解释。这直接引出了我们的第三个审查标准:如果调整集A中的某些变量的系数被解释为直接效应,这通常表明该调整集是错误的,至少对于部分变量的系数而言。
5.2.操作化
本章节通过以下几种方式对作者是否正确解释调整变量集A中的系数进行了编码:
如果作者将回归中一个或多个变量的系数解释为具有相同含义(例如,Miltenburg和Werfhorst,2016;Blom,Kraaykamp和Verbakel,2017;Przepiorka,Norbutas和Corten,2017),
在第一种情况下,作者将调整变量的系数解释为某种效应,但他们的理论模型并没有明确说明这些变量的总效应或直接效应。也就是说,他们的解释缺乏明确的因果框架。在第二种情况下,作者用调整变量的系数来验证结果的有效性,但由于对暴露变量X进行过度控制,这些系数的估计可能会产生偏误,影响结果的准确性。第三种情况则假设所有变量都是控制变量,彼此之间没有明确的因果关系,这种情形在图5所示的情境下几乎不可能发生。
如果作者将一个变量的系数解释为总效应,另一个变量的系数解释为直接效应,只要他们明确阐明这些变量之间的因果关系,我们不会将其视为对调整变量的解释。这包括在结构方程模型中对总效应、直接效应和间接效应的分析。然而,鉴于直接效应估计存在的潜在偏差(Breen,2018),我们对这些研究报告的直接效应的无偏性表示怀疑。具体而言,Keijer、Nagel和Liefbroer(2016)的模型与Breen(2018)提出的模型非常相似,后者展示了如何轻易地在估计直接效应时引入偏误。在我们的分析中,我们通过虚拟变量编码,标识作者是否讨论了调整变量集A对Y的效应。
5.3.结果
大多数论文(59%)对调整变量集的系数进行了解释。我们认为,这些解释通常并未准确反映作者意图的参数估计。对于未明确界定研究参数的论文,这种情况尤为严重。即使在明确界定因果效应的论文中,41%也会解释控制变量的系数。考虑到学术期刊篇幅限制,这一现象令人意外。值得注意的是,这种情况在《社会学研究》(ASR)中较少见,Lundberg等(2021)发现,在18篇明确因果目标的论文中,只有2篇解释了多个系数的效应。
六、讨论总结
关于调整集的解释,许多作者往往忽视了调整集与暴露变量之间的因果关系。在这种情况下,研究设计中关键的假设未能被充分披露,往往隐藏在分析背后,这种做法可以视作一种避免方法论批评的策略。为了应对审稿人可能提出的批评,有些作者在审稿人的建议下,毫无理论依据地将一些变量纳入调整集。然而,我们强调,盲目采纳审稿人建议,反映了作者在问题本身上缺乏足够的敏感性与意识。
一旦因果模型被清晰地呈现出来,它们必然需要充分的理论论证。本文认为,这正是文中提议标准的核心优势所在。尽管这一过程可能需要更多篇幅,这对学术期刊的篇幅限制可能构成一定挑战,但我们相信这一做法有助于推动精简冗余内容的机制。首先,论文的理论部分将变得更加聚焦,避免冗长无效的理论讨论;其次,作者可能会意识到,一些原计划作为控制变量的因素应当被排除,以避免过度控制偏误,从而更倾向于使用更加精简的调整集。研究设计应当聚焦于一个明确的研究参数,而非在单篇论文中强行探讨多个假设。
有些人可能会尝试淡化调整集选择中的问题,认为统计关联的符号及其主要解释在不同统计操作下有足够的稳健性。然而,我们认为,调整集的选择是非实验性研究中最为关键的决策。合理的调整集选择可以让研究者在很大程度上人为地塑造几乎任何形式的统计关联符号和大小(Muoz和Young,2018)。这一点强调了调整集选择的重要性及其对因果推断结果的潜在影响。
最后,作者再度提醒,遵循本文所提出的所有标准并不能保证估计出无偏的研究参数。最理想的情况是,这些标准能揭示研究设计的潜在缺陷,为后续改进提供基础。在许多情况下,这些改进可能会促使更多的研究采用能够处理未观察异质性的方法。作者认为,这些方法与因果图模型并非相互排斥,而是互为补充。例如,因果图模型可以更加清晰地凸显这些方法的假设,或激发关于未观察异质性的问题思考。因此,本文并不排斥这些方法的应用,反而提倡它们与因果图模型的结合使用。
编译丨陈哲,南京大学社会学院博士研究生,研究方向为灾难社会学