Skip to content

双重差分小介

Info

作者:Void,发布于2021-06-24,阅读时间:约5分钟,微信公众号文章链接:

1 引言

双重差分,顾名思义就是差分两次。那么差分和我小叮当又有什么关系呢?更何况是差分两次。别急,听我们慢慢道来。
双重差分模型是计量经济学中的一种常见的模型。它的作用是探究一项实验或一个事件的影响,有一丢丢类似ab test。有别于刻画简单的相关关系的线性回归,双重差分是关于因果推断的小巧、实用的模型。它的由来要从线性回归的假设说起。

2 线性回归假设

我们都知道线性回归,我们也可能都不知道线性回归。它就是如下这个“简单”的式子:

\[ Y=\beta X+\varepsilon \]

我们在快乐使用线性回归的同时,往往忽略了线性回归模型的4个前提条件:

  • 线性关系

  • 严外生性

    \[E(\varepsilon_{t}|X)=E(\varepsilon_{t}|X_{1},X_{2}\cdots X_{n})=0\]
  • 无完全共线性

  • 球形误差方差

    \[E(\varepsilon_{t}^{2}|X)=\sigma^{2}\]
    \[E(\varepsilon_{t}\varepsilon_{s}|X)=0\]

用人话来说,Y和X必须满足线性关系(废话。。)。残差(实际值与估计值的差异)与X不相关并且它自身的分布满足同方差、不存在自相关的性质。不能有一个X是别的几个X的爸爸(被线性表示)。好的,聪明的我们已经准备忽略这些前提条件了。且慢,如果前提条件不满足的话可是会使估计不准的哦。

其中,严外生性就是一个很傲娇(容易不满足)的条件。在这种情况下,我们常说这个模型具有内生性问题。我们再用小学数学回顾一下什么是严外生性。

3 严外生性

\[E(\varepsilon_{t}|X)=E(\varepsilon_{t}|X_{1},X_{2}\cdots X_{n})=0\]
\[t=1,2\cdots n\]

根据重复期望法则\(E(Y|X)=E[E(Y|X,Z)|X]\),有

\[E(\varepsilon_{t}|X_{t})=E[E(\varepsilon_{t}|X)|X_{t}]=0\]
\[E(\varepsilon_{t})=E[E(\varepsilon_{t}|X)]=0\]

从而有

\[E(X_{s}\varepsilon_{t})=E[E(X_{s}\varepsilon_{t}|X)]=0\]

因此\(cov(X_{s},\varepsilon_{t})=0\),假设要求扰动项\(\varepsilon_{t}\)与解释变量之间没有线性相关性。

4 内生性问题常见形式

好的,我们已经成功(没)搞明白了学术中的严外生性。那么,在实际的数据中,内生性问题是怎么表现的呢?

  • 遗漏解释变量(还有别的X可以有效的估计Y)

  • X与Y互为因果(如X为教育水平,Y为收入,教育水平可以影响收入,同时,收入也可以影响教育水平,如读个MBA)

5 解决方案

  • 工具变量法(Instrumental Variable)\ 找到一个变量和内生解释变量相关,但是和随机扰动项不相关的外生变量。同其他已有的外生变量一起回归,得到内生变量的估计值,以此作为IV,放到原来的回归方程中进行回归。
    例子,Y为内战爆发概率,X为经济增长,IV为降雨量。内战爆发概率和经济增长本身互为因果(存在内生性问题),降雨量和经济增长有关(农业国家),同时,降雨量只能通过影响经济增长单向的影响内战爆发概率。

  • 双重差分法(Differences-in-Differences, DID)\ 倘若出现了一次外部冲击,这次冲击影响了一部分样本,对另一部分样本则无影响,而我们想看一下这次外部冲击到底有何影响,双重差分法就是用来研究这次冲击的净效应的。由于冲击相对于研究样本而言一般是外生的,因而不存在反向因果问题。

好的,我们的大明星双重差分模型终于出现了。

6 双重差分模型

双重差分模型的形式也比较简单,本质上还是一个线性回归。

\[Y_{it}=\beta_{0}+\beta_{1}D+\beta_{2}T+\beta_{3}(D\times T)+\varepsilon_{it}\]

D为分组虚拟变量。在研究事件或政策影响时,若受冲击的影响,则个体i属于实验组,\(D=1\),反之个体i属于对照组,\(D=0\)。T为时间的虚拟变量(事件或政策有一个发生的时点),冲击之前\(T=0\),冲击之后\(T=1\)\(D\times T\)为分组虚拟变量与时间虚拟变量的交互项(乘在一起),其系数\(\beta_{3}\)就反映了冲击的净效应。

哇塞,是不是看上去很简单。在这个模型中,我们还可以加入一些别的控制变量。同时,双重差分模型也有自己的前提条件,实验组和对照组在冲击前有平行趋势,是不是有点像ab test?

总而言之,双重差分模型可以帮助你科学地评估某项事件或政策的影响。让你再也不用担心老板振聋发聩地问你,你说说这到底有啥影响?

7 Takeaways

  • 关注模型假设
  • 基于因果推断的机器学习(瞬间升华)

Viewed times

Comments