双重差分小介¶
1 引言¶
双重差分,顾名思义就是差分两次。那么差分和我小叮当又有什么关系呢?更何况是差分两次。别急,听我们慢慢道来。
双重差分模型是计量经济学中的一种常见的模型。它的作用是探究一项实验或一个事件的影响,有一丢丢类似ab test。有别于刻画简单的相关关系的线性回归,双重差分是关于因果推断的小巧、实用的模型。它的由来要从线性回归的假设说起。
2 线性回归假设¶
我们都知道线性回归,我们也可能都不知道线性回归。它就是如下这个“简单”的式子:
我们在快乐使用线性回归的同时,往往忽略了线性回归模型的4个前提条件:
-
线性关系
-
严外生性
\[E(\varepsilon_{t}|X)=E(\varepsilon_{t}|X_{1},X_{2}\cdots X_{n})=0\] -
无完全共线性
-
球形误差方差
\[E(\varepsilon_{t}^{2}|X)=\sigma^{2}\]\[E(\varepsilon_{t}\varepsilon_{s}|X)=0\]
用人话来说,Y和X必须满足线性关系(废话。。)。残差(实际值与估计值的差异)与X不相关并且它自身的分布满足同方差、不存在自相关的性质。不能有一个X是别的几个X的爸爸(被线性表示)。好的,聪明的我们已经准备忽略这些前提条件了。且慢,如果前提条件不满足的话可是会使估计不准的哦。
其中,严外生性就是一个很傲娇(容易不满足)的条件。在这种情况下,我们常说这个模型具有内生性问题。我们再用小学数学回顾一下什么是严外生性。
3 严外生性¶
根据重复期望法则\(E(Y|X)=E[E(Y|X,Z)|X]\),有
从而有
因此\(cov(X_{s},\varepsilon_{t})=0\),假设要求扰动项\(\varepsilon_{t}\)与解释变量之间没有线性相关性。
4 内生性问题常见形式¶
好的,我们已经成功(没)搞明白了学术中的严外生性。那么,在实际的数据中,内生性问题是怎么表现的呢?
-
遗漏解释变量(还有别的X可以有效的估计Y)
-
X与Y互为因果(如X为教育水平,Y为收入,教育水平可以影响收入,同时,收入也可以影响教育水平,如读个MBA)
5 解决方案¶
-
工具变量法(Instrumental Variable)\ 找到一个变量和内生解释变量相关,但是和随机扰动项不相关的外生变量。同其他已有的外生变量一起回归,得到内生变量的估计值,以此作为IV,放到原来的回归方程中进行回归。
例子,Y为内战爆发概率,X为经济增长,IV为降雨量。内战爆发概率和经济增长本身互为因果(存在内生性问题),降雨量和经济增长有关(农业国家),同时,降雨量只能通过影响经济增长单向的影响内战爆发概率。 -
双重差分法(Differences-in-Differences, DID)\ 倘若出现了一次外部冲击,这次冲击影响了一部分样本,对另一部分样本则无影响,而我们想看一下这次外部冲击到底有何影响,双重差分法就是用来研究这次冲击的净效应的。由于冲击相对于研究样本而言一般是外生的,因而不存在反向因果问题。
好的,我们的大明星双重差分模型终于出现了。
6 双重差分模型¶
双重差分模型的形式也比较简单,本质上还是一个线性回归。
D为分组虚拟变量。在研究事件或政策影响时,若受冲击的影响,则个体i属于实验组,\(D=1\),反之个体i属于对照组,\(D=0\)。T为时间的虚拟变量(事件或政策有一个发生的时点),冲击之前\(T=0\),冲击之后\(T=1\)。\(D\times T\)为分组虚拟变量与时间虚拟变量的交互项(乘在一起),其系数\(\beta_{3}\)就反映了冲击的净效应。
哇塞,是不是看上去很简单。在这个模型中,我们还可以加入一些别的控制变量。同时,双重差分模型也有自己的前提条件,实验组和对照组在冲击前有平行趋势,是不是有点像ab test?
总而言之,双重差分模型可以帮助你科学地评估某项事件或政策的影响。让你再也不用担心老板振聋发聩地问你,你说说这到底有啥影响?
7 Takeaways¶
- 关注模型假设
- 基于因果推断的机器学习(瞬间升华)