家庭背景如何影响你的工资?用Stata破解教育回报率的内生性之谜
在实证经济学研究中,我们常常遇到一个令人头疼的问题:当我们试图估计教育对工资的影响时,那些"看不见"的因素——比如个人能力、家庭环境、社会关系——会同时影响一个人的教育水平和未来收入。这就好比试图测量咖啡因对工作效率的影响,却发现那些爱喝咖啡的人本身就可能是工作狂。这种"内生性问题"会让我们的估计结果产生偏差,而工具变量法就像是一把精巧的钥匙,能够帮我们打开这扇计量经济学中的黑箱。
今天,我们要探讨的是一个既贴近生活又充满计量趣味的案例:为什么你丈夫和母亲的学历能成为研究你自己教育回报率的"工具"?这个案例源自经典教材《计量经济学导论》,我们将用Stata一步步展示如何用家庭成员的受教育水平作为工具变量,解决教育变量内生性这个计量经济学中的经典难题。不同于枯燥的理论推导,我们会通过具体数据和操作命令,让你看到计量方法如何揭示那些隐藏在数据背后的真实关系。
1. 数据准备与变量选择:构建你的计量实验室
任何严谨的实证研究都始于对数据的深入理解。在这个案例中,我们使用的数据来自428位已婚职业女性的调查信息,包含以下几个关键变量:
- 被解释变量:
lwage(工资的对数) - 核心解释变量:
educ(本人受教育年限) - 工具变量候选:
huseduc(丈夫的受教育年限)motheduc(母亲的受教育年限)
- 控制变量:
exper(工作年限)及其平方项expersq
让我们首先用Stata查看这些变量的基本情况:
use ex1.dta, clear sum lwage educ huseduc motheduc exper expersq输出结果会显示每个变量的观测值数量、均值、标准差和极值。特别值得注意的是教育变量的分布:
| 变量 | 均值 | 标准差 | 最小值 | 最大值 |
|---|---|---|---|---|
| educ | 12.65 | 2.29 | 5 | 17 |
| huseduc | 12.61 | 3.04 | 4 | 17 |
| motheduc | 9.52 | 3.31 | 0 | 17 |
从描述统计中我们可以发现几个有趣的现象:已婚女性的平均受教育年限略高于其丈夫,而母亲的受教育水平明显低于当代人。这种代际教育水平的跃升本身就值得研究,但今天我们先聚焦于如何利用这些家庭特征来解决内生性问题。
2. 内生性问题:为什么简单的回归会"说谎"?
如果我们直接使用普通最小二乘法(OLS)估计教育对工资的影响,Stata命令非常简单:
reg lwage educ, robust结果可能显示教育年限每增加一年,工资增长约10.9%(系数0.109)。这个数字看起来合理,但计量经济学家会立刻警惕:这个估计可能偏高。为什么?
内生性的三大来源:
- 遗漏变量偏差:能力、动机等无法观测的因素同时影响教育选择和工资水平
- 测量误差:教育年限可能无法准确反映教育质量
- 反向因果:高收入可能使人有能力获取更多教育(虽然在本例中不太可能)
想象一下,那些天生能力强的人往往既能获得更高学历,也能在工作中表现更好。如果我们无法控制"能力"这个变量,教育系数就会吸收能力对工资的影响,导致高估教育的真实回报。这就好比把咖啡因的效果和咖啡饮用者本身的工作热情混为一谈。
3. 工具变量法:用家庭背景"撬动"教育回报率
工具变量法的精妙之处在于找到这样一个变量:它直接影响个人的教育选择,却不直接影响工资(除了通过教育这一渠道)。丈夫和母亲的学历为什么能成为合适的工具?
工具变量的两个黄金标准:
- 相关性:工具变量必须与内生变量(educ)相关
- 家庭文化资本理论认为,父母教育水平影响子女教育投入
- 婚姻匹配理论表明,人们倾向于选择教育水平相当的配偶
- 外生性:工具变量只能通过educ影响lwage,不能有直接路径
- 丈夫/母亲的教育不太可能直接影响妻子的工资(除非通过社会网络,但这是另一个问题)
我们可以先用简单的回归验证第一个条件:
reg educ huseduc motheduc如果结果显示这两个变量联合显著,就初步满足了相关性条件。接下来才是重头戏——两阶段最小二乘法(2SLS)。
4. 两阶段最小二乘实战:Stata操作详解
两阶段最小二乘顾名思义分为两个阶段:
- 第一阶段:用工具变量(huseduc, motheduc)对内生变量(educ)进行回归
- 第二阶段:用第一阶段预测的educ_hat替代原educ,进行工资方程回归
在Stata中,这可以通过一条简洁的命令实现:
ivregress 2sls lwage (educ = huseduc motheduc), vce(robust) first提示:加上
first选项会显示第一阶段的回归结果,帮助我们判断工具变量的强度
关键结果通常包括:
- 第一阶段F统计量:应大于10,表明工具变量不是"弱工具"
- 教育系数:现在是0.074,比OLS估计的0.109低了约32%
- 标准误:比OLS大,这是IV估计的典型特征
下表对比了两种方法的结果差异:
| 统计量 | OLS估计 | 2SLS估计 |
|---|---|---|
| educ系数 | 0.109*** | 0.074*** |
| 标准误 | (0.014) | (0.027) |
| 常数项 | -0.185 | 0.255 |
这个差异恰恰反映了OLS估计可能存在的向上偏差——那些未被观测的能力因素确实使教育回报率被高估了。
5. 检验与验证:确保工具变量的可靠性
工具变量法的结论是否可信,取决于两个关键假设是否成立。幸运的是,Stata提供了系统的检验方法。
5.1 内生性检验:豪斯曼检验
我们需要确认educ是否真的是内生变量。这可以通过Durbin-Wu-Hausman检验实现:
est store ols est store iv hausman iv ols, constant sigmamore如果p值小于0.05,我们拒绝"educ是外生"的原假设,确认需要使用工具变量法。
5.2 过度识别检验:工具变量外生性
当我们有多个工具变量时(如huseduc和motheduc),可以进行Sargan过度识别检验:
estat overid这个检验的零假设是"所有工具变量都是外生的"。如果p值大于0.05,我们不能拒绝原假设,这意味着工具变量很可能满足外生性条件。
5.3 弱工具变量检验
工具变量如果与内生变量相关性太弱,会导致估计严重偏差。第一阶段回归的F统计量是常用判断标准:
estat firststageF值大于10通常认为工具变量足够强。在我们的案例中,huseduc和motheduc联合显著的F值通常能达到20以上,完全满足要求。
6. 结果解读与现实意义
经过上述严谨分析,我们得到几个重要发现:
- 教育回报率被高估:OLS估计的10.9%可能包含能力偏差,IV估计的7.4%更接近真实值
- 家庭背景的长期影响:父母和配偶的教育不仅直接影响个人发展,还成为研究代际流动的计量工具
- 方法论的启示:在劳动经济学研究中,忽视内生性可能导致严重误判政策效果
这个案例也展示了计量经济学的艺术性——找到既符合理论要求,又能在统计上验证的有效工具变量,需要研究者的创造力和严谨性。丈夫和母亲的学历之所以能成为好工具,不仅因为统计上的相关性,更因为它们背后的社会学理论支持。
7. 常见陷阱与进阶思考
虽然工具变量法强大,但应用时仍需警惕以下问题:
工具变量的排他性约束:
- 配偶教育可能通过社会网络直接影响工资(违反外生性)
- 解决方案:尝试加入配偶职业等控制变量
弱工具变量问题:
- 如果工具变量相关性弱,2SLS估计可能比OLS更糟
- 检查方法:第一阶段F统计量、Shea's partial R2
异质性处理效应:
- 工具变量估计的是"局部平均处理效应"(LATE)
- 可能只反映对"受工具变量影响群体"的效果
对于想深入研究的读者,可以尝试以下扩展分析:
* 加入工作年限作为控制变量 ivregress 2sls lwage exper expersq (educ = huseduc motheduc), robust * 使用不同工具变量组合比较结果 ivregress 2sls lwage (educ = huseduc), robust ivregress 2sls lwage (educ = motheduc), robust工具变量法在Stata中的实现看似简单,但背后的理论思考和假设检验才是计量分析的核心。正如Angrist和Pischke在《基本无害的计量经济学》中所强调的:一个好的工具变量分析应该像讲一个好故事——既有数据支持,又有逻辑说服力。