Stata实操：用丈夫和母亲的学历做工具变量，搞定工资方程的内生性问题-深圳市維司達科技有限公司

家庭背景如何影响你的工资？用Stata破解教育回报率的内生性之谜

在实证经济学研究中，我们常常遇到一个令人头疼的问题：当我们试图估计教育对工资的影响时，那些"看不见"的因素——比如个人能力、家庭环境、社会关系——会同时影响一个人的教育水平和未来收入。这就好比试图测量咖啡因对工作效率的影响，却发现那些爱喝咖啡的人本身就可能是工作狂。这种"内生性问题"会让我们的估计结果产生偏差，而工具变量法就像是一把精巧的钥匙，能够帮我们打开这扇计量经济学中的黑箱。

今天，我们要探讨的是一个既贴近生活又充满计量趣味的案例：为什么你丈夫和母亲的学历能成为研究你自己教育回报率的"工具"？这个案例源自经典教材《计量经济学导论》，我们将用Stata一步步展示如何用家庭成员的受教育水平作为工具变量，解决教育变量内生性这个计量经济学中的经典难题。不同于枯燥的理论推导，我们会通过具体数据和操作命令，让你看到计量方法如何揭示那些隐藏在数据背后的真实关系。

1. 数据准备与变量选择：构建你的计量实验室

任何严谨的实证研究都始于对数据的深入理解。在这个案例中，我们使用的数据来自428位已婚职业女性的调查信息，包含以下几个关键变量：

被解释变量：lwage（工资的对数）
核心解释变量：educ（本人受教育年限）
工具变量候选：
- huseduc（丈夫的受教育年限）
- motheduc（母亲的受教育年限）
控制变量：exper（工作年限）及其平方项expersq

让我们首先用Stata查看这些变量的基本情况：

use ex1.dta, clear sum lwage educ huseduc motheduc exper expersq

输出结果会显示每个变量的观测值数量、均值、标准差和极值。特别值得注意的是教育变量的分布：

变量	均值	标准差	最小值	最大值
educ	12.65	2.29	5	17
huseduc	12.61	3.04	4	17
motheduc	9.52	3.31	0	17

从描述统计中我们可以发现几个有趣的现象：已婚女性的平均受教育年限略高于其丈夫，而母亲的受教育水平明显低于当代人。这种代际教育水平的跃升本身就值得研究，但今天我们先聚焦于如何利用这些家庭特征来解决内生性问题。

2. 内生性问题：为什么简单的回归会"说谎"？

如果我们直接使用普通最小二乘法(OLS)估计教育对工资的影响，Stata命令非常简单：

reg lwage educ, robust

结果可能显示教育年限每增加一年，工资增长约10.9%（系数0.109）。这个数字看起来合理，但计量经济学家会立刻警惕：这个估计可能偏高。为什么？

内生性的三大来源：

遗漏变量偏差：能力、动机等无法观测的因素同时影响教育选择和工资水平
测量误差：教育年限可能无法准确反映教育质量
反向因果：高收入可能使人有能力获取更多教育（虽然在本例中不太可能）

想象一下，那些天生能力强的人往往既能获得更高学历，也能在工作中表现更好。如果我们无法控制"能力"这个变量，教育系数就会吸收能力对工资的影响，导致高估教育的真实回报。这就好比把咖啡因的效果和咖啡饮用者本身的工作热情混为一谈。

3. 工具变量法：用家庭背景"撬动"教育回报率

工具变量法的精妙之处在于找到这样一个变量：它直接影响个人的教育选择，却不直接影响工资（除了通过教育这一渠道）。丈夫和母亲的学历为什么能成为合适的工具？

工具变量的两个黄金标准：

相关性：工具变量必须与内生变量(educ)相关
- 家庭文化资本理论认为，父母教育水平影响子女教育投入
- 婚姻匹配理论表明，人们倾向于选择教育水平相当的配偶
外生性：工具变量只能通过educ影响lwage，不能有直接路径
- 丈夫/母亲的教育不太可能直接影响妻子的工资（除非通过社会网络，但这是另一个问题）

我们可以先用简单的回归验证第一个条件：

reg educ huseduc motheduc

如果结果显示这两个变量联合显著，就初步满足了相关性条件。接下来才是重头戏——两阶段最小二乘法(2SLS)。

4. 两阶段最小二乘实战：Stata操作详解

两阶段最小二乘顾名思义分为两个阶段：

第一阶段：用工具变量(huseduc, motheduc)对内生变量(educ)进行回归
第二阶段：用第一阶段预测的educ_hat替代原educ，进行工资方程回归

在Stata中，这可以通过一条简洁的命令实现：

ivregress 2sls lwage (educ = huseduc motheduc), vce(robust) first

提示：加上first选项会显示第一阶段的回归结果，帮助我们判断工具变量的强度

关键结果通常包括：

第一阶段F统计量：应大于10，表明工具变量不是"弱工具"
教育系数：现在是0.074，比OLS估计的0.109低了约32%
标准误：比OLS大，这是IV估计的典型特征

下表对比了两种方法的结果差异：

统计量	OLS估计	2SLS估计
educ系数	0.109***	0.074***
标准误	(0.014)	(0.027)
常数项	-0.185	0.255

这个差异恰恰反映了OLS估计可能存在的向上偏差——那些未被观测的能力因素确实使教育回报率被高估了。

5. 检验与验证：确保工具变量的可靠性

工具变量法的结论是否可信，取决于两个关键假设是否成立。幸运的是，Stata提供了系统的检验方法。

5.1 内生性检验：豪斯曼检验

我们需要确认educ是否真的是内生变量。这可以通过Durbin-Wu-Hausman检验实现：

est store ols est store iv hausman iv ols, constant sigmamore

如果p值小于0.05，我们拒绝"educ是外生"的原假设，确认需要使用工具变量法。

5.2 过度识别检验：工具变量外生性

当我们有多个工具变量时（如huseduc和motheduc），可以进行Sargan过度识别检验：

estat overid

这个检验的零假设是"所有工具变量都是外生的"。如果p值大于0.05，我们不能拒绝原假设，这意味着工具变量很可能满足外生性条件。

5.3 弱工具变量检验

工具变量如果与内生变量相关性太弱，会导致估计严重偏差。第一阶段回归的F统计量是常用判断标准：

estat firststage

F值大于10通常认为工具变量足够强。在我们的案例中，huseduc和motheduc联合显著的F值通常能达到20以上，完全满足要求。

6. 结果解读与现实意义

经过上述严谨分析，我们得到几个重要发现：

教育回报率被高估：OLS估计的10.9%可能包含能力偏差，IV估计的7.4%更接近真实值
家庭背景的长期影响：父母和配偶的教育不仅直接影响个人发展，还成为研究代际流动的计量工具
方法论的启示：在劳动经济学研究中，忽视内生性可能导致严重误判政策效果

这个案例也展示了计量经济学的艺术性——找到既符合理论要求，又能在统计上验证的有效工具变量，需要研究者的创造力和严谨性。丈夫和母亲的学历之所以能成为好工具，不仅因为统计上的相关性，更因为它们背后的社会学理论支持。

7. 常见陷阱与进阶思考

虽然工具变量法强大，但应用时仍需警惕以下问题：

工具变量的排他性约束：
- 配偶教育可能通过社会网络直接影响工资（违反外生性）
- 解决方案：尝试加入配偶职业等控制变量
弱工具变量问题：
- 如果工具变量相关性弱，2SLS估计可能比OLS更糟
- 检查方法：第一阶段F统计量、Shea's partial R2
异质性处理效应：
- 工具变量估计的是"局部平均处理效应"(LATE)
- 可能只反映对"受工具变量影响群体"的效果

对于想深入研究的读者，可以尝试以下扩展分析：

* 加入工作年限作为控制变量 ivregress 2sls lwage exper expersq (educ = huseduc motheduc), robust * 使用不同工具变量组合比较结果 ivregress 2sls lwage (educ = huseduc), robust ivregress 2sls lwage (educ = motheduc), robust

工具变量法在Stata中的实现看似简单，但背后的理论思考和假设检验才是计量分析的核心。正如Angrist和Pischke在《基本无害的计量经济学》中所强调的：一个好的工具变量分析应该像讲一个好故事——既有数据支持，又有逻辑说服力。