在美国填写人口普查问卷2020

刚好2020年是美国的人口普查年(每10年一次),且本人在美国居住,于是成为了这一波普查数据的一个样本点。因为之前用过中国的普查抽样数据,所以以为问卷长度会差不多。但最近刚填完美国普查问卷,发现内容其实特别短(至少对我这一户来说是如何),只是问了下住户和个人基本信息。感觉可以大概讲讲,权当做是一个小知识。并在结尾大概讲下中国的普查数据情况。

今年三月份时,住址门口上就被挂上了材料,材料里面也就是一封信。一般来说,在美国信件都会寄往住址信箱。普查信件却是没有走信箱,而是直接当包裹一样挂门口,大概是一种大型reminder的意思。之后一直没有填写以至于忘了这件事情,七月份的时候信箱里收到另一个很简单的信件(真reminder),正文写了一行加粗的字:“Your response is required by law”,于是便想起来上网填写这份问卷。

整个流程很简单:1.登录官网(my2020census.gov);2. 输入被分配的家户ID(随信可见);3. 完成问卷填写。附上官网问卷开始前的介绍截图。

问卷内容很短,大概几分钟就能填完。家户中人口数多的可能需要多点时间,因为每个住户的都需要填写自己的个人问卷,但个人问卷其实也很短,所以整体10分钟之内基本上可以搞定填写。

问卷分四个板块:Address Verification;Household Questions;People Questions; Final Questions。前两个板块像是过滤问卷,目的是确认:a.(2020年4月1号)你是住在当下这个地址和 b. 该地址的住户都有谁。由此进入个人问卷,问了些简单的个人特征:性别,出生年月日,是否为西班牙裔或拉丁裔出身,和你的种族信息。最后的板块则是询问填写人是否在其他地方住过。

可能是我的情况相对简单,所以几分钟就填写完成。如本文开头所说,我原本预期的问卷长度跟国内的普查问卷长度相仿,但发现其实不然。国内的普查问卷涉及到家户中个人的许多方面:除基本人口学特征,还会问及受教育程度和工作情况等。如果你对国内普查问卷感兴趣,这里提供一个1982年的普查问卷,挂在世行网站上,其他年份的也可自行Google。

但其实美国的普查问卷也涉及到人口学特征之外的其他问题,仅仅是部分的地址(2020年的抽样是:350万个地址)会被抽中填写这些内容,而我这一地址没有被抽中。这些被抽中的住址,需要填写另一份叫American Community Survey (ACS)的问卷,里面含括了如受教育程度,工作,互联网可获取程度和公共通勤等问题。美国普查局(US Census Bureau)官网提供了对ACS的介绍和它跟Census的对比,戳这里可见。ACS也是学界经常会使用的一份很重要的数据,虽然我没有用过这份数据,但是从官网上的介绍可知:虽是家户抽样数据,但是ACS是每年每个月都会执行的一份调查。由此可以想象最后的样本体量(样本数*变量)会很大。

那中国的普查数据情况如何?这里也介绍下中国的普查数据(背景信息+如何获取):

其实2020年也是中国进行普查的时候,我们管这种10年一次的普查叫大普查(全人口),因为在两次大普查之间,还会有一次小普查(全人口1%抽样)。根据维基页面,新中国历史上一共进行了六次人口(大)普查,时间分别为:1953,1964,1982,1990,2000,和2010。所以2020年的普查是第七次人口普查。

先介绍下学界能拿到的普查数据:脱敏数据,大普的样本量是对当年家户的10%进行~1%再抽样,即人口总数的~1‰;小普数据的样本量则是对当年1%人口进行再抽样,最后抽样比同样是占当年人口总数的1‰。具体而言,以2010年六普为例,2010六普数据为全抽样(人口总数为~13亿4千万),对供学界使用的数据进行了0.995%的再抽样,最后的样本总人数为一百万左右(1267381),占当年人口总数比例的0.95‰。(来源资料见国家统计局微观数据官网附件处)

再介绍下应该如何获取这些数据。获取性主要分两种情况来讲:1. 对于1982, 1990, 和 2000 的中国普查数据, 可以在IPUMS International上申请下载。具体需要先申请一个账号,审核通过之后可以下载具体数据。链接戳这里。2. 对于2000年及其之后年份的数据,需要跟国家统计局或其合作的学界机构(如清华大学的中国经济社会数据研究中心)申请,然后实地访问使用。详细具体信息可见国家统计局微观数据官网附件处。清华大学的中国经济社会数据研究中心也写了一个很好的介绍公告:《微观数据开发应用情况简介》。

中国统计局目前在跟学界机构合作,以提供更多行政数据方便学界研究使用,值得赞扬。这无疑会汇集到学界及其之外的诸多领域,希望能看到这一进程在将来继续稳步前行。


Share

资料:经济系博一课程和编程

I. 北美经济系博士一年级的训练应该都很标准,基本上是两学期上完六门三高(微观/宏观/计量 I&II)。第一年结束后是资格考,然后第二年才开始进入各类fields课程。此处列下一些当时整理的资料:

Micro

J. Levin’s Micro Notes

Macro

1.General Notes: Dirk Krueger’s Notes (2012) & Per Krusell’s Notes (2014)

2. Violante’s Heterogeneity in Macroeconomics (2014 Spring)

Econometrics

Hensen’s Econometrics Notes (2020)

II. 第一年之后可能会有用的工具:

Structural Model

1. Discrete Choice Methods with Simulation, by Kenneth Train

2. Practical Methods for Estimation of Dynamic Discrete Choice Models, by Arcidiacono and Ellickson

Big Data & ML

1. Matt Taddy’s Big Data Course

2.Thorsten Joachims’s Counterfactual Machine Learning

3. Benjamin Soltoff’s Computing for the Social Science

4. Econ-ML 

5. AEA: Machine Learning and Econometrics (Susan Athey, Guido Imbens)

6. “Machinistas meet randomistas: useful ML tools for empirical researchers” by Esther Duflo at NBER SI 2018

7. Nando de Freitas’s Youtube channel

III. 还有一些编程的资料:

Python

1. Learn Python 3 the Hard Way

2. 廖雪峰的Python 3 教程

3. Python Data Science Handbook

R

1.  R in Action (Book)

2. Hadley Wickham’s R for Data Science

3. Hadley Wickham’s Advanced R  with a recommended Solutions

4. R Reference Card 2.0

5. Geocomputation with R

6. Efficient R programming (2017) by Gillespie & Lovelace

7. Text Mining with R: A Tidy Approach

8. R FOR STATA USERS by Matthieu Gomez

LaTeX

1. The Not So Short Introduction To LaTeX (Chinese Version, 2017)

2.Wikibooks: LaTeX or Presentation

3. John C Frain’s Applied LATEX for Economists, Social Scientists and Others (2014)

GIS

1.MIT GIS Workshop

2. R as GIS for Economist by Taro Mieno

3. QGIS Training Manual

4.QGIS Tutorials and Tips

Stata

1. Stata Coding Guide by Julian Reif

2. Stata for very large datasets

3. NP Packages

HTML & CSS

Learn to code HTML & CSS by Shay Howe

Share

机器学习:一种应用计量方法

这几年,机器学习(Machine Learning)在经济学研究中的出现频率越来越高。在计量经济学,特别是在应用计量上,有着许多可以用机器学习改进的地方。其实这并不意外,机器学习,或更确切地说,统计学习(Statistical Learning),如同计量经济学中的大部分内容(如Linear Regression),本身就是统计学的一部分。而作为统计学习最重要的内容之一——预测(Prediction),本身也构成着计量的一部分。

可能是因为以往实证(empirical)经济学家“过分”关注因果推断(causal inference)问题,以至于预测在应用计量中并不占据显眼位置。但随着这几年机器学习在应用上的潜力越来越大,经济学家开始重新关注并打磨这一新工具,一个明显的例子是,Stefan Wager 和Susan Athey(2018)合写的文章,把机器学习中的随机森林(random forest)和因果推断中的potential outcomes模型结合起来,创造了causal forests这一新工具,极大的促进经济学家在heterogeneous treatment effect上的探索。Causal forests能让数据告诉我们更多关于异质性(heterogeneity)的信息,而不需要提前在模型中specify可能的线性,交互项关系来探索heterogeneity。而这一文章,也发表在了统计系的顶刊JASA上。

因此,本文打算编译Mullainathan和Spiess(2017)在JEP 2017 Spring的文章《Machine Learning: An Applied Econometric Approach》,介绍一下他们对作为应用计量的机器学习的看法。本文大概分为三部分:一是入门:提供一些机器学习方面的资料【Mullainathan和Spiess(2017)的推荐和我的推荐】;二是介绍:谈下Mullainathan和Spiess(2017)对机器学习在应用计量上的可能应用的看法;三是应用:提供一些具体的应用例子和文献。另外,本文并不编译原文对机器学习本身的介绍,而是编译了机器学习的可能应用这部分的内容,对前边部分感兴趣的同学可以参考Mullainathan和Spiess(2017)原文。

 

入门

个人觉得Mullainathan和Spiess(2017)这篇文章默认了读者对机器学习中的一些方法(如 Decision Tree,LASSO等)有一定的了解。因此,如果对机器学习还不是很理解,这里有一些参考资料:

1. 统计学上两本参考教材是:1) 初阶学习:James et al. (2017)《An Introduction to Statistical Learning》;2) 高阶学习:Friedman et al. (2017)的《The Elements of Statistical Learning》。两本教材的作者基本上是同一批人,只是两本教材的目标读者不同(本科生 vs 研究生)。他们还建立了网站,免费提供教材pdf和代码资料等(见书名处链接)。

2. 经济学上的参考资料(Mullainathan和Spiess(2017)的推荐):1)Varian(2014)对机器学习的概念和使用提供了很多详细的介绍,如decision tree和cross-validation; 2)Einav和Levin(2014)大致的介绍了大数据和经济学的联系;3)Belloni,Chernozhukov和Hanson(2014)在计量层面上详细地介绍了LASSO在高维数据中地应用;4)Athey(2015)简短地介绍了机器学习可以如何跟因果推断联系起来。

 

介绍

Mullainathan和Spiess(2017)从计量经济学可以如何利用机器学习的角度来思考机器学习这一概念。在这篇文章里,他们关心的更确切的是监督学习(而非无监督学习)。在他们看来,机器学习:一是提供了新的工具,二是它是解决不同问题的工具。以往的计量经济学解决的是参数估计问题,也就是估计描述 y 和 x 关系的参数的问题,是解决 β̂ 的问题;而机器学习处理的是预测问题,是从 x 中准确预测 y 的问题,是解决 ŷ 的工具。因此在使用机器学习时,我们不能拿着解决 ŷ 的工具拿来估计 β̂ ,并认为所得到的 β̂ 还带着以往的估计特征。事实上,机器学习方法下的估计值很少是一致估计(consistent)。但我们可以利用机器学习来完成计量中的那些跟 ŷ 有关的任务。实际上,机器学习有着强大的探索复杂关系(如高维数据的非线性关系)的能力,而这一探索并不要求人们提前specify任何可能的关系。另外,机器学习这种建造模型来fit数据(的复杂关系)的能力并不会以overfitting为代价。换句话说,在不会overfitting前提下,机器学习建造的模型在out-of-sample中的预测任务中依然可以表现优异。

因此,Mullainathan和Spiess(2017)介绍了一些机器学习在 ŷ 方面的应用,例如:1)用新数据解决传统问题时机器学习的使用:如卫星图像数据的使用,美国公司10-k年报文档的分析等;2)在一些问题中,虽然我们关心的是 β ,但 β 的推断过程中涉及到一些预测的内容(有时候这一过程并不明显):如使用工具变量时的第一阶段,预测异质性效应(heterogenous treatment effect),检验实验中效应(effects)对多个outcomes的影响,在控制变量的选取中等;3)政策应用上的直接使用(direct policy application):例如招聘教师的过程可以被视作是一个prediction的过程,而政策关心雇佣这一老师之后会产生什么因果上的影响;4)检验理论:例如如果有效市场理论成立,那么我们讲无法通过现有的信息预测之后的结果。我们将在下一节中结合一些例子谈下这些应用。

应用

1. 新数据 (New Data)

首先,我们可以通过机器学习来使用新数据解决问题(虽然往往是旧问题)。如我们现在经常能见到的 “big data”这个词,Mullainathan和Spiess(2017)认为跟以往数据相比,big data不单在数据大小规模上发生了变化,同样的,数据的性质(nature)也发生了改变。像是图像和文字这种数据,以往我们并不会想要对其存储的信息加以利用,而机器学习技术带给了我们将这些信息放入回归中的可能性。

图像数据的例子之一是卫星数据。Donaldson和Storeygard(2016)的JEP文章对卫星数据如何在经济学中的使用提供了很好的综述,其中提到的两个例子是:夜晚的光度(luminosity)如何和经济产出联系在一起(Henderson,Storeygard和Weil 2012)和用来预测未来的粮食收获水平(Lobell 2013)。卫星图像数据并不能直接提供我们想要的 y 变量,而是提供给我们一个巨大的包含了图像信息的x vector,我们将这个x vector转换成可以产生 y 变量的数据,而这一过程,就是一个预测的过程,因此我们可以在此借助机器学习的工具。

由卫星数据和经济产出的联系,我们可以想象到这一技术在一些经济产出数据缺失的发展中国家会特别有用,比如被用以追踪和瞄准贫困(Blumenstock 2016)。几个这方面的例子是:1)Jean et al. (2016)训练了一个神经网络(neural net)预测五个非洲国家的当地经济发展; 2)Blumenstock, Cadamuro 和On(2015)使用卢旺达的手机数据测量整个国家的个人财富分布;3)Glaeser,Kominers,Luca和Naik(2016)使用谷歌街景(Google Street View)的图像数据来测量纽约和波士顿各个街区的收入状况。

文字数据的一个例子是网上人们发的帖子。1)Kang,Kuznetsove,Luca和Choi(2013)用Yelp.com的用户餐厅评论来预测卫生问题;2)Antweiler和Frank(2004)先人为地对一部分金融论坛的帖子进行分类,然后用这个训练出来的模型对超过一千五百万的信息进行分类,最后发现这些论坛上的信息有助于解释市场波动(market volatility)。【虽然在这篇文章没有提到,但是还有一个很有名的例子是 Alice Wu(2018)利用EJMR网站发帖内容,发现了经济学博士生匿名发帖时的性别用语差异,感兴趣的同学可以看原文或《纽约时报》的这篇文章。】

文字数据的另一方面的例子是在金融经济学家对公司内部财报的使用。以往金融经济学家很大程度上依靠的Compustat数据库来获取数据。在美国,公开经营的公司每年都需要填写10-k年报。因此,金融经济学家便可以利用机器学习把这些新数据利用起来:1)Kogan,Levin,Routledge,Sagi 和 Smith(2009)使用近一万家企业的市场风险披露内容预测出波动,并证明这一预测的波动为预测过去的市场波动提供显著的预测信息;2)Hoberg 和 Phillips(2016)从10-k年报的商业描述文字中提取出企业之间的相似度,然后用这些相似度来对企业进行了一个随时间变化(time-varying)的分类。

除了如上所述的新数据(图像和文字),机器学习还可以被利用在传统数据中。两个例子是:1)Feigenbaum(2015a,b)利用机器学习的分类器(classifier)把个人匹配到历史档案中,以此用来量化大萧条期间的社会流动性;Bernheim,Bjorkegren,Naecker 和 Rangel(2013)利用在实验室实验(laboratory experiment)收集到的子样本数据训练出一个机器学习算法,然后根据其他非实验室样本的报告行为,利用这一算法来预测这部分人的真实选择(即实验室下的选择)。

 

2.为估计所服务的预测(Prediction in the Service of Estimation )

一个明显例子便是工具变量两阶过程(two-step process)中的第一个阶段,这一阶段虽然被视作是一个估计过程,但实际上是一个预测的过程。Mullainathan和Spiess(2017)将工具变量中的有限样本偏误(finite-sample biases)看作是overfitting的后果,并且在以下几种情况下overfit程度会变大:样本量小,工具变量多,或工具变量是弱工具变量时。以往的计量经济学家对有限样本偏误的解决方法是:1)split-sample instrumental variables 和 2)“jackknife” instrumental variables。而借助机器学习中的regularization和empirical tunning,有一系例的文章已经开始将这些内容引进到(高维背景下的)第一阶中:1)利用 LASSO (Belloni et al. 2012);2)ridge regression (Carrasco 2012; Hansen 和 Kozbur 2014);3)最近的研究已经将此扩展到了非线性方程形式,一路扩展到神经网络(Hartford, Leyton-Brown 和 Taggy 2016)。

在评价机器学习在预测任务中的表现时,Mullainathan 和 Spiess(2017)说:“机器学习可以让数据本身去明晰地选择有效的specifications(而不是在估计之前人为地设置预测方程可能的形式,直线/对数/虚拟变量等),从而使得我们可以从variations获得更多信息并构建更强的工具变量。而这种为估计服务的预测是在保持(工具变量法的)exclusion restrictions 的情况下被构建和使用的。”

有一些估计过程中的预测问题并不是那么明显,这方面的例子包括:1)在PSM中用机器学习算法估计propensity score (Lee,Lessler 和 Stuart 2010);2)在处理效应(treatment effects)的估计中,用解决两个联立(simultaneous)估计问题的方式,仔细地选择高纬度的控制变量矩阵(Chernozhukov et al. 2016);3)实验和对照组的平衡性检验(balance),和在分析一个treatment在多个被解释变量上的作用上(Ludwig,Mullainathan和Spiess 2017);4)处理效应的异质性估计(heterogeneous treatment effects)。

我们细说下最后一个应用例子——处理效应的异质性估计。处理效应的异质性估计是经济学在这一支上所做的一个重要的(且很新的)贡献,具体的贡献文章包括以下三篇:1)使用sample-splitting (Athey和Imbens 2016);2)使用Random Forests 并创造了Causal Forests(Wager和Athey 2018);3)使用ensemble methods (Grimmer,Messing和Westwood 2016 (政治科学) )。关于heterogeneous treatment effects这个话题,我会下次再写一篇文章细聊下它的应用,感兴趣的同学可以按上述文献去关注一波。

最后,使用机器学习分析heterogeneous treatment effects需要注意的一点是,我们在阐释结果时需要特别小心。比如,被选择的(forests 中的)决策树上的结果仅是一个特定的代表,如一颗特定的决策树在教育这个变量上分裂(split)了,但没有在年龄上分裂。那么conditional on这棵树,我们可以说得到了一个具体的一致估计。但我们不能说这个具体的一致估计结果可以推广到其他树上。而且,实际上,其他决策树很可能会在年龄变量上分裂。所以说,在阐述我们得到的异质性结果时,我们需要较为谨慎。

 

3. 政策中的预测 (Prediction in Policy)

现实中许多政策的抉择过程都涉及预测问题,因此机器学习的应用之一便是帮助这些政策做出更好的抉择。这一方面的例子有:1)法庭裁决:被逮捕后,法官需要决定是否对被告进行候审,释放回家或送进监狱(Kleinberg et al. 2017);2)类似的,保释金的决定问题(Kleinberg, Ludwig, Mullainathan 和 Obermeyer 2015);3)雇佣教师时,利用教师已有信息判断是否雇佣该教师(Kane 和 Staiger 2008; Dobbie 2011; Jacob et al. 2016); 4) 养老金问题(Chalfin et al. 2016);5)在教导项目中预测哪部分年轻人是“高风险”的年轻人(Chandler, Levitt, and List 2011);6)类似的,用现有的贫困分数卡锚定贫困人群(Abelson, Varshney 和 Sun 2014, McBride 和 Nichols 2016,Engstrom, Hersh 和 Newhouse 2016)。

尽管我们已经有了机器学习的算法,经济学在政策制定过程的预测这一过程中有着两个方面的重要性:1)现实中的许多数据都是在现有的规则之下产生的,因此反事实推断的思想便有助于帮助人们更好地使用数据来回答问题;2)仅仅有算法是不够的,我们需要从人的行为的角度来分析决策过程中的影响因素是什么,能不能在决策过程中提供激励以优化决策等问题。

 

4. 检验理论(Testing Theories)

机器学习的最后一个应用便是可以用来直接检验跟预测相关的理论知识。比如,在有效市场的理论下,一个重要的预测是人们无法对未来做出预测。但是Moritz 和 Zimmermann (2016) 使用机器学习却发现,美国企业过去的回报对他们未来的股票价格有着很强的预测能力。另外,人们可以利用机器学习为理论的检验提供一些基准。一个普遍对理论的担忧是,即使理论是正确的,对于它试图去解释的variations,它仅能解释其中一小部分的variations。比如,R方这一工具是不足以解释全部的variation的,Kleinberg, Liang 和 Mullainathan (2015) 试图去比较理论的和最优化的predictor之间的预测能力差异。类似的,Peysakhovich and Naecker (2015) 比较了风险下行为模型的out-of-sample表现。

 

结语

以上是对Mullainathan和Spiess(2017)一文部分内容的编译,对机器学习在应用计量上的潜在应用进行了介绍并相应地提供了实际的一些应用例子。关于翻译,需要注意的一点是,对于其中的一些应用例子,因为没有系统地阅读过原文,所以在理解或翻译上可能会存在错误。最后,我目前对机器学习在经济学上的应用很感兴趣,因此欢迎大家多推荐一下接触过的机器学习应用方面的社科(不限于经济学)文献。

 

参考文献

1. Abelson, B., Varshney, K. R., & Sun, J. (2014, August). Targeting direct cash transfers to the extremely poor. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 1563-1572). ACM.

2. Antweiler, W., & Frank, M. Z. (2004). Is all that talk just noise? The information content of internet stock message boards. The Journal of finance59(3), 1259-1294.

3. Athey, S. (2015, August). Machine learning and causal inference for policy evaluation. In Proceedings of the 21th ACM SIGKDD international conference on knowledge discovery and data mining (pp. 5-6). ACM.

4. Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. Proceedings of the National Academy of Sciences113(27), 7353-7360.

5. Belloni, A., Chen, D., Chernozhukov, V., & Hansen, C. (2012). Sparse models and methods for optimal instruments with an application to eminent domain. Econometrica80(6), 2369-2429.

6. Belloni, A., Chernozhukov, V., & Hansen, C. (2014). Inference on treatment effects after selection among high-dimensional controls. The Review of Economic Studies81(2), 608-650.

7. Bernheim, B. D., Bjorkegren, D., Naecker, J., & Rangel, A. (2013). Non-Choice Evaluations Predict Behavioral Responses to Changes in Economic Conditions (No. w19269). National Bureau of Economic Research.

8. Blumenstock, J. E. (2016). Fighting poverty with data. Science353(6301), 753-754.

9. Blumenstock, J., Cadamuro, G., & On, R. (2015). Predicting poverty and wealth from mobile phone metadata. Science350(6264), 1073-1076.

10. Carrasco, M. (2012). A regularization approach to the many instruments problem. Journal of Econometrics170(2), 383-398.

11. Chalfin, A., Danieli, O., Hillis, A., Jelveh, Z., Luca, M., Ludwig, J., & Mullainathan, S. (2016). Productivity and selection of human capital with machine learning. American Economic Review106(5), 124-27.

12. Chandler, D., Levitt, S. D., & List, J. A. (2011). Predicting and preventing shootings among at-risk youth. American Economic Review101(3), 288-92.

13. Chernozhukov, V., Chetverikov, D., Demirer, M., Duflo, E., Hansen, C., & Newey, W. K. (2016). Double machine learning for treatment and causal parameters (No. CWP49/16). cemmap working paper, Centre for Microdata Methods and Practice.

14. Dobbie, W. (2011). Teacher characteristics and student achievement: Evidence from Teach For America. Unpublished manuscript, Harvard University.

15. Donaldson, D., & Storeygard, A. (2016). The view from above: Applications of satellite data in economics. Journal of Economic Perspectives30(4), 171-98.

16. Einav, L., & Levin, J. (2014). Economics in the age of big data. Science346(6210), 1243089.

17. Engstrom, R., Hersh, J., & Newhouse, D. (2016). Poverty from space: using high resolution satellite imagery for estimating economic well-being and geographic targeting. Unpublished paper.

18. Feigenbaum, J. (2015 a.). Automated Census Record Linking. unpublished paper (Harvard University, 2015), available at https://scholar.harvard.edu/files/jfeigenbaum/files/feigenbaum-censuslink.pdf.

19. Feigenbaum, J. (2015 b.). Intergenerational mobility during the great depression. unpublished paper (Harvard University, 2015), available at https://scholar.harvard.edu/files/jfeigenbaum/files/feigenbaum_jmp.pdf.

20. Friedman, J., Hastie, T., & Tibshirani, R. (2017). The elements of statistical learning (2nd). New York, NY, USA:: Springer series in statistics.

21. Glaeser, E. L., Kominers, S. D., Luca, M., & Naik, N. (2018). Big data and big cities: The promises and limitations of improved measures of urban life. Economic Inquiry56(1), 114-137.

22. Grimmer, J., Messing, S., & Westwood, S. J. (2017). Estimating heterogeneous treatment effects and the effects of heterogeneous treatments with ensemble methods. Political Analysis25(4), 413-434.

23.  Hansen, C., & Kozbur, D. (2014). Instrumental variables estimation with many weak instruments using regularized JIVE. Journal of Econometrics182(2), 290-308.

24. Hartford, J., Lewis, G., Leyton-Brown, K., & Taddy, M. (2016). Counterfactual Prediction with Deep Instrumental Variables Networks. arXiv preprint arXiv:1612.09596.

25. Henderson, J. V., Storeygard, A., & Weil, D. N. (2012). Measuring economic growth from outer space. American economic review102(2), 994-1028.

26. Hoberg, G., & Phillips, G. (2016). Text-based network industries and endogenous product differentiation. Journal of Political Economy, 124(5), 1423-1465.

27. Jacob, B. A., Rockoff, J. E., Taylor, E. S., Lindy, B., & Rosen, R. (2018). Teacher applicant hiring and teacher performance: Evidence from DC public schools. Journal of Public Economics166, 81-97.

28. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2017). An introduction to statistical learning (7th). New York: Springer.

29. Jean, N., Burke, M., Xie, M., Davis, W. M., Lobell, D. B., & Ermon, S. (2016). Combining satellite imagery and machine learning to predict poverty. Science353(6301), 790-794.

30. Kane, T. J., & Staiger, D. O. (2008). Estimating teacher impacts on student achievement: An experimental evaluation(No. w14607). National Bureau of Economic Research.

31. Kang, J. S., Kuznetsova, P., Luca, M., & Choi, Y. (2013). Where not to eat? improving public policy by predicting hygiene inspections using online reviews. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (pp. 1443-1448).

32. Kleinberg, J., Lakkaraju, H., Leskovec, J., Ludwig, J., & Mullainathan, S. (2017). Human decisions and machine predictions. The quarterly journal of economics133(1), 237-293.

33. Kleinberg, J., Liang, A., & Mullainathan, S. (2017, June). The Theory is Predictive, but is it Complete?: An Application to Human Perception of Randomness. In Proceedings of the 2017 ACM Conference on Economics and Computation (pp. 125-126). ACM.

34. Kleinberg, J., Ludwig, J., Mullainathan, S., & Obermeyer, Z. (2015). Prediction policy problems. American Economic Review105(5), 491-95.

35. Kogan, S., Levin, D., Routledge, B. R., Sagi, J. S., & Smith, N. A. (2009, May). Predicting risk from financial reports with regression. In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics (pp. 272-280). Association for Computational Linguistics.

36. Lee, B. K., Lessler, J., & Stuart, E. A. (2010). Improving propensity score weighting using machine learning. Statistics in medicine29(3), 337-346.

37. Lobell, D. B. (2013). The use of satellite data for crop yield gap analysis. Field Crops Research143, 56-64.

38. Ludwig, J., Mullainathan, S., & Spiess, J. (2017). Machine Learning Tests for Effects on Multiple Outcomes. arXiv preprint arXiv:1707.01473.

39. McBride, L., & Nichols, A. (2016). Retooling poverty targeting using out-of-sample validation and machine learning. The World Bank.

40.  Moritz, Benjamin, and Tom Zimmermann. 2016. “Tree-Based Conditional Portfolio Sorts: The Relation between Past and Future Stock Returns.” Available at SSRN: https://papers.ssrn.com/sol3/ papers.cfm?abstract_id=2740751.

41. Mullainathan, S., & Spiess, J. (2017). Machine learning: an applied econometric approach. Journal of Economic Perspectives31(2), 87-106.

42. Peysakhovich, A., & Naecker, J. (2017). Using methods from machine learning to evaluate behavioral models of choice under risk and ambiguity. Journal of Economic Behavior & Organization133, 373-384.

43. Stefan Wager and Susan Athey. (2018). Estimation and inference of heterogeneous treatment effects using random forests. Journal of the American Statistical Association, 113(523),1228–1242.

44. Varian, H. R. (2014). Big data: New tricks for econometrics. Journal of Economic Perspectives28(2), 3-28.

45. Wu, A. H. (2018). Gendered Language on the Economics Job Market Rumors Forum. In AEA Papers and Proceedings (Vol. 108, pp. 175-79).

Share

中国的空气质量数据:一份简单介绍

暑期在学校做RA,参与一个跟中国空气污染相关的项目。之前听过一些用空气质量数据写的文章,但并没有过多留意,没想到这两年经常能看到相关的paper或working paper,而且我想将来使用这方面数据的人也会越来越多。因此整理了下中国空气质量数据的相关资料,并在此跟大家分享下。当然,主要是以经济学的视角来写这篇文章。

空气质量数据,按数据来源分为两类,一类是政府网站提供的数据(下文1-4),另一类则是网友提供的,在政府网站上抓取下来的数据(下文5)。前者是社科学者直接能用的数据,即使可能存在数据造假也可以用,这点下面会谈到;后者则是爬虫数据,主要是网友在做的一些相关项目提供的数据(which is awesome)。后者的数据获取会比较简单(一些网站提供API接口或SQL格式的数据),但数据在使用之前需要跟官方数据做一下核对。

 

1. 全国城市空气质量日报(http://datacenter.mep.gov.cn:8099/ths-report/report!list.action?xmlname=1462259560614)

全国城市空气质量日报是环境部数据中心的一部分,目前提供中国367个城市每天的AQI数据。最早可查询到2014年1月1号的数据,但是时间越早的数据所涉及的城市越少。

说到空气质量数据,值得一提的是2012年之前,中国政府使用的是API(Air Pollution Index)数据。事情的拐点发生在2011年年底,美国驻华大使馆开始在推特公布北京的PM2.5数据,民众渐渐关注到中国的空气议题,之后中国政府在批评声中修改了空气质量标准,而以往的标准是不包含PM2.5这一指标的。AQI和API的区别,如维基百科AQI条目所述:

“AQI分级计算参考的标准是GB 3095-2012《环境空气质量标准》(现行),参与评价的污染物为SO2、NO2、PM10、PM2.5、O3、CO等六项,每小时发布一次;而API分级计算参考的标准是GB 3095-1996《环境空气质量标准》(已作废),评价的污染物仅为SO2、NO2和PM10等三项,每天发布一次。因此,AQI采用的标准更严、污染物指标更多、发布频次更高,其评价结果也将更加接近公众的真实感受。”

早期的经济学的相关研究使用的主要是环境部的API数据,其中包含了PM10、SO2和NO2三个指标。如Ghanem&Zhang (2014) 发表在JEEM的文章,通过研究中国113个城市2010年期间的API数据,他们怀疑中国有一半的城市存在数据造假行为。他们发现天数的密度曲线在API为100左右存在一个断点,即API稍稍小于100的天数会明显多于API稍稍大于100的天数。这以断点对北京特别明显,而API在100以下则是北京市“蓝天计划”中的蓝天标准。除此之外,Chen et al. (2013)同样发表在JEEM的文章,利用2000到2009年的API数据研究发现,北京为举办奥运会所做的改善空气准备,确实改善了北京的空气质量。其后为了排除数据造假对其估计的影响,他们使用美国NASA卫星的AOD数据做了稳健性检验。因此,我们可以看到,即使数据被怀疑存在造假,也是可以用以研究的;一是研究数据造假本身,二则是利用第三方可靠的数据源进行论证。

 

2. 全国城市空气质量发布平台(http://106.37.208.233:20035/)

该平台由中国环境监测总站提供,是除了上述空气质量日报之外,另一个中国官方提供的空气质量数据。该数据源最大的特点在于其提供实时的各城市各个监测点的数据,也就是说,这一网站提供的是每小时的、散落在不同城市的各个检测点的,包含了SO2、NO2、PM10、PM2.5、O3、CO六个指标的数据。这应该能为经济学研究者进行识别(identification)提供不少帮助。但该网站有一个槽点,是只能用IE浏览器打开。

 

3. 美使馆数据(http://www.stateair.net/)

该项数据由美国驻华大使馆(北京)和四个领事馆(上海、沈阳、成都和广州)所提供,网站上提供实时的AQI数据,也有历史的每小时PM2.5数据提供下载。这是上述五个机构自己测量的空气质量数据,监测点应该在各使馆内部。虽然涉及到的城市只有五个,即北京、上海、沈阳、成都和广州,但是数据质量可信度较高,很适合拿来做稳健性检验。如上文所述,美使馆于2011年底开始在推特公布PM2.5数据,推动了中国政府在空气质量检测方面的改变。

 

4. 美国NASA的AOD数据(https://ladsweb.modaps.eosdis.nasa.gov/)

AOD的全称是Aerosol Optical Depth,中文叫气溶剂光学厚度,该数据由美国国家航空航天局(NASA)的MODIS卫星提供。作为Chen et al.(2013)里提及的数据,这里也仅仅是提及下。因为涉及气象学方面的知识,我也不是很了解。数据具体的下载网站是https://ladsweb.modaps.eosdis.nasa.gov/,但这应该跟灯光数据类似,需要了解相关领域才能懂得如何处理数据。值得一提的是,网上有些研究表示,AOD数据与PM10存在相关性,但是这一相关性会受季节或其他气象因素影响,因此使用时需要注意控制变量的设置。感兴趣的同学还请自行google相关资料。

 

5. 一些网友整理的数据

最后介绍下一些网友爬虫整理的数据,他们的数据源基本来自上述介绍的两个中国政府网站。但有些网站并没有明说其数据源是什么,对于这些网站,并不能确定他们的数据源是什么。

第一个的网站是 http://aqicn.org/ ,特点是提供英文(和其他语言)界面,且提供的是全世界范围的空气质量数据(虽然我们并不关心这点),感觉外国人多半会选择这个网站来了解一些中国的空气质量信息。第二个网站则是http://www.pm25.in/ ,特点是提供API接口,因此方便人们抓取数据。这两个网站都没有明说其数据源,但提供的是中国各城市的监测点数据。我猜他们的数据源应该是前面提到的“全国城市空气质量发布平台”。

第三和第四个网站分别是中国大陆重点城市空气质量(AQI)历史数据库(https://www.gracecode.com/aqi.html )和中国大陆重点城市空气质量(AQI)数据抓取(http://ydoku.com/aqi-fetch.html)。他们抓取的都是环境部数据中心提供的中国各城市每日的AQI数据。两者都是网友自己抓取的数据,前者网站上写着“目前数据库包含 3231 个地区的总计 444391 条数据,时间跨度为 2000-06-05 至 2015-02-25”;后者则是在前者的基础上,抓取了2014-01-01 至 2017-04-27的数据。数据的储存格式是SQL,因此需要处理一下转化成csv格式。

 

参考文献

  1. Ghanem, D., & Zhang, J. (2014). ‘Effortless Perfection:’Do Chinese cities manipulate air pollution data?. Journal of Environmental Economics and Management68(2), 203-225.
  2. Chen, Y., Jin, G. Z., Kumar, N., & Shi, G. (2013). The promise of Beijing: Evaluating the impact of the 2008 Olympic Games on air quality. Journal of Environmental Economics and Management66(3), 424-443.

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

博弈论的发展:一段回顾

前言

《The Journal of Economic Perspectives》16年秋季刊中讨论了两个专题,分别是“移民与劳动力市场(Immigration and Labor Markets)”和“博弈论领域正在发生什么?(What is Happening in Game Theory?)”。在第二个专题中,耶鲁大学经济系教授Larry Samuelson发表了名为“Game Theory in Economics and Beyond”的专题文章,回顾了博弈论是如何以纯数学的内容融入经济学领域并得到极大发展的一段历程,然后提及了博弈论领域目前面临的几个挑战,并在最后就博弈论的未来做了展望。

我这学期刚好修了一门博弈论,所以在这学期的Final之前,编译下这篇文章,加深自己对博弈论的理解,也希望能对国内修博弈论课程的同学有所帮助。本文将主要介绍这篇论文的第一部分,即集中梳理下博弈论这门学科的发展历程,而不会对第二部分(挑战)和第三部分(展望)做详细介绍。感兴趣的同学可以参阅原文。需要说明的是:第一,本文并没有对其涉及到的一些经典博弈模型和术语(如Cournot and Bertrand model、infinitely repeared game、Folk theorem和Signaling等)做出解释,对这些内容的理解要求一些基本的博弈论知识;第二,正文部分小标题内容为本文所取(为了方便阅读和理解),小标题后的英文对应的才是原论文中的标题内容。

正文

在上世纪60和70年代,博弈论基本是经济学学科中分离的一支。学习博弈论的人往往是那些被称作game theorists的人群,而经济学家对博弈论基本没有什么概念。但随着上世纪80、90年代经济学家在博弈论上的发展,博弈论目前已经成为经济学中标准的工具之一。这种转变明显地体现在经济学的课堂上,经济学研究生或博士生会在其第一年的核心课程(具体而言是在微观经济学的课程)中学习博弈论的基本使用。

1.博弈论的微观基础(“Aggregating Individual Behavior”)

首先需要谈及的是博弈论的建立和发展是有其微观基础的,即博弈论的基础跟经济学的基础是一致的。经济学家之所以跟其他社科学者存在差异,就在于其秉持的方法论上的个人主义(methodological individualism)这一信念,即对社会现象的解释是建立在对人体行为的研究上的。经济学家依据这一信念建立的模型有着两大原则:第一个原则跟人体行为有关,即经济学家假设人类存在持续且稳定的偏好(consistent and stable preferences);而第二个原则则是利用个人行为的加总来研究复杂的社会现象。

而博弈论也是建立在个体行为的基础之上,即它同样假设个体存在持续且稳定的偏好,但它使用另外一种视角来理解“使用个体行为的加总来检验社会现象”这一模型。简而言之,博弈论跟微观经济学有一样的假设前提,但会在此假设基础上通过另外一种途径来研究社会现象。

2.古典的博弈论理论(“Classical Game Theory”)

在古典的视角看来,博弈论就是对感兴趣的研究情景的一种描述,而不是我们今天所用说的是一种近似(approximation)。古典的博弈论理论使得这一学科能够自给自足的(self-contained)。这也意味着在古典的视角下,博弈论不需要担心决策者(players)是不是会在游戏中交流,合作或相互发送信号(signal)。而即使发生了上述情况,在古典视角的认知中,这些情况也将会被包含在决策者的行动之中,因而其对博弈的分析并不会受到影响。

其中的一个例子便是Cournot和Bertrand模型。在不完全竞争情况下,Cournot模型假定企业可以选择他们的产出数量,而产品的市场价格由市场上所有产出数量(而非一家企业的产出数量)来决定;而后来Bertrand在其构建的模型中表示,市场上的企业是可以选择其产品价格的,而非由市场的总体产出来决定价格。那我们应该如何在这两个模型中做出选择?在古典视角的下,这一问题是很好解决的。他们认为,如果企业可以选择产品数量,那么就用Cournot模型;如果企业可以现在产品价格,那么就用Bertrand模型;而如果数量和价格都可以选择,我们则需要一个不一样的新模型。

而当我们构建了适当的模型后,在理性人决策者的基础上,均衡便会被反映出来。比如在Cournot模型中,我们很容易就会发现存在纳什均衡且只存在一个纳什均衡。然而,实际上这一模型会存在许多纳什均衡,而我们也需要考虑更多的情况。比如在repeated game中,一种可能的均衡是上文所提及的在one-shot game中的纳什均衡;但在企业足够耐心的情况下,最后可能会导致企业会相互合作的结局,企业会合作以设置垄断价格,并在每一期中划分市场利润。事实上,正如fork theorem所指出的,对于足够耐心的决策者而言,实际上任何结果都会是均衡。而在另外一些情况中,如企业面临的是非线性的需求函数,或者面临不确定性(uncertainty)——如信号模型(signaling models)时,多均衡的结局都会产生。

3.均衡的精炼(“Equilibrium Refinements”)

面对多均衡这一问题,博弈论中开始出现一支关于均衡的精炼(refinement)的文献。在这一支文献中,经济学家试图通过设置各种精炼的标准,对纳什均衡的产生做出进一步限制,由此来“提炼”纳什均衡。然而这一试图解决问题的工具也存在许多问题,如作者指出,在不管增长的精炼理论之中,新的理论的产生给后来者提供了批评他们弱点的机会,而后来者也是如此,仅仅是给下一轮的新理论提供了原材料,并如此反复循环。

但在许多经济学家都在纳什均衡精炼的设置条件上绞尽脑汁的时候,经济学家如Bernheim(1984)和Pearce(1984)仅仅就“理性及其共同知识”(common knowledge of nationlity)这一假设基础上(而不是通过添加其他精炼限制)做出了一连串的突破。还是以Cournot模型为例子,如果我们假定企业是理性决策者,企业的竞争对手也是理性决策者,而且企业知道他的对手是理性的,且企业的对手知道“企业知道他的对手是理性”这一事实(并如此反复…),我们可以一步步消除掉(eliminate)企业们不可能做出的产量决策,并在此反复消除之下达到最终的均衡产量。虽然如此,这一进展在其他许多的博弈(及其精炼)中并不适用。matching pennies game就是一个明显的例子,我们知道,这个游戏最终的均衡是一个(1/2, 1/2)的混合策略均衡,而利用common knowledge of nationlity并不能消除这个博弈中决策者的任一决策。

4.工具主义观点下的博弈论(“An Instrumental View of Game Theory”)

作为回应,古典的博弈论便让位于工具视角下的博弈论理论。在这种视角下,博弈论不再是关于决策者相互博弈的描述,而是变成对人们研究这些博弈过程的有用的模型工具。还是以Cournot和Bertrand模型为例,在这种视角下,我们可以看出企业的行动不再取决于我们所想企业会怎么做,而是取决于哪个模型对我们分析问题较有帮助。如果我们的模型设定是“即使是在只有两个企业的市场上,竞争也足够使得他们的产品价格等于边际成本”,那么选择Bertrand模型更为合适;而在另外一种市场设定中,即当我们认为“新进入的企业会降低现存企业的利润”时,选择Cournot模型会更为合适。

一个工具主义下博弈理论的运用即是,一个更符合现实情况的模型并不一定意味着这是一个更好的模型(能帮助人们更好地理解社会现实的模型才是更好的模型)。也就是说,在工具主义的观点看来,即使不会使得模型更为复杂,更为现实也不是一个模型必要的构建条件。举例而言,无限期的重复博弈(infinitely repeated games)很明显就是一个不现实的模型,一个更为现实的模型是有限期的重复博弈(finitely repeated games)。但是在这里,经济学家关心的是在无限期情况下人们可能采取的行动,而不是关心的人类的死亡率表(human mortality table)。一个很明显的论点即是,在无限期和有限期的情况下,企业可能采取的行为完全是不一样的,在无限期下会导致的垄断的均衡结局在有限期重复博弈下将不复存在。

这种工具主义的观点同时也复杂化了博弈论。以简单的囚徒困境为例,我们知道,在古典视角下,囚徒困境中最后的均衡是双方都会在面临“合作”和“背叛”的决策下选择背叛;但在工具主义的视角下,这一问题就复杂许多。首先,博弈双方的“合作”可能意味着是垄断市场上的合作,也可能是核武器协议中的信号;而“背叛”则可能是涌进市场的新企业对市场总产出的影响,也可能意味着安装反弹道导弹这一抉择。其次,效用的测量将变得困难,我们面临的效用测量可能并不是指的测量诸如企业利润或者数量。于是,问“决策者会不会背叛”这个问题,就等同于在问“对于囚徒困境,我们是否选择了合适的方式去近似他们的博弈了?”,而这可以变为一个很难回答的问题。

5.演化博弈(“Evolutionary Game Theory”)

演化博弈又将博弈论从工具主义带回了经济学长久的传统之中。在经济学中,我们假设理性人会最大化自己的效用,但是我们总会问道,“人们或企业真的会最大化自己的效用吗”?对此,一个标准的回应是,人们或许并不总是最大化自己的效用,事实上,人们会根据自己已有的经验不断做出选择和调整,并由此使得自己达到更优的结果,虽然在这过程中有时人们也会进行试验和犯错。而正是由此产生的人们不断适应的过程,解决了人们最大化自己效用的问题。

演化博弈则借用了类似的理由。演化博弈并不是在说决策者将从博弈的结构中推出均衡,而是在说我们认为决策者将会跟随着博弈过程而不断累积经验。这一观点下的博弈论中使用的方法更接近于传统经济学中所使用的方法。事实上,古典的博弈模型特点之一便是在动态过程中找出均衡,而演化博弈这一视角无疑又将博弈论拉回到了这一局面。有意思的是,1838年Cournot构建Cournot模型时,就是将其结果建立在以最佳策略(best repsonse)为基础的相互调整的过程中。

最后作者提到了演化博弈所要处理的两个最基本的问题是:一是我们能从动态的过程中得到博弈的纳什均衡吗?二是这一动态过程能产出纳什均衡的精炼吗?对于前者,回答是肯定的。经济学家对此的共识是,在适当的条件下,演化博弈是可以产出纳什均衡的;而对于后者,回答则是否定的,即演化博弈并不一定能导致标准的纳什均衡精炼。

 

论文的第一部分对博弈论发展的梳理到此就结束了。在文章剩下的两部分中,作者先提及了博弈论面临的挑战,如多均衡下的选择,博弈论的应用和合作博弈方面的挑战;再谈了下自己对博弈论未来的展望,分别提及了博弈论在经济学学科之外的发展以及博弈论将来可能的发展之地(如在行为经济学和动态效用最大化问题上的应用)。感兴趣的同学可能参阅原文。

 

文献来源:

Samuelson, L. (2016). Game Theory in Economics and Beyond. Journal of Economic Perspectives, 30(4), 107-30.

 

 

欢迎各位批评指正。

联系我

Share

计划生育及其意外后果——来自经济学研究的证据

前言

2016年,中国结束了三十多年的计划生育政策,更确切地说,是结束了计划生育里面的一胎政策。“一对夫妇可生育两个小孩”,对大多数家庭来说,这意味着他们可以最多生育两个小孩的同时,也意味着中国还处于计划生育时代。

全面二胎及其可能的影响并不是这篇文章的关注点,本文希望通过介绍几篇经济学学科的研究,来试图聊一下“计划生育政策及其意外后果”这一话题——即执行了三十多年的计划生育政策,除了控制人口增长之外,还对中国社会的其他方面造成影响了吗?如果答案是肯定的,那么又造成了怎样的影响呢?在回答之前,让我们先看下计划生育政策的背景介绍。

 

计划生育政策

1949年新中国成立时总人口只有5亿4千万,仅仅二十年后,人口数量就超过了8亿人。人口的快速增长引起了政府的担忧,于是从上世纪70年代开始,中国政府开始筹备计划生育工作——从最开始的提倡一对夫妇生育两个孩子(1973年),到最终确定执行强制的“一胎政策”,要求各地政府制定地方的计划生育条例,并在全国大部分地区施行(1979年)。

因此,对经济学家而言,一般视1979年为计划生育政策的正式执行时期,因为1979年之后各地方政府为惩罚多生育行为,根据地方的收入水平制定了相应的的罚金数额。具体而言,计划生育政策带来的两个层次的差异(variation),而这为经济研究中的因果推断提供了可能性。

第一个差异,在于计划生育政策对于不同家庭的可生育胎儿数量的规定是不一样的,即并非中国所有家庭都只能生育一个小孩。一胎政策(One-Child Policy)主要实施在中国的城市地区,而对于一些省份的农村居民来说,如果他们第一胎是女儿则可合法地生育第二胎,这就是所谓的一胎半政策(“1.5-child” policy)。在一些边远地区,有的家庭可以生育二胎或三胎;而对一些少数民族或一些在高危职位就业的家庭来说,他们被准予不算做是计划生育政策的实施对象(Ebenstein 2010)。

据Ebenstein 2010年发表在Journal of Human Resources(下称JHR)的文章估计,在2010年左右,大概有35%的家庭受到一胎政策的影响,54%的家庭受到一胎半政策的影响,10%的家庭可以合法生育二胎,1%的家庭可合法生育三胎。

第二个层面的差异,在于计划生育政策在各地对于超生家庭的罚金数额是不一样的。关于各地的罚金差异,Ebenstein 2010年的文章也提供了其整理的数据。图1为Wei Huang和Yi Zhou工作论文中根据Ebenstein的数据整理出来的图片,横坐标显示的是年份,纵坐标表示的是“各省罚金除以当地居民年收入得到的倍数”。另外,Ebenstein的罚金数据可在其个人网站上下载。

fine_Wei Huang 2016

图1 中国各省的计划生育罚金率

计划生育的意外后果

  1. 男女性别比的失衡加剧

中国男女性别比失衡(sex ratio imbalance)方面的经济学文献很多,这也是中国研究的一个经典议题。性别比的测度一般是看“每一百个女性对应着多少男性人口”,按自然的生育规律,男女性别比应该为1:1,但在许多国家和地区(主要集中在亚洲、中东和北非),每一百个女性对应着一百多个男性,即男性新生儿的数量要远超女性。由此造成了“Missing women“或“Missing Girls”的现象,即很多女性并没有成长成人,她们可能在出生前就“消失”了,或者童年早期夭折了。

最早关注到这一现象的是经济学家阿玛蒂亚森,他也是“Missing Women”这一概念的提出者。在森最初的研究(Sen 1990)中,他估计世界范围内有超过一亿个消失女性。由于亚洲许多国家(比如印度和中国)也存在这一现象,因此很早之前许多中外经济学家就开始研究中国的“Missing Women”现象,即男女性别比失衡的现象。

长久以来中国人持有的“重男轻女”观念或许影响了中国的性别比失衡现象,但更多经济学家感兴趣的是,自上世纪八十年代以来,中国政府强制执行的计划生育政策是否加剧了这一现象。在一个人口众多的国家,对其大多数家庭采取强制性的一胎化政策,这在全世界范围来看,也是一件很不常见的事情。

Ebenstein(2010)的论文并不是最早的相关研究,但是其整理的罚金数据,为之后的多篇论文提供了识别基础,因此在这里首先讲下这篇文章。Ebenstein的研究发现,在执行计划生育之后,相较于其他地区,受一胎政策影响地区的家庭中生育男性的比例更高。更具体的研究显示,这一比例在第一胎中的区别不大,但对于第一胎是女性的家庭来说,第二胎生育男性的几率更大。也就是说,对于任何家庭来说,第一胎生男生女的概率都是差不多的,但是对于第一胎生了女性的家庭来说,受到一胎政策影响的家庭相较于其他家庭,在第二胎生育男性的可能性更大,由此可看出一胎家庭对其新生儿在性别选择上的主动操作。

上述结论仅仅来自于数据上的描述分析,但之后的回归中也显示了一致的结论。具体而言(原论文表5),在计划生育执行之后,罚金较高的地区中家庭生育男性的可能性更高,而在计划生育执行之前,地区的罚金数量并不会影响家庭的生育结果。进一步研究(原论文表6)显示,罚金数额确实减少了家庭的生育行为,但对于那些拥有一个女孩或者两个女孩的家庭来说,如果他们选择继续生育的话,罚金数额会显著增加这些家庭在下一胎生育男性的比例,即他们如果选择继续生育的话,会想办法“生”一个男孩。

另一篇与这个议题相关的文章来自清华大学的Hongbin Li等人2011年发表在《Demography》上的文章。在这篇文章中,作者利用计划生育在一胎家庭和其他家庭之间的执行差异和执行时间上的前后差异这两层差异,基于双重差分的方法,研究发现计划生育政策造成了1980年至1990年新生儿中94%的性别比失衡现象。

既然计划生育政策的执行真的促进了中国的性别比失衡,而且可能还造成了严重的影响了。那下一步的问题便是其中的机制是什么?即对于那些家庭来说,他们可能是通过怎样的途径来进行“性别选择”的?本文不打算详述此内容,感兴趣的同学可以参看Hongbin Li的另一篇论文(Yuyu Chen 等人 2013)。这篇文章发表在JHR的论文显示,1980年至1990年期间40%-50%的性别比失衡现象与B超技术的引进有关,即B超技术成为了许多家庭进行“性别选择”的一个途径。

  1. 小孩数量减少,质量却提高了?

劳动经济学上有一个经典的议题叫“Quality-Quantity Tradeoff”,即质量和数量之间的权衡。这个议题最初源起自经济学家Becker和Lewis的开创性文章(Becker和Lewis 1973),并由此发展出各种各样的trade-off模型。具体而言,质量和数量之间的权衡是指,家庭小孩数量与小孩质量之间会呈负相关关系,即小孩数量的增加会减低其质量,反之亦然。早期的实证研究基本倾向于支持QQ理论的,但是后来的研究则提供了许多不支持QQ理论的证据。

那这一理论在中国是如何的呢?特别是在中国,计划生育的执行刚好为这一理论的检测提供了一个外生的冲击条件,借此经济学家可以来研究在小孩数量必须被减少的背景下,小孩的质量是否得到了提升?在细说之前,还得先谈下“质量”这一指标的测度。关于质量的测度指标很多,主要有受教育程度(Education attainment)、营养和健康状态和认知能力三个指标。通过选用不同的指标测量“质量”进而来讨论QQ理论可能会产生不一样的结果,这与国别等具体情况相关。

而即使采用同一个测量指标,也有可能得出不一样的结论。比如在受教育程度方面,借助计划生育这一外生政策,Rosenzweig和Zhang(2009)的研究发现家庭小孩数量与小孩受教育水平之间存在负向关系,而Qian(2009)的研究则发现,在中国农村,受一胎政策影响的家庭生育第二个小孩会促进其第一个小孩的受教育程度。

对此,新加坡国立大学的Haoming Liu 2014年发表在《Journal of Population Economics》的论文提供了一些新证据和与质量测度相关的讨论。Liu借计划生育政策在1984年的放宽(即准许部分符合条件的家庭可生育二胎,主要是部分省份第一胎为女孩的农村家庭),在文中构建三个工具变量:是否有可生育二胎的资格,当地罚金数额及这两个变量的交互项,由此进行估计推断。

Liu在文章中用小孩的身高来表示小孩的“质量”(具体的测度值是height-for-age z-scores,详情可参阅原文),其研究发现家庭小孩数量的增加会降低其小孩的身高,分位数回归的结果显示这一影响对身高较低的男孩影响会更显著,对不同身高分布的女孩的影响则没有系统差异。而当作者把质量的测度指标换为小孩的受教育程度之后,家庭中小孩数量对其受教育程度的影响就变弱很多。

关于“质量”的测量指标方面,在这篇文章中,作者之所以采用身高作为小孩“质量”的测量指标,是因为:一方面,由于中国存在义务教育制度,所以家庭小孩数量对小孩受教育程度的影响应该会受到义务教育法规的影响,由此可能得到很弱的影响结果;另一方面,营养的摄入量对小孩的身高有着极其重要的影响,而营养的摄入又完全由中国家庭(而非政府)的食物支出决定。以往有研究(Wu和Li 2012)发现家庭小孩数量的增加会减少父母的人力资本投资,那么家庭中小孩数量的增加也极有可能影响小孩的身高。另外,即使在中国公共卫生条件良好的地区,营养的摄入也对小孩的身高也有着很重要的影响。同理可知,如果使用身高作为测度指标,这一指标放在发达国家的贫困地区或发展中国家(如中国)来讨论QQ理论会得出更好的结果。因此,在讨论QQ理论时,质量指标的选取就显得十分重要。

这篇文章用中国的数据对经典议题进行了详细的讨论,提供了来自发展中国家的证据。而此文也拿了《Journal of Population Economics》2015年的库茨涅兹奖(Kuznets Prize),详见IZA相关报道

  1. 儿童肥胖的增加

既然家庭中小孩数量的减少有可能提高父母对小孩的人力资本投资,那么除此之外,计划生育政策还可能对其造就的一孩家庭中的小孩带来什么类似后果吗?

最近被《Chinese Economics Review》接收的一篇论文(Jie Zhang 等人 2016)提供了一个有趣的视角,他们在论文中探讨了计划生育政策的执行与我国儿童肥胖之间可能存在的关系。在中国(特别是在大城市的)儿童肥胖这一公共健康议题正日益受到关注的当下,作者等人好奇,对中国特有的由计划生育所塑造的一孩家庭中的小孩而言,相较于那些拥有兄弟姐妹的小孩,他们是不是会面临着不一样的父母照顾,并由此最终反应在他们的肥胖程度上。图2(原论文图1)中数据反馈的这一基本趋势对比,也激励着作者将这个故事更细致地讨论下去。

J. Zhang et al. 2016

    图2 一孩家庭和多孩家庭中超重小孩占比趋势图

该研究发现(原文表3),比起拥有至少一个兄弟姐妹的小孩,出生在一孩家庭中的小孩超重或肥胖的概率会增加5.6%(OLS估计值)或7.8%(2SLS估计值),且将被解释变量换为身体质量指数值和体重值(具体是BMI-for-age z-scores和Weight-for-age z-scores)之后,也得到了一致的正向显著估计。上述是只讨论第一胎样本的结果,原文也提供了全样本的讨论,这些样本的年龄都限定在5到18岁。

那么如何解释这一发现呢?在文中作者提供并用数据论证了两个机制。首先,一孩家庭的父母会用更多的金钱而不是时间来照顾小孩。在原文表5的回归结果中我们可以看到,一孩家庭中的母亲会花更多的时间在工作上,更少的时间在煮饭和照顾小孩上。与此同时,这些家庭中的小孩(见原文表6)花在外面吃饭的时间更多,特别是体现在早餐上,而且他们花在吃快餐的时间也会较多。其次,一孩家庭中的小孩会摄入更多的高糖、高脂肪、高蛋白的食物。这一饮食结构极有可能与父母的照顾时间的缺乏有关,且与他们拥有更多的零花钱相关。

这是第一篇试图探讨计划生育政策与中国儿童肥胖之间因果关系的文章。在儿童肥胖现象伴随着经济增加日益增加的当下,作者在本文提供的视角和研究结果都值得公众和政策制定者关注。

  1. “人造双胞胎”现象

“一个小孩太少了…人们想要再生一个”,在Wei Huang等人2016年发表在《The Review of Economics and Statistics》的论文开头,作者们引用了美国广播公司(ABC News)在中国对一位正在医院等待的妇女的采访。

是的,虽然“只生一个好”,但很多家庭可能会觉得“一个小孩太少了”。那么对于这些家庭来说,多生育同时又不用受计划生育政策管制(或说惩罚)的方法存在吗?答案是肯定的,而这个方法即是生育双胞胎(或多胞胎)。

中国政府不会因为一个母亲生育了双胞胎而认为其违反了计划生育这一基本国策,因为生育双胞胎会被认为是不可控的,或者说是不能被操作的。但既然是不可控的,那么人们又如何可以人为地生育双胞胎呢?其实对于这些家庭来说,他们还是有解决问题的方法的,比方在户口登记时把前后两胎出生的小孩谎报为是双胞胎,或者通过药物来诱导母亲怀上双胞胎。这种在人为操作下产生的双胞胎,就是所谓的“人造双胞胎”(Man-made Twins)。

twins_Wei Huang 2016

图3 每一千个新生儿中双胞胎的数量,1965-2005

图3(原论文图1)是1965年到2005年每年中国的双胞胎生育率,数据来源自四次的普查数据。从图3可以看出,1979年计划生育(图中垂直虚线)执行之后,中国新生儿中双胞胎的出生率翻了一倍。但这并不能说明计划生育对“双胞胎”出生率的影响,为此他们在文中对此做了更深入的研究。

Wei Huang等人(2016)的研究发现(见原文表1),当地罚金数额增加一单位(等同于当地家户一年的收入)时,每1000个新生儿中双胞胎的出生率增长了0.066个百分点,且这一发现对汉族家庭成立(增长0.072个百分点)而对少数民族家庭不成立。作者由此推断出,自1970年以来双胞胎出生率增长中三分之一的部分,是因为计划生育政策的执行引起的。另外,计划生育对城市居民的影响比农村居民的要大,且影响主要集中在第二胎,即家长通常是在第二胎进行“人造双胞胎”的行为(见原文表2)。

机制部分检验了“人造双胞胎”的两个可能途径:即将前后两胎谎报为双胞胎,或通过服用药物诱孕双胞胎。对于前者,作者猜想,父母往往是将第二胎跟第三胎谎报为双胞胎,因此比起没有双胞胎出生的家庭,这些家庭中第二胎(“人造双胞胎”)的出生时间要更长,因为这一出生时间其实是第三胎的出生时间。回归结果与作者预期一致(原文表3),双胞胎家庭第一胎跟“第二胎”的出生间隔要比没有双胞胎家庭中两胎出生间隔要长0.08年,而这里的0.08年其实是双胞胎家庭第三胎跟非双胞胎家庭第二胎之间的出生间隔差距,而不是第二胎跟第二胎的对比。而对于后者,文章的识别是通过比较同性和异性双胞胎的身高差异来得出结论,具体可以参看原文。在这一部分中,作者没有发现具体证据(见原文表4),即作者没有发现母亲“通过服用药物诱孕双胞胎”的相关证据。但如作者在结论部分所说,虽然没有找到相关证据,但本文的研究并没有排除父母采取服药怀上双胞胎的这一途径。这部分的样本被限定为双胞胎,所以总样本量只有几十个,因此很难得出有效的推断,但作者在这部分推断做的识别设计很是新颖。

综上我们可知,计划生育政策确实增加了中国“双胞胎”的出生率,但这些增加的双胞胎中有近三分之一是“人造双胞胎”,即并非是真实发双胞胎,而是多生育的父母为了逃避政策惩罚而将其第二胎和第三胎谎报为双胞胎,由此产生的“人造双胞胎”。

总结与讨论

综上所述,我们发现,计划生育政策除了控制人口之外,还影响着中国社会其他的许多方面——它加剧了中国男女性别比的失衡,它影响着一胎家庭中小孩的身高甚至受教育程度,它增长了中国的小孩肥胖程度,它还让中国父母把家里的兄弟姐妹谎报为双胞胎以逃避政策惩罚。

看完这些“意外后果”之后,我们或许会问一个问题,即计划生育政策到底是什么?如果我们仔细思考这一政策的本质,或许我们能得到这样一个结论:计划生育政策带着最初的控制人口增长的目的,但本质上,这一政策提供了一个扭曲的激励机制。而正是这一激励机制,不仅影响着今天中国的人口结构,还必然地影响着中国千千万万个家庭,由此带来了包括上文所述的诸多方面的影响。

最后需要说明的是,本文仅仅是介绍了几篇跟计划生育相关的经济学论文。因此,首先,这篇文章并没有覆盖全部相关的经济学文献,还有一些文献没有介绍,比如Wu 和Li (2012)的研究——计划生育政策减少了家庭成员数量之后是否使得这些父母更加健康了呢;又比如Wei Huang跟Yi Zhou合作的工作论文——计划生育是否增进了汉族跟少数民族之间的通婚现象?以此获取更多的生育配额。感兴趣的同学可以自行去关注。其次,这篇文章更没有涉及到其他社科领域的相关文献。因此,特别欢迎社科领域的同学能就计划生育政策带来的影响提供更多的讨论。

作者注(May 26 2019):自然的生育规律下男女比应略高于1:1,而非原文中所说的1:1。文章结论并不受此影响,因为这里计划生育政策对男女性别比影响的评估,是以计划生育政策不存在情况下的反事实(counterfactual)为基础所做出的差分结果。即,不管一台政策之前的男女比是多少,最后评估出来的计划生育对性别比的加剧作用,都会稳定在某个系数值beta附近。

参考文献

  1. Becker, G., & Lewis, H. (1973). On the Interaction between the Quantity and Quality of Children. Journal of Political Economy, 81(2), S279-S288.
  2. Chen, Y., Li, H., & Meng, L. (2013). Prenatal sex selection and missing girls in China: Evidence from the diffusion of diagnostic ultrasound. Journal of Human Resources, 48(1), 36-70.
  3. Ebenstein, A. (2010). The “missing girls” of China and the unintended consequences of the one child policy. Journal of Human Resources, 45(1), 87-115.
  4. Huang, Wei, Xiaoyan Lei, and Yaohui Zhao. (2016). One-Child Policy and the Rise of Man-Made Twins. The Review of Economics and Statistics, 98 (3) : 467-476.
  5. Huang, Wei, and Yi Zhou. Submitted. One-Child Policy, Marriage Distortion and Welfare Loss.
  6. Li, H., Yi, J., & Zhang, J. (2011). Estimating the effect of the one-child policy on the sex ratio imbalance in China: identification based on the difference-in-differences. Demography, 48(4), 1535-1557.
  7. Liu, H. (2014). The quality–quantity trade-off: evidence from the relaxation of China’s one-child policy. Journal of Population Economics, 27(2), 565-602.
  8. R., & Zhang, J. (2009). Do population control policies induce more human capital investment? Twins, birth weight and China’s “one-child” policy. The Review of Economic Studies, 76(3), 1149-1174.
  9. Qian, N. (2009). Quantity-quality and the one child policy: The only-child disadvantage in school enrollment in rural China. Working Paper 14973. National Bureau of Economic Research. Rosenzweig,
  10. Sen A. (1990). More Than 100 Million Women Are Missing. The New York Review of Books.
  11. Wu, X., & Li, L. (2012). Family size and maternal health: evidence from the One-Child policy in China. Journal of population economics25(4), 1341-1364.
  12. Zhang, J., et al., One-child policy and childhood obesity, China Economic Review (2016), http://dx.doi.org/ 10.1016/j.chieco.2016.05.003

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

媒体与政治说服:来自俄罗斯的证据

1991年苏联解体之后,俄罗斯首任联邦总统叶利钦开始推行激进改革政策,于1993年成立新的国家立法机关—俄罗斯联邦会议,以取代旧有的俄罗斯联邦人民代表大会,并宣布联邦会议将于93年年底开启大选。联邦会议由下议院“国家杜马”和上议院“联邦委员会”构成,其中下议院“国家杜马”一半席位采取比例代表制,另一半采取单一选区选举,并于每四年改选一次。2007年“国家杜马”改为全部席位采用政党比例制,并在次年年底改为五年一届,不过这都是后话。

2011年,三位来自俄罗斯的经济学家在经济学界顶级期刊之一的《美国经济评论》上发表了一篇名叫“Media and Political Persuasion: Evidence from Russia”的论文。在这篇文章中,作者就是讨论了90年代俄罗斯的这段历史。这三位来自媒体经济学(Media Economics)领域的专家,希望利用这段历史来讨论媒体在政治说服上的作用这一议题。

Ruben Enikolopov

论文作者之一的Ruben Enikolopov,图片来自YouTube。

一方面,他们好奇1999年被任命为总理时普遍支持率低于2%的普京,何以在八个月之后的总统选举首轮获得52.9%的选票;而在1999年“国家杜马“选举前两个月成立的亲政府政党Unity(该政党宣称自己是中间派,并支持政府及时任政府总理的普京),何以在当年的下议院选举中获得23.3%的选票。许多学者和媒体人都猜测当时的国营电视台起到了关键作用,而作者关心是否真的如此;另一方面,作者指出许多文献都证明了媒体在政治结果上的作用,但这些文献研究的框架多集中在完善的民主体制国家。作者认为相较于(具备多元媒体,稳定的政党制度和具备鲜明政治立场的政党等特征的)民主国家,威权国家中媒体对政治结果的影响应该更大。如90年代的俄罗斯,政党体系是如此不稳定,许多短期存在的政党轮流更替。对投票者来说,他们大多只能透过大众媒体来获取相关信息。因而作者猜测,相较于政党的政策议题,90年代的俄罗斯选民在做出投票抉择时会更多地被政治领袖的个人魅力所影响。

为了讨论媒体在政治说服(具体而言是人们的投票行为)方面的影响,作者巧妙地找到了90年代俄罗斯的独立电视台NTV作为切入点。1999年,俄罗斯播放政治新闻的主要电视台有三家,除了两大国营电视台ORT和RTR外,就剩下一家独立电视台NTV。NTV的持有者—媒体大亨Gusinsky是普京的反对者,而NTV也公开批评克里姆林宫。其新闻报道与当时的国营电视台也存在很大差异,具体体现在:首先,NTV倾向于将更多的时间报道Unity的政治竞争对手;其次,更为重要的是在播报内容上NTV倾向于播报Unity的负面新闻;最后是在1999年体现普京强硬政治态度的车臣战争中,电视台NTV是当时唯一一家公开持反对态度的电视台。

既然如此,那么如果一个地区能收到NTV电视信号的话(即在当地存在信号中转站),相较于不能收到NTV信号的地区,该地区的人们在1999年的议会选举中是否会存在不一样的投票抉择,比如更少地支持Unity而更多地投票给NTV支持的政党?但这里进行因果推断时需要考虑一个内生性问题,比方说在人们对政府批评程度较高的地区,更可能存在NTV的信号中转站,由此存在NTV的信号覆盖。而这一地区特征也是影响当地居民投票行为的关键因素,由此我们没有办法从中识别出到底是因为NTV的电视节目还是因为当地固有的特征,最终影响了居民的投票行为。但是,NTV独特的存在经历,使得其为本文的因果推断提供了足够的外生性。

成立于1993年的NTV在当时成立仅仅是个小范围信号覆盖的电视台,而在1996年,NTV被允许使用国家教育频道的所有基础设备(如信号中转站),由此一举成为信号覆盖全国大部分地区的电视台。因此,NTV的信号覆盖依靠的是前苏联的基础设备,而这些信号中转站并非是NTV特意分布的产物,也是沿袭了固有的设备基础。为了论证这一点,作者在文中做了一个简单的OLS回归,来看城市的哪些特征与当地存在中转站相关。他们最终推测,存在国家教育频道中转站的地区,更有可能是前苏联的工业重镇。而当地人民的政治倾向(1995年议会选举中的投票结果)和1998年城市的社会经济特征也与当地是否存在中转站无关。由此为NTV的外生性做了论证。

 

实证部分

讨论完NTV的外生性之后,文章开始讨论NTV电视信号可能对当地政治结果的影响。具体分为两大部分,第一部分讨论了总体上的政治结果,即1999年不同地区是否能收到NTV对该地区议会投票结果的影响;而第二部分讨论了个人层面的政治结果,即1999年的个人是否观看NTV的行为对其投票抉择的影响。

 

第一部分——总体层面的结果

在第一部分中,作者先用基本的OLS做了一个主要回归。从文中的回归结果(见原论文Table2)可以看到,如果一个地方1999年可以收到NTV的电视信号,在同年的下议院投票结果中,该地区会更少地投票给NTV反对的Unity政党,而显著地增加对NTV支持政党(Unity最大的反对党OVR,自由派政党SPS和Yabloko)的投票比例。值得注意的是,这一回归结果中还讨论了NTV对其持中立态度的两个政党——KPFR(共产主义政党)和LDPR(国家主义政党)的影响。因为这两个政党在NTV和国营电视台的关注度并没有什么差异,因此以往的讨论往往无法指出媒体如何影响了他们,而从本文的回归结果中可以看到,NTV信号存在地区的居民,会更多地投票给KPFR,而更少地投票给LDPR。最后,回归结果还显示,NTV在地区的存在会使该地区选民的投票比例(turnout)显著降低,而这与以往的文献相符,因为NTV对当局的批评使得民众不信任政府,由此使得减少了人们的投票行为。需要说明的是,选取这几个政党作为研究对象,是因为他们获得了1999年下议院选举5%的最低选票比例(阈值),由此才能在下议院中按比例代表制占据一定议员席位。

主要回归之后,作者先使用了一个双重差分(Differences-in-differences)模型为主要回归提供稳健检验。他们收集了1995年和1999年两个年份的数据,原论文的Table3显示了该回归结果。因为上述六个政党中只有NTV支持的自由派政党SPS,Yabloko和NTV持中立态度的KPFR,LDPR参加了这两届下议院选举,所以这里只讨论这个四个政党。他们的研究发现,双重差分模型下得到的回归结果与主要回归结果是一致的,即存在NTV信号地区的选民倾向于投票给NTV支持的政党,而对NTV持中立态度的政党,NTV的信号存在与否并不会有任何显著影响。另外,该回归的结果显示,NTV的存在对当地人们的投票比例(turnout)存在负向但不显著的结果,文中作者并没有对此进行解释。

双重差分之后是一个安慰剂检验(Placebo test)。安慰剂检验的思想来自临床医学,即为了确认对病人起作用的是测试药物,而非是病人本人的反应。临床上的操作是将病人分为两组,且都会进行“药物“注射,但仅对其中一组进行真正的药物注射,另一组则注射生理盐水。在两组病人都认为自己注射了真正的药物的情况下,看两组病人不同的反馈结果。如果两组病人最终反馈了一致的结果,则说明起作用的并不是测试药物本身,而更可能来自其他因素。注射生理盐水的组别检验则被称为安慰剂检验。在本文中,作者用1999NTV在不同地区的覆盖情况,来检验其是否会对1995年的投票结果造成影响。因为1995年的时候NTV还不是全国性的电视台,而1999年NTV的信号分布也不可能会对4年前的议会选举结果产生影响,所以应该会得出一个不显著的结果。因此,如果结果显著,则说明存在NTV之外的地区因素影响了该地的政治结果。本文安慰剂检验结果显示在原论文的Table4中,根据这一结果我们可以看到,1999年的NTV信号覆盖情况并不会对1995年的投票结果存在任何显著影响,由此再一次为该部分的主要回归做了有力的支撑。

第一部分到这里并没有结束,接下来作者还讨论NTV的持续影响,即1999年NTV的电视信号会对2003年的下议院选举结果产生什么影响,而这也算是一处稳健检验。你到这里可能会疑问说作者为什么不用2003年NTV的覆盖情况研究其对2003年下议院选举结果的影响,这里的原因是因为在2003年,NTV已经变为国有控股的电视频道。这里需要补充说明的是,在2000年普京当选为总统之后不久,NTV的持有者Gusinsky即被宣告入狱,而保释的条件则是将手中全部NTV股份卖给国营企业。Gusinsky在被迫卖掉股份之后,旋即逃离了俄罗斯。因此,2000之后NTV便不再是独立电视台,而NTV的员工也遭遇洗牌,许多因NTV聚在一起的优秀记者都离开了公司。这也解释了为什么本文将主要回归聚集在了1999年的政治选举上。我们从回归结果(见原论文Table5)可以看到,NTV1999年的信号覆盖情况依旧会影响到2003年的选举结果,即1999年存在NTV信号的地区的选民,在2003年的时候依旧会更多地支持自由派政党SPS和Yabloko,而对KPFR和LDPR的选举结果无影响。从这一回归结果还可以看到,系数在显著的同时,其影响程度也在变小,这说明NTV在存在持续影响的同时,这一影响也在减小。另外,因为Unity和OVR在2001年合并组成了新的United Russia(目前普京所在的政党),所以这里讨论的是NTV对2003年United Russia投票结果的影响。回归结果发现,NTV在1999年的信号覆盖情况并不会影响到2003年United Russia在下议院的选票结果。最后在投票总数方面,1999年的NTV信号覆盖依旧会显著减少2003年人们的投票行为。

 

第二部分——个体层面的结果

在第一部分用总体层面的数据讨论了NTV对政治结果的影响之后,第二部分在个人层面对此议题进行了更为细致的分析。作者想知道,个体1999年观看NTV的行为对其1999年投票抉择有怎样的影响。而如果观看NTV的人真的倾向于投票给NTV支持的政党,那么具体又是哪些人受到了NTV的影响(即政治说服)。

如果我们想讨论“是否观看NTV”与该个体1999年“是否投票给某政党”之间的关系,我们可以使用Probit模型直接做回归。但是这里的回归结果并不能构成因果推断,因为会面临内生性问题,比如看NTV的人跟不看NTV的人本身可能就是不一样的群体,因此这些人存在的不同投票抉择偏好可能是源自自身所带特征,而非是因为“是否观看NTV”这一行为的影响。为了做出NTV的观看行为对投票抉择的作用的因果推断,作者在这里用了工具变量法。具体而言,在第一阶段的回归中,用NTV1999的信号强度来估计出其对“人们是否会观看NTV”的影响,由此分离出干扰因素;然后在第二阶段的回归中,再估计“是否观看NTV”对于人们“是否投票给某一政党”的影响。

原论文中的Table6和Table7给出了这两个阶段的回归结果。结果发现,1999年观看NTV的行为显著减少了人们对于Unity的投票,且显著增加了人们对NTV支持的两个政党(即OVR和SPS)的投票,而另一个NTV支持的自由派政党Yabloko,该系数虽然为正但是不显著。另外,1999年是否观看NTV并没有对个体是否前去投票的抉择产生影响。

既然观看NTV影响了个体的投票抉择,那么又是哪些个体受到了NTV的影响?为此作者进一步用分样本讨论的方式对此进行研究,具体操作是将总样本分为“清楚知道自己会决定投票给哪个政党”的样本和“还没决定要投票给哪个政党”的样本。需要说明的是,在这一部分使用的微观调查数据来自1999年的一项追踪调查,调查者在1999年议会选举前后一个月分别收集了一次数据。因此,这里的“还没决定要投票给哪个政党”,是指在1999年的议会选举前一个月时被调查者的反馈。在这一调查中,已经确定投票意向的受访者还提供了自己的意向政党。而在议会投票结束后一个月,这一调查再次收集了他们真实的投票抉择。

回归结果(见原论文中Table8)发现,即使控制了选举前一个月个体的投票意愿,观看NTV的行为依旧对人们的投票抉择产生了影响,也就是说,人们可能仅仅因为在投票前一个月观看了NTV,而改变了自己的投票意愿。具体而言,对于投票前一个月清楚知道自己投票意向的群体,前一个月观看NTV的行为会增加(或说说服)选民支持OVR和SPS,但是不会影响人们对Unity的投票。另外,在选举一月前的投票意向方面,回归发现以往观看NTV的行为会显著增加这部分人在选举前一个月对OVR和Yabloko的支持意向。进一步,对于选举前一个月还不清楚自己会投票给哪个政党的这部分人,作者发现,选举前一个月观看NTV的行为会显著减少这部分人对Unity的支持。也就是说,在Unity1999年的议会投票结果中,NTV显著地说服了投票前一个月还未决定投票意向的这部分人,并显著减少了他们对Unity的支持。

 

结论

本文用俄罗斯1999年的议会选举这段历史讨论了媒体对政治结果的作用这一议题,作者的识别策略基于当时的独立电视台NTV,因为NTV电视信号在地理上存在差异且具备外生性,由此为本文的因果推断提供了可能。具体分析分为总体层面和个体层面两个层面。在总体层面上,本文发现存在NTV电视信号地区的选民会更多地支持NTV支持的三个政党(OVR,SPS和Yablok),而显著减少对NTV反对政党Unity的支持;在个体层面,作者也发现了一致的结果,具体而言,文章发现观看NTV的个体会更有可能将自己的选票投给NTV支持的政党,且会有很大可能不将自己的选票投给NTV反对的Unity政党。作者还发现,即使控制了个体选民投票前一个月的投票意向之后,NTV依旧会显著减少选民对Unity的支持,这意味着有一大批选民在投票前一个月因为观看了NTV的节目而选择不投票给Unity。通过进一步分析,作者发现,被NTV说服不投票给Unity的这部分人主要是在投票前一个月还未确定自己投票意向的选民。

 

评语:

  1. 这篇文章的第一部分,作者能直接用简单的OLS做出因果推断,全得因于作者在识别策略上所做的努力,之后再用DID等方法进行稳健检验,都是值得学习的地方。
  2. 论文作者中的Ruben Enikolopov和Maria Petrova两夫妇合写了包括这篇论文在内的多篇论文,另外有名的一篇文章为2015年发表在QJE的《Radio and the Rise of The Nazis in Prewar Germany》。 他们还有几篇working papers,分别讨论了俄罗斯的媒体跟集会反抗和腐败监督之间的关系。另外,他们为Handbook of Media Economics编纂了其中一章,其中提到了几篇关于中国的媒体研究,感兴趣的读者可以关注下。
  3. 本文的开头引用了普京的一句话,“Contrary to a common perception, mass media is an instrument, rather than an institution”,翻译为中文是,“跟普遍看法不同的是,媒体其实是一个工具,而不是一种产业制度 ”。把大众传媒当做舆论工具,普京这样认为的好处是什么?这篇论文或许给出了一部分答案。
  4. 最后,至于NTV的命运如何,这里给感兴趣的读者推荐一部NHK2008年拍摄的纪录片——《言论管制·普京帝国与媒体》。

 

文献来源:

Enikolopov, R., Petrova, M., & Zhuravskaya, E. (2011). Media and Political Persuasion: Evidence from Russia. The American Economic Review101(7), 3253-3285.

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

实证研究议题:选题、文献和机制

越来越觉得做一份好的实证研究不是一件不容易的事情,并不是一股数据进去,一个模型回归,社会机制的黑箱子就清楚了这么简单。从一些top journal的文章中可以看到,一份好的实证研究在于,作者真的提出了一个很有力的证据在论证自己的猜想。他们能够从ABCD四个角度来试图“摧毁”自己的研究,但很“遗憾”都没能“成功”。秉着“那些打不死你的最后只能让你更强”的精神,ABCD四个内容最终成功地跟文章的基本回归和机制构成了经济学家经常说的,“好的故事”。

写一个“好的故事”重要的地方在哪,我会在文章第二部分继续谈下个人看法。让我先从第一部分说下找选题和文献阅读方面的事情,最后在第三部分提一些如何“试图摧毁”自己论文的建议——即如何给自己的论文找建议和批评意见。

 

1.选题和文献阅读
选题似乎是一种稀缺资源,可能大多数人都有这样的感受。反正以前我的老师们经常跟我们说这样的话,“你以为你们能想出的题目别人就想不出吗,其实肯定有人想过这个题目”,结尾自带naive特效。然后视情况会接着说,一般会先说“所以你们应该去多看文献,肯定会发现有人写过这个题目了”;如果真的没人写过这个题目,老师就会说,“肯定别人想到了这个题目但是写不出来”,暗含你们更写不出来的意思。最后总结说,除非是大牛,一般人能做的不过是一个“打补丁”的工作。

这种鼓励学生先多读文献或者扎实学习的态度是好的,但是我个人不是这样看找选题的事情的。读文献也是一样的道路,很多老师会跟你说,先不要着急写论文的事情,要先多读文献。学生大概会想,是是是,这个道理我都懂。但是个人认为,写论文跟读文献其实并不矛盾。

我对选题方面的看法大概是:找选题最好的状态自然是可以研究自己感兴趣的事情。比如我对政经领域的研究比较感兴趣,虽然我在学校从来没有接触过这方面的老师,但因为我感兴趣,所以还是有许多想研究的内容的。再加上,相比之下,这方面真的没什么人在做,所以说中国的政经研究真的很需要我们去做努力。其次,假如不能做自己感兴趣的内容,如果有个好导师指导着,慢慢也能磨出属于自己的作品。而另一方面,找选题需要的就是培养所谓的“直觉”了。很难说清楚“直觉”是什么,就像是一种发现生活中各种可进行实证的议题的能力。比如对于一件公共事件,大家会有各自的看法,这时候你可以去想,如果让你来为你的看法提供证据,你能做些什么?或者有一天在聊天时,在看书时,你得到了一个“判断”,突然你就意识到自己可以用数据来检验这个“判断”.这些想法大概就是一种“直觉”吧。培养这种能力之后,你会听到“直觉”告诉你说,选题其实并不是一个稀缺资源。它会告诉你,我们并不需要活在一个零和世界,我们并不是做了一个选题就会使得这个世界可做的选题少了一角。相反,“直觉”会告诉你说,去把这个选题领域的蛋糕做大。我们可以发现新的内容,并做出很多研究。一个好的学者拥有这样的能力,他们能够想方设法对自己感兴趣的点进行研究,并让晚辈觉得这个世界黑暗的部分又光明了一块。

所以说初学者就一定只能“打补丁”吗,不一定。我反倒认为一昧“打补丁”是培养不出优秀学者的。每个人都能在自己喜欢的领域有所贡献,其实这类似于亚当斯密所构想的那个理性的市场经济。现实中,很多学者也是基于自己的兴趣点在进行研究的,你可以观察到,往往是优秀的学者越不怕跟人分享自己的选题,他们反而是很乐意组织各种seminar或workshop来讲自己的working paper。而这种正常的学界交流,一方面有利于寻找自己潜在的合作者,另一方面也能给周边的学生或青年老师带来知识上的外溢。如果你的program里面都是些相互不交流的老师,那么这样的program多半不正常。

其实我现在接触下来就发现,有些老师或前辈提出的一些题目,我并不一定感兴趣。也就是说,并不是所有人都在你脑门口蹲着点等着窃取你的选题。即使是在正常的学界交流圈内,你跟别人分享选题之后,别人不一定会关心你做的事情,因为他们有自己感兴趣的内容。他们如果要强加进来跟你一起做这个题目,我觉得他们多半不会有积极性来跟你一起做出一篇很优秀的文章。

所以我还是特别建议国内的经济系,应该多构建系内自己,或者跟别的系合作的各种seminar和workshop,甚至lunch talk之类的东西。这些研讨会可以内部的,学生自己的,也可以是外部的,或有老师参与的。总之,促进学生在上面分享自己的选题是很好的一件事情。就这么问吧,你觉得如果经济系举办了seminar,学生上的讲自己的选题之后,这些seminar是会促进学生的研究多一些,还是会使得学生的(各种不成熟的)选题被盗取的可能性多一些?我觉得认为后者多一些的program多半是不正常的。

而当你开始做自己感兴趣的内容之后,文献的阅读自然会展开。首先,虽说“修行看个人”,但是之前也要导师带进门才行。导师如果对该领域了解,只要稍微指导下学生,我觉得一切都会事半功倍起来。其次,修行一方面看历史进程,另一方面也还是要看个人啊。自己有感兴趣的内容最好,先把该领域的handbook拿出来翻翻,然后去该领域的top journal找找相关选题。如果不是有特别想读的文献,真的建议不要翻中文期刊。因为中文期刊有很多错误的地方,或者故事不完整的地方,作者结论能不能成立真的不知道。英文世界的领域顶级期刊或top5,有很多很有意思且内容、文风各方面都值得学习的文章,是很值得阅读的刊物。最后一点,文献这方面,最早开始读越好,因为这样意味着你的积累会越多,对该领域会越了解,将来写起论文来会更方便。

 

2. 好的故事
好的实证研究往往能提供一个好的故事,我以前以为找一个很好的IV就是一个好故事,其实并不是这么回事。这里的“好的故事”其实体现在两个方面,一方面可能是你研究的内容很有趣,而其实更为重要的一方面在于,你把你所要研究内容的机制看清楚了,因此你做了一个好的研究,用科学的工具写了一个系统的故事。后者很重要,我会在后面详细说下。

首先,对于一个有趣的IV,其实它内容本身的有趣并不足以构成一个好的故事。有趣的IV之所以能够变成好的故事,是因为这个IV在因果推断上的有用,而不是故事的趣味性(这只是副产品)。DID和RDD这种准实验工具也是同理。这一点很重要,因为如果你的IV不能帮助你进行因果推断,那么你的文章甚至都不能构成一个故事。我不同意好故事是指找有趣的IV或准自然实验,其实找IV和准自然实验的目的,都是为了进行有力的因果识别,他们最后都会趋近于OLS方法。所以如果说你在top journal看到有文章在用的是OLS方法,也不用惊讶。其实这很正常,只要能进行有效的因果推断,OLS就足够了。你可以去看作者的识别策略,一般来说,这种文章会存在一个有力的外生变量,而且你能在文中看到作者相关的argument。【本文不讨论RCT和田野实验,因为本人没有接触过这种壕迈的研究方式】我个人认为,刚开始看文献的人会倾向于关注IV的有趣性;但是开始做研究之后,人们就会更多地关注IV的有用性。

其次,最最最重要的事情是,好的故事在于,作者真的看清楚了机制是什么,或者说他们提出了一个可能的机制。至少目前我是这么认为的。好的机制是什么意思,比如你看准了一件事情的内部结构,你只要拿到相关的数据做一下分析,总能找到强有力的证据支持你的猜测。就好像在大部分的情况下,个人的受教育程度总是跟将来的收入成正比的,你去做回归的时候总会发现他们之间的显著性特别强,比如说有三颗星(这里的三颗星是指这种相关程度上的推断错误的可能性在1%以下)。这种情况下你就不用run上两百万次回归,你只要做几次的检验就能接受自己的猜测是准确的。与之类似,如果有一天你的数据跟你说,对于这批研究样本,他们受教育越高却收入越低,那你就要去想想这是为什么,你看准的那个内部机制到底出了什么问题?一份好的研究可能就此展开在你手下。而当你弄懂了这件事情的来龙去脉之后,你的研究也就能称为那个好的故事。

这种对机制的理解很困难,需要我们去弄懂所研究内容的各种制度背景之后,去寻找隐藏在其中的秘密。就像是一次侦探推理,我们在了解事件大概之后,要从各种细节处入手来捕捉出更多的内容并构造出事件的全景。而在此之后,我们还要用其他的方式来对我们的猜想进行检验。而那个没被证伪的猜想,才是你最终的研究成果。这就好像是我们的物理学家做出了一个猜想,然后他们在欧洲搭了一座大型强子对撞机,用质子碰撞质子,去看诸如暗物质之类的物质是否存在并拥有怎样的性质,由此来验证自己的猜想。好的实证研究也是如此,你的主回归是否成立,并不是一件很轻巧的事情。你的主回归其实只是一个等待被证伪的产物,只是一个有了初步证明的猜想,而这个猜想到底能不给够成立,还要用数据的其他方面对主回归进行“抨击”检验。机制研究也是一样的道理。

你可以认为实证研究的星星是数万次回归之后的结果,但是这种所谓的data mining其实并不是社科学者应该有的态度。如果我们能早点发现出所研究内容真正隐藏的信息,那么在基本发现(Benchmark Results)之后我们其实并不需要太多的回归。当然,为了确保我们初步结果的可靠性,稳健性(和安慰剂检验)这块,看似烦冗的回归或许是必不可少的内容。

但其实我们都不太知道事情的真想到底是什么,毕竟我们不是上帝。这时我们可以从其他学科的学者那边得到那么的讯息。有时候我们会听到历史学者对社科学者有这样的批评,“这些东西我们早就知道了,还用这样正儿八经用数据研究必要吗?”从中我们可以看到,很多社科学者之所以能看清楚他们的研究内容,是因为之前已经有很多学者对于相关题目进行了研究,因此这些经济学家能站在巨人肩上看得更远。【与此同时,我要对此进行回应,这些学者来自其他领域,他们在自己的领域内有自己的研究范式。而经济系的学者借数据去检测这些学者的猜想,是我们学科所能做的贡献之一,因此有必要。】

很多新手经常为自己的文章写得很粗糙而着急。我个人的看法是,当逼近真实世界的机制出来之后,你的研究自然也会跟着细致起来,因此不必着急。

 

3.自己是自己论文最好的质疑者
在seminar或workshop上经常能听到小白报告人(包括我),说自己来会议是为了收集意见。我指的不是大牛的谦虚说法,而是真的是为了收集意见,特别是自己一个人开始做研究时。有时候,对于刚开始进行研究的人来说:1.文章主回归出来后,接下来不知道该做什么,更不知道稳健性、安慰剂检验什么的要怎么做;2.缺乏导师或合作者,自然也缺乏多一份有力的对文章的质疑加打磨。这时你一点思路都没有,觉得你文章真的是做得很可以了,然后你跑到会议上去,说“想收集意见”,最终确是以被经验丰富的同行批得很惨收尾。会议确实是收集意见的好地方,但是当你要用上会议时,就得好好利用,而不是因为自己过于小白去收集一些没必要的同行批评。当然,初稿能写多好主要看个人,刚开始的时候总是免不了磕磕碰碰。我这里要强调的是:自己首先得是自己论文最好的质疑者,不要老是护着自己的文章。其实自己能给自己提的意见有很多,不要对自己太不自信。

可是,当你也不知道自己是不是对自己的文章过度自信时,怎么办?这时候就把自己的文章给自己的老师或前辈看下,看他们是不是能给出一些意见。如果,program师资很强的话,论文在program内部就能很好地发展成完整的文章。但对于大部分人来说,论文写完之后并不拥有那么大牛的老师,那么在合适的时候,就把自己的文章交给各种seminar或会议吧。也许你会在这里受到很“善意的批评”,但估计大多数直戳要害的建议都会让你羞愧到想死。但是,苦口良药吧。另一方面,你也把这当做是一种写文章的激励,如果你的文章写得真的很好,你则会在会议上有不少意外的收获。

我导师有一个外国学生,曾经去AEA年会讲自己的论文。有一次找我聊天,我跟他说在中国竞争很激烈,经济学家太多了,你会发现你能做的很多事情都有人做过了。结果他的回应让我有些吃惊,他说很羡慕你们有这么多的同行,因为如果你们有什么研究,他们能提供很多意见,这样你们能做出更优秀的研究。说实话,他说的都是很质朴的道理,我不明白为什么我之前就是不明白这个道理。回想这句话时总能让我当年在学校做RA的日子,当我很焦虑自己的回归的时候,老师总是跟我说慢慢来,踏实地做下去。我觉得我老师跟他身上都带着一种同样的质朴的气质。在他们身上学到的东西,我也希望能在此跟各位共勉。

 

【关于后话的】后话
后来我发现,其实这篇文章的大部分真理其实都凝缩在MHE的Last Word里。因此,在文章的最后,让我们再次倾听下安神老人家的“肺腑之言”。

在MHE中,安神这样说,“If applied econometrics was easy, theorists would do it. But it is not as hard as the dense pages of Econometrica might lead you to believe. Carefully applied to coherent causal questions, regression and 2SLS almost always make sense. Your standard errors probably won’t be quite right, but they rarely are. Avoid embarrassment by being your own best skeptic – and, especially, Don’t Panic!”

我经常在实证研究领域摸着摸着,就会不经意地想到这段话。用老套的说辞评价是:每次翻这段话,我都有新的体验。用新潮的语言评价是:于是我常常会脑补到这样一个画面——安神在讲述学界哲理的同时,并向你投出了一抹深深的微笑。

 

 

注:网站在今年1月份之后就没有更新,因为个人实在太忙(lan)了,在此表示歉意。在此写一篇(不成熟的)最近几个月的收获,希望大家在研究的道路上都能有所收获,谢谢。

 

欢迎各位批评指正。

联系我

Share

三年大饥荒的长期影响:来自幸存者的证据

在半个多世纪之前,中国发生过一次严重的饥荒。这段主要发生在1959年到1961年的饥荒现在被历史课本叫做“三年自然灾害”或“三年困难时期”。这次饥荒的严重体现在涉及人群广,而且不可思议地持续了三年以上。学界有不少关于饥荒造成的死亡人数的讨论,估计的死亡人数在1500万到3000万之间,甚至更高;而在饥荒成因方面,经济学界也贡献了不少文章。

The Simpsons S16E12_en

注:上图来自The Simpsons S16E12

陈玉宇和周黎安在2007年发表在Journal of Health Economics的文章——“The long-term health and economic consequences of the 1959–1961 famine in China”也讨论了这段历史,但是他们的关注点并不在于饥荒造成的死亡人数或产生原因。在这篇文章中,他们关心的是这场发生在大半个世纪前的饥荒,是否对当下的饥荒幸存者依然存在影响。如果产生了影响,那具体又是什么影响。使用能更全面地反映个体层面的微观数据,他们在这篇文章中讨论了饥荒可能对其幸存者在健康和经济层面存在的长期影响。虽然这是一篇较早的文献,但也是第一篇研究中国饥荒长期影响方面的文章,因此是一篇重要的文献,所以本次选择给大家推送这篇论文。

这篇文章研究的内容看起来属于中国的政经研究,但实际上,儿童早期成长环境可能产生的长期影响,是劳动经济学领域的一个研究议题。因此这篇文章也是发表在劳动经济学领域的顶级期刊JHE上。具体而言,在劳动经济学领域,有一支文献专门研究儿童早期的成长环境对其可能造成的长期影响,比如许多文献探究了儿童成长早期,父母的身体健康、家庭经济状况或父母的雇佣情况等因素,是否会对小孩造成长期影响。父母的健康我们很容易理解,一个身体不健康的母亲(如长期抽烟或喝酒)更可能生出健康较差的孩子;而父母收入的增加,可能意味着孩子能够拥有更好的成长环境;但有时收入的增加也意味着雇佣情况的改变即意味着父母可能会有更少的时间和精力去为小孩提供一个温馨的成长环境(于是经济学家就会去关心到底哪方面的效应会更强)。再举个跟当下国人较为相关的例子,许多经济学家关心,小孩在妊娠期或出生后如果长期生活(或说暴露)在空气污染严重的环境中,那么相较于生活在空气质量良好环境中的小孩,这些人长大之后的健康状况是否会更差,而这种健康状况的差异又是否会对其将来的受教育程度以及劳动市场上的产出(如收入情况)造成影响?类似的文献还有很多,感兴趣的读者可以看下Handbook of Labor Economics (2010)第4册B部分中的第15章“Human Capital Development before Age Five”。

 

实证方法

按这个思路,我们回过头来看下这篇文章。这篇文章使用了一种叫做双重差分(Differences-in-Differences)的“准实验”方法。之所以叫做“准实验”是因为饥荒的发生并不是自然科学家在实验室控制出来的结果,但饥荒这一历史事件却导致了一种类似于实验产生的结果,因此可以把这场饥荒看做是为了研究儿童早期的负面环境可能造成的长期影响提供了一次“准实验”(虽然这种说法显得无情)。

而双重差分,其思想类似于临床医学上进行因果推断所使用控制实验法,即随机将一部分使用药物的样本本视为实验组(treatment group),随机将另一部分不使用药物的样本组视为控制组(control group)。由此从样本产生的组别差异中推断出药物会对人体造成的影响。在这篇文章中,一方面,作者把在饥荒之前及期间(1954-1958年、1959-1962年)出生的一批人分成一个组,视为实验组;把饥荒之后出生(1963-1967年)的一批人分为另一个组,视为控制组。由此我们可以看出,对于那些在1954至1962年出生的人来说,他们在妊娠期或童年早期,将会受到饥荒的影响(比如一个1954年出生的人在5岁的时候会遭遇饥荒;一个1962年出生的人1961年处在母亲的妊娠期因此也会遭遇饥荒影响);而对于那些在1963年及之后出生的人来说,不管他们在哪一年出生,他们早期的生活环境都不再受到饥荒的影响,因为饥荒已经结束了。由此,我们可以通过比较实验组和控制组两组样本成年之后健康和经济层面的差异,来推断饥荒的长期影响。具体而言,这篇文章用样本成年之后的身高来衡量其健康状况,用成年之后的劳动时间供给状况和家庭收入来衡量其经济状况。

但这仅构成了第一层的差异,要进行因果推断,我们还需要另一层差异。即对于那些妊娠期或童年早期暴露在饥荒的样本,我们还应观察他们受到的不同程度的饥荒是否也会对应产出不同程度的影响,由此产生的结论才能构成因果推断。因此,各省饥荒的严重程度便构成了这文的第二层差异。这篇文章利用各省人数的超额死亡率来衡量饥荒的严重程度(具体使用的是各省在饥荒最为严重的1960年的超额死亡率)。

 

数据与实证结果

文章个体层面的样本数据来自中国健康与营养调查项目(China Health and Nutrition Surveys, CHNS),而1959年到1961年各省超额死亡率的数据来自Lin和Yang (2000)的从食物获取权方面讨论饥荒成因的文章——“Food Availability, Entitlements and the Chinese Famine of 1959-61”。文章样本来自CHNS数据所覆盖的中国的8个省份,并且将研究范围限制在中国农村地区。一般认为,城市和农村地区的饥荒情况并不一致,而且农村的饥荒程度更为严重。【将样本限制在农村地区还有出于减少样本选择偏误(selection bias)方面的考虑,这里不做细谈,对此有兴趣的读者可以具体查看原文和结语处提供的文章。】

由此,作者构建了两个双重差分模型(如下图)。

Model1

Model2

模型1的Hijk表示出生在k时期j地区的i样本被调查当年(1991年)的身高,βk是出生队列(cohort)的固定效应,edrj是j地区在1960年(饥荒最严重的年份)的超额死亡率。第一个方程在回归的过程中仅包括实验组——即1954年到1962年出生的样本。在方程中包括了1962年出生的样本,因为这些样本是1961年就处在母亲的妊娠期,因此也会受到饥荒的影响;第二个模型与第一个方程类似,不一样的是被解释变量为出生在k时期j地区的i样本在1991年总共工作时间的对数值,且第二个方程中加入了一系列的用X表示的控制变量。之后还用其他的一些被解释变量来衡量样本的劳动供给和收入状况。

鉴于上文的识别框架,我们能够预期到,那些童年遭遇饥荒,特别是童年早期遭遇饥荒的群体(以往的文献认为越是早期遭受负面环境对将来的影响越大),成年后会有更差的健康和经济状况。他们的回归结果发现了一致的结果,对于那些童年早期暴露在饥荒时期的而儿童来说,他们成年之后拥有更低的身高,更短的劳动供给时间和更少的收入。

但是这一回归结果是否真的论证了饥荒的长期影响?为了得到解答我们需要从其他方面来检验以上的回归结果,即需要做一些稳健性检验。首先,作者检验了那些饥荒之后出生的样本,看他们是否会受到饥荒的影响。如果这些饥荒之后出生的样本的回归结果也存在显著性,则说明样本所受到的影响并不来自饥荒,而来自于一些被作者所忽略的因素。稳健性检验表明,饥荒之后出生的样本的回归结果并没有显著性,即没有受到饥荒的影响。其次,作者用分位数回归(Quantile Regression)进一步对回归结果进行检验。按照预期,作者认为实验组中那些身高较低的群体,相较于身高较正常的群体,将会受到更为严重的饥荒的负向影响。实证结果支持了作者的这一预期。

 

结论

作者研究发现,发生在1959到1961年的饥荒对其幸存者存在着长期影响。具体来说,饥荒使得那些童年早期暴露在饥荒之中的小孩,在成年之后拥有较低的身高,较少的劳动时间供给和家庭收入。因此,作者认为,发生在半个多世纪之前的大饥荒对当下的幸存者产生了巨大且持续的影响,而这一影响无疑深远而长久地影响了这些幸存者各项财富(welfare)。

在文章最后,作者指出该研究还存在的两个局限之处。第一是这篇文章所使用的将近2000个个体的样本还是有点太小了,因此作者本文的结论在更大范围的样本中是否依旧成立还有待测试;第二,这篇文章虽然讨论了饥荒在经济层面的长期影响,但并没有清楚地指出其中的影响机制是什么。虽然以往的文献指出健康状况是一个极为可能对经济状况产生影响的渠道,但鉴于他们能够获得的关于健康的数据只有身高一项,因此很难借由本数据揭示出具体的影响机制是什么。

 

结语

  1. 关于饥荒研究中的样本选择偏误问题,感兴趣的读者可以看下何晓波老师写过的一篇文章《为什么经济学家要研究饥荒》,里面对此有很好的论述。
  1. 童年早期遭遇的环境,并不一定是负面的(虽然这方面的研究很多)。今年4月份AER新刊出的文章——“Long-Run Impacts of Childhood Access to the Safety Net”,讲述的是美国上世纪60-70年代的食品券项目(Food Stamp Program)对受到经济资助家庭小孩的长期影响,这既是一个童年时期受到正向影响的研究。
  1. 1962年,时任主席的刘少奇在年初召开的“七千人大会”上曾经以“要上书”来评价这段历史。刘的这句判断如今已应验,但或许他没有想到这段历史不单上了书,还上了劳动经济学领域的顶级期刊。#误

 

文献来源

Chen, Y., & Zhou, L. A. (2007). The long-term health and economic consequences of the 1959–1961 famine in China. Journal of health economics, 26(4), 659-681.

 

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

MacTeX无法编译,“找不到必要的工具”?

因为一篇论文被会议接纳,1月中会去上海参加一个经济学的workshop。这篇论文讨论的是在中国农村,宗族势力如何影响了计划生育政策的执行,我的研究发现是在宗族势力越强的地区,计划生育总是执行的没那么好。如果这篇文章晚点有机会(正式或以working paper的形式)发表,我再在这里跟大家细聊这篇论文。

既然论文被会议接纳了,自然是需要认真准备一番。按照业界的惯例,我打算用LaTeX写一个beamer主题的幻灯片,来讲这篇论文。但是当我打开TeXShop编译时,发现无法顺利生产PDF文件了,问题提示为“找不到必要的工具。/usr/texbin/pdflatex不存在……(以下省略)”,我换用其他编译器,如TeXstudio编译,也是有类似的提示。

我想了一下,这个问题提示大意是说,MacTeX可以编译,但是无法生产PDF文件了,预览也无法生产。问题的关键在于某一路径错误,导致了PDF文件无法生产。而该路径跟“/usr/texbin/pdflatex”有关。我找了一下TeXShop的“偏好设置”,在“引擎”——“路径设置”处找到了错误源,即“/usr/texbin/”这一默认的路径。

我Google了很久都没有找到相应的解决方案,后来看到了TeXstudio的提示,大意是由于Mac系统升级,“/usr/texbin/”的路径不被允许使用,是否将路径更改为 “/Library/TeX/texbin”?我选了YES之后,发现tex文件又能成功编译了。于是我回过头去,在TeXShop的“偏好设置——引擎——路径设置”处,将默认的“/usr/texbin/”改为了“/Library/TeX/texbin”,然后TeXShop也能工作了。真是太开心了,又能敲代码了。(误

感于我没有Google到解决方法,而一定也有很大Mac用户在更新系统后遇到了同样的问题,于是在这里写下这篇短文,给大家帮个忙。

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share