这几年,机器学习(Machine Learning)在经济学研究中的出现频率越来越高。在计量经济学,特别是在应用计量上,有着许多可以用机器学习改进的地方。其实这并不意外,机器学习,或更确切地说,统计学习(Statistical Learning),如同计量经济学中的大部分内容(如Linear Regression),本身就是统计学的一部分。而作为统计学习最重要的内容之一——预测(Prediction),本身也构成着计量的一部分。
可能是因为以往实证(empirical)经济学家“过分”关注因果推断(causal inference)问题,以至于预测在应用计量中并不占据显眼位置。但随着这几年机器学习在应用上的潜力越来越大,经济学家开始重新关注并打磨这一新工具,一个明显的例子是,Stefan Wager 和Susan Athey(2018)合写的文章,把机器学习中的随机森林(random forest)和因果推断中的potential outcomes模型结合起来,创造了causal forests这一新工具,极大的促进经济学家在heterogeneous treatment effect上的探索。Causal forests能让数据告诉我们更多关于异质性(heterogeneity)的信息,而不需要提前在模型中specify可能的线性,交互项关系来探索heterogeneity。而这一文章,也发表在了统计系的顶刊JASA上。
因此,本文打算编译Mullainathan和Spiess(2017)在JEP 2017 Spring的文章《Machine Learning: An Applied Econometric Approach》,介绍一下他们对作为应用计量的机器学习的看法。本文大概分为三部分:一是入门:提供一些机器学习方面的资料【Mullainathan和Spiess(2017)的推荐和我的推荐】;二是介绍:谈下Mullainathan和Spiess(2017)对机器学习在应用计量上的可能应用的看法;三是应用:提供一些具体的应用例子和文献。另外,本文并不编译原文对机器学习本身的介绍,而是编译了机器学习的可能应用这部分的内容,对前边部分感兴趣的同学可以参考Mullainathan和Spiess(2017)原文。
入门
个人觉得Mullainathan和Spiess(2017)这篇文章默认了读者对机器学习中的一些方法(如 Decision Tree,LASSO等)有一定的了解。因此,如果对机器学习还不是很理解,这里有一些参考资料:
1. 统计学上两本参考教材是:1) 初阶学习:James et al. (2017)《An Introduction to Statistical Learning》;2) 高阶学习:Friedman et al. (2017)的《The Elements of Statistical Learning》。两本教材的作者基本上是同一批人,只是两本教材的目标读者不同(本科生 vs 研究生)。他们还建立了网站,免费提供教材pdf和代码资料等(见书名处链接)。
2. 经济学上的参考资料(Mullainathan和Spiess(2017)的推荐):1)Varian(2014)对机器学习的概念和使用提供了很多详细的介绍,如decision tree和cross-validation; 2)Einav和Levin(2014)大致的介绍了大数据和经济学的联系;3)Belloni,Chernozhukov和Hanson(2014)在计量层面上详细地介绍了LASSO在高维数据中地应用;4)Athey(2015)简短地介绍了机器学习可以如何跟因果推断联系起来。
介绍
Mullainathan和Spiess(2017)从计量经济学可以如何利用机器学习的角度来思考机器学习这一概念。在这篇文章里,他们关心的更确切的是监督学习(而非无监督学习)。在他们看来,机器学习:一是提供了新的工具,二是它是解决不同问题的工具。以往的计量经济学解决的是参数估计问题,也就是估计描述 y 和 x 关系的参数的问题,是解决 β̂ 的问题;而机器学习处理的是预测问题,是从 x 中准确预测 y 的问题,是解决 ŷ 的工具。因此在使用机器学习时,我们不能拿着解决 ŷ 的工具拿来估计 β̂ ,并认为所得到的 β̂ 还带着以往的估计特征。事实上,机器学习方法下的估计值很少是一致估计(consistent)。但我们可以利用机器学习来完成计量中的那些跟 ŷ 有关的任务。实际上,机器学习有着强大的探索复杂关系(如高维数据的非线性关系)的能力,而这一探索并不要求人们提前specify任何可能的关系。另外,机器学习这种建造模型来fit数据(的复杂关系)的能力并不会以overfitting为代价。换句话说,在不会overfitting前提下,机器学习建造的模型在out-of-sample中的预测任务中依然可以表现优异。
因此,Mullainathan和Spiess(2017)介绍了一些机器学习在 ŷ 方面的应用,例如:1)用新数据解决传统问题时机器学习的使用:如卫星图像数据的使用,美国公司10-k年报文档的分析等;2)在一些问题中,虽然我们关心的是 β ,但 β 的推断过程中涉及到一些预测的内容(有时候这一过程并不明显):如使用工具变量时的第一阶段,预测异质性效应(heterogenous treatment effect),检验实验中效应(effects)对多个outcomes的影响,在控制变量的选取中等;3)政策应用上的直接使用(direct policy application):例如招聘教师的过程可以被视作是一个prediction的过程,而政策关心雇佣这一老师之后会产生什么因果上的影响;4)检验理论:例如如果有效市场理论成立,那么我们讲无法通过现有的信息预测之后的结果。我们将在下一节中结合一些例子谈下这些应用。
应用
1. 新数据 (New Data)
首先,我们可以通过机器学习来使用新数据解决问题(虽然往往是旧问题)。如我们现在经常能见到的 “big data”这个词,Mullainathan和Spiess(2017)认为跟以往数据相比,big data不单在数据大小规模上发生了变化,同样的,数据的性质(nature)也发生了改变。像是图像和文字这种数据,以往我们并不会想要对其存储的信息加以利用,而机器学习技术带给了我们将这些信息放入回归中的可能性。
图像数据的例子之一是卫星数据。Donaldson和Storeygard(2016)的JEP文章对卫星数据如何在经济学中的使用提供了很好的综述,其中提到的两个例子是:夜晚的光度(luminosity)如何和经济产出联系在一起(Henderson,Storeygard和Weil 2012)和用来预测未来的粮食收获水平(Lobell 2013)。卫星图像数据并不能直接提供我们想要的 y 变量,而是提供给我们一个巨大的包含了图像信息的x vector,我们将这个x vector转换成可以产生 y 变量的数据,而这一过程,就是一个预测的过程,因此我们可以在此借助机器学习的工具。
由卫星数据和经济产出的联系,我们可以想象到这一技术在一些经济产出数据缺失的发展中国家会特别有用,比如被用以追踪和瞄准贫困(Blumenstock 2016)。几个这方面的例子是:1)Jean et al. (2016)训练了一个神经网络(neural net)预测五个非洲国家的当地经济发展; 2)Blumenstock, Cadamuro 和On(2015)使用卢旺达的手机数据测量整个国家的个人财富分布;3)Glaeser,Kominers,Luca和Naik(2016)使用谷歌街景(Google Street View)的图像数据来测量纽约和波士顿各个街区的收入状况。
文字数据的一个例子是网上人们发的帖子。1)Kang,Kuznetsove,Luca和Choi(2013)用Yelp.com的用户餐厅评论来预测卫生问题;2)Antweiler和Frank(2004)先人为地对一部分金融论坛的帖子进行分类,然后用这个训练出来的模型对超过一千五百万的信息进行分类,最后发现这些论坛上的信息有助于解释市场波动(market volatility)。【虽然在这篇文章没有提到,但是还有一个很有名的例子是 Alice Wu(2018)利用EJMR网站发帖内容,发现了经济学博士生匿名发帖时的性别用语差异,感兴趣的同学可以看原文或《纽约时报》的这篇文章。】
文字数据的另一方面的例子是在金融经济学家对公司内部财报的使用。以往金融经济学家很大程度上依靠的Compustat数据库来获取数据。在美国,公开经营的公司每年都需要填写10-k年报。因此,金融经济学家便可以利用机器学习把这些新数据利用起来:1)Kogan,Levin,Routledge,Sagi 和 Smith(2009)使用近一万家企业的市场风险披露内容预测出波动,并证明这一预测的波动为预测过去的市场波动提供显著的预测信息;2)Hoberg 和 Phillips(2016)从10-k年报的商业描述文字中提取出企业之间的相似度,然后用这些相似度来对企业进行了一个随时间变化(time-varying)的分类。
除了如上所述的新数据(图像和文字),机器学习还可以被利用在传统数据中。两个例子是:1)Feigenbaum(2015a,b)利用机器学习的分类器(classifier)把个人匹配到历史档案中,以此用来量化大萧条期间的社会流动性;Bernheim,Bjorkegren,Naecker 和 Rangel(2013)利用在实验室实验(laboratory experiment)收集到的子样本数据训练出一个机器学习算法,然后根据其他非实验室样本的报告行为,利用这一算法来预测这部分人的真实选择(即实验室下的选择)。
2.为估计所服务的预测(Prediction in the Service of Estimation )
一个明显例子便是工具变量两阶过程(two-step process)中的第一个阶段,这一阶段虽然被视作是一个估计过程,但实际上是一个预测的过程。Mullainathan和Spiess(2017)将工具变量中的有限样本偏误(finite-sample biases)看作是overfitting的后果,并且在以下几种情况下overfit程度会变大:样本量小,工具变量多,或工具变量是弱工具变量时。以往的计量经济学家对有限样本偏误的解决方法是:1)split-sample instrumental variables 和 2)“jackknife” instrumental variables。而借助机器学习中的regularization和empirical tunning,有一系例的文章已经开始将这些内容引进到(高维背景下的)第一阶中:1)利用 LASSO (Belloni et al. 2012);2)ridge regression (Carrasco 2012; Hansen 和 Kozbur 2014);3)最近的研究已经将此扩展到了非线性方程形式,一路扩展到神经网络(Hartford, Leyton-Brown 和 Taggy 2016)。
在评价机器学习在预测任务中的表现时,Mullainathan 和 Spiess(2017)说:“机器学习可以让数据本身去明晰地选择有效的specifications(而不是在估计之前人为地设置预测方程可能的形式,直线/对数/虚拟变量等),从而使得我们可以从variations获得更多信息并构建更强的工具变量。而这种为估计服务的预测是在保持(工具变量法的)exclusion restrictions 的情况下被构建和使用的。”
有一些估计过程中的预测问题并不是那么明显,这方面的例子包括:1)在PSM中用机器学习算法估计propensity score (Lee,Lessler 和 Stuart 2010);2)在处理效应(treatment effects)的估计中,用解决两个联立(simultaneous)估计问题的方式,仔细地选择高纬度的控制变量矩阵(Chernozhukov et al. 2016);3)实验和对照组的平衡性检验(balance),和在分析一个treatment在多个被解释变量上的作用上(Ludwig,Mullainathan和Spiess 2017);4)处理效应的异质性估计(heterogeneous treatment effects)。
我们细说下最后一个应用例子——处理效应的异质性估计。处理效应的异质性估计是经济学在这一支上所做的一个重要的(且很新的)贡献,具体的贡献文章包括以下三篇:1)使用sample-splitting (Athey和Imbens 2016);2)使用Random Forests 并创造了Causal Forests(Wager和Athey 2018);3)使用ensemble methods (Grimmer,Messing和Westwood 2016 (政治科学) )。关于heterogeneous treatment effects这个话题,我会下次再写一篇文章细聊下它的应用,感兴趣的同学可以按上述文献去关注一波。
最后,使用机器学习分析heterogeneous treatment effects需要注意的一点是,我们在阐释结果时需要特别小心。比如,被选择的(forests 中的)决策树上的结果仅是一个特定的代表,如一颗特定的决策树在教育这个变量上分裂(split)了,但没有在年龄上分裂。那么conditional on这棵树,我们可以说得到了一个具体的一致估计。但我们不能说这个具体的一致估计结果可以推广到其他树上。而且,实际上,其他决策树很可能会在年龄变量上分裂。所以说,在阐述我们得到的异质性结果时,我们需要较为谨慎。
3. 政策中的预测 (Prediction in Policy)
现实中许多政策的抉择过程都涉及预测问题,因此机器学习的应用之一便是帮助这些政策做出更好的抉择。这一方面的例子有:1)法庭裁决:被逮捕后,法官需要决定是否对被告进行候审,释放回家或送进监狱(Kleinberg et al. 2017);2)类似的,保释金的决定问题(Kleinberg, Ludwig, Mullainathan 和 Obermeyer 2015);3)雇佣教师时,利用教师已有信息判断是否雇佣该教师(Kane 和 Staiger 2008; Dobbie 2011; Jacob et al. 2016); 4) 养老金问题(Chalfin et al. 2016);5)在教导项目中预测哪部分年轻人是“高风险”的年轻人(Chandler, Levitt, and List 2011);6)类似的,用现有的贫困分数卡锚定贫困人群(Abelson, Varshney 和 Sun 2014, McBride 和 Nichols 2016,Engstrom, Hersh 和 Newhouse 2016)。
尽管我们已经有了机器学习的算法,经济学在政策制定过程的预测这一过程中有着两个方面的重要性:1)现实中的许多数据都是在现有的规则之下产生的,因此反事实推断的思想便有助于帮助人们更好地使用数据来回答问题;2)仅仅有算法是不够的,我们需要从人的行为的角度来分析决策过程中的影响因素是什么,能不能在决策过程中提供激励以优化决策等问题。
4. 检验理论(Testing Theories)
机器学习的最后一个应用便是可以用来直接检验跟预测相关的理论知识。比如,在有效市场的理论下,一个重要的预测是人们无法对未来做出预测。但是Moritz 和 Zimmermann (2016) 使用机器学习却发现,美国企业过去的回报对他们未来的股票价格有着很强的预测能力。另外,人们可以利用机器学习为理论的检验提供一些基准。一个普遍对理论的担忧是,即使理论是正确的,对于它试图去解释的variations,它仅能解释其中一小部分的variations。比如,R方这一工具是不足以解释全部的variation的,Kleinberg, Liang 和 Mullainathan (2015) 试图去比较理论的和最优化的predictor之间的预测能力差异。类似的,Peysakhovich and Naecker (2015) 比较了风险下行为模型的out-of-sample表现。
结语
以上是对Mullainathan和Spiess(2017)一文部分内容的编译,对机器学习在应用计量上的潜在应用进行了介绍并相应地提供了实际的一些应用例子。关于翻译,需要注意的一点是,对于其中的一些应用例子,因为没有系统地阅读过原文,所以在理解或翻译上可能会存在错误。最后,我目前对机器学习在经济学上的应用很感兴趣,因此欢迎大家多推荐一下接触过的机器学习应用方面的社科(不限于经济学)文献。
参考文献
1. Abelson, B., Varshney, K. R., & Sun, J. (2014, August). Targeting direct cash transfers to the extremely poor. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 1563-1572). ACM.
2. Antweiler, W., & Frank, M. Z. (2004). Is all that talk just noise? The information content of internet stock message boards. The Journal of finance, 59(3), 1259-1294.
3. Athey, S. (2015, August). Machine learning and causal inference for policy evaluation. In Proceedings of the 21th ACM SIGKDD international conference on knowledge discovery and data mining (pp. 5-6). ACM.
4. Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects. Proceedings of the National Academy of Sciences, 113(27), 7353-7360.
5. Belloni, A., Chen, D., Chernozhukov, V., & Hansen, C. (2012). Sparse models and methods for optimal instruments with an application to eminent domain. Econometrica, 80(6), 2369-2429.
6. Belloni, A., Chernozhukov, V., & Hansen, C. (2014). Inference on treatment effects after selection among high-dimensional controls. The Review of Economic Studies, 81(2), 608-650.
7. Bernheim, B. D., Bjorkegren, D., Naecker, J., & Rangel, A. (2013). Non-Choice Evaluations Predict Behavioral Responses to Changes in Economic Conditions (No. w19269). National Bureau of Economic Research.
8. Blumenstock, J. E. (2016). Fighting poverty with data. Science, 353(6301), 753-754.
9. Blumenstock, J., Cadamuro, G., & On, R. (2015). Predicting poverty and wealth from mobile phone metadata. Science, 350(6264), 1073-1076.
10. Carrasco, M. (2012). A regularization approach to the many instruments problem. Journal of Econometrics, 170(2), 383-398.
11. Chalfin, A., Danieli, O., Hillis, A., Jelveh, Z., Luca, M., Ludwig, J., & Mullainathan, S. (2016). Productivity and selection of human capital with machine learning. American Economic Review, 106(5), 124-27.
12. Chandler, D., Levitt, S. D., & List, J. A. (2011). Predicting and preventing shootings among at-risk youth. American Economic Review, 101(3), 288-92.
13. Chernozhukov, V., Chetverikov, D., Demirer, M., Duflo, E., Hansen, C., & Newey, W. K. (2016). Double machine learning for treatment and causal parameters (No. CWP49/16). cemmap working paper, Centre for Microdata Methods and Practice.
14. Dobbie, W. (2011). Teacher characteristics and student achievement: Evidence from Teach For America. Unpublished manuscript, Harvard University.
15. Donaldson, D., & Storeygard, A. (2016). The view from above: Applications of satellite data in economics. Journal of Economic Perspectives, 30(4), 171-98.
16. Einav, L., & Levin, J. (2014). Economics in the age of big data. Science, 346(6210), 1243089.
17. Engstrom, R., Hersh, J., & Newhouse, D. (2016). Poverty from space: using high resolution satellite imagery for estimating economic well-being and geographic targeting. Unpublished paper.
18. Feigenbaum, J. (2015 a.). Automated Census Record Linking. unpublished paper (Harvard University, 2015), available at https://scholar.harvard.edu/files/jfeigenbaum/files/feigenbaum-censuslink.pdf.
19. Feigenbaum, J. (2015 b.). Intergenerational mobility during the great depression. unpublished paper (Harvard University, 2015), available at https://scholar.harvard.edu/files/jfeigenbaum/files/feigenbaum_jmp.pdf.
20. Friedman, J., Hastie, T., & Tibshirani, R. (2017). The elements of statistical learning (2nd). New York, NY, USA:: Springer series in statistics.
21. Glaeser, E. L., Kominers, S. D., Luca, M., & Naik, N. (2018). Big data and big cities: The promises and limitations of improved measures of urban life. Economic Inquiry, 56(1), 114-137.
22. Grimmer, J., Messing, S., & Westwood, S. J. (2017). Estimating heterogeneous treatment effects and the effects of heterogeneous treatments with ensemble methods. Political Analysis, 25(4), 413-434.
23. Hansen, C., & Kozbur, D. (2014). Instrumental variables estimation with many weak instruments using regularized JIVE. Journal of Econometrics, 182(2), 290-308.
24. Hartford, J., Lewis, G., Leyton-Brown, K., & Taddy, M. (2016). Counterfactual Prediction with Deep Instrumental Variables Networks. arXiv preprint arXiv:1612.09596.
25. Henderson, J. V., Storeygard, A., & Weil, D. N. (2012). Measuring economic growth from outer space. American economic review, 102(2), 994-1028.
26. Hoberg, G., & Phillips, G. (2016). Text-based network industries and endogenous product differentiation. Journal of Political Economy, 124(5), 1423-1465.
27. Jacob, B. A., Rockoff, J. E., Taylor, E. S., Lindy, B., & Rosen, R. (2018). Teacher applicant hiring and teacher performance: Evidence from DC public schools. Journal of Public Economics, 166, 81-97.
28. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2017). An introduction to statistical learning (7th). New York: Springer.
29. Jean, N., Burke, M., Xie, M., Davis, W. M., Lobell, D. B., & Ermon, S. (2016). Combining satellite imagery and machine learning to predict poverty. Science, 353(6301), 790-794.
30. Kane, T. J., & Staiger, D. O. (2008). Estimating teacher impacts on student achievement: An experimental evaluation(No. w14607). National Bureau of Economic Research.
31. Kang, J. S., Kuznetsova, P., Luca, M., & Choi, Y. (2013). Where not to eat? improving public policy by predicting hygiene inspections using online reviews. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (pp. 1443-1448).
32. Kleinberg, J., Lakkaraju, H., Leskovec, J., Ludwig, J., & Mullainathan, S. (2017). Human decisions and machine predictions. The quarterly journal of economics, 133(1), 237-293.
33. Kleinberg, J., Liang, A., & Mullainathan, S. (2017, June). The Theory is Predictive, but is it Complete?: An Application to Human Perception of Randomness. In Proceedings of the 2017 ACM Conference on Economics and Computation (pp. 125-126). ACM.
34. Kleinberg, J., Ludwig, J., Mullainathan, S., & Obermeyer, Z. (2015). Prediction policy problems. American Economic Review, 105(5), 491-95.
35. Kogan, S., Levin, D., Routledge, B. R., Sagi, J. S., & Smith, N. A. (2009, May). Predicting risk from financial reports with regression. In Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics (pp. 272-280). Association for Computational Linguistics.
36. Lee, B. K., Lessler, J., & Stuart, E. A. (2010). Improving propensity score weighting using machine learning. Statistics in medicine, 29(3), 337-346.
37. Lobell, D. B. (2013). The use of satellite data for crop yield gap analysis. Field Crops Research, 143, 56-64.
38. Ludwig, J., Mullainathan, S., & Spiess, J. (2017). Machine Learning Tests for Effects on Multiple Outcomes. arXiv preprint arXiv:1707.01473.
39. McBride, L., & Nichols, A. (2016). Retooling poverty targeting using out-of-sample validation and machine learning. The World Bank.
40. Moritz, Benjamin, and Tom Zimmermann. 2016. “Tree-Based Conditional Portfolio Sorts: The Relation between Past and Future Stock Returns.” Available at SSRN: https://papers.ssrn.com/sol3/ papers.cfm?abstract_id=2740751.
41. Mullainathan, S., & Spiess, J. (2017). Machine learning: an applied econometric approach. Journal of Economic Perspectives, 31(2), 87-106.
42. Peysakhovich, A., & Naecker, J. (2017). Using methods from machine learning to evaluate behavioral models of choice under risk and ambiguity. Journal of Economic Behavior & Organization, 133, 373-384.
43. Stefan Wager and Susan Athey. (2018). Estimation and inference of heterogeneous treatment effects using random forests. Journal of the American Statistical Association, 113(523),1228–1242.
44. Varian, H. R. (2014). Big data: New tricks for econometrics. Journal of Economic Perspectives, 28(2), 3-28.
45. Wu, A. H. (2018). Gendered Language on the Economics Job Market Rumors Forum. In AEA Papers and Proceedings (Vol. 108, pp. 175-79).