实证研究的数据议题:获取与使用

做过研究,或在毕业季准备做研究的童鞋应该都有过这样的体会,即:如果做实证研究的话,论文中应该选用什么数据?而所选的数据不但跟自己的选题有关,还会反映文章的质量。

本科时期教我的一些年长的老师大多使用的是宏观数据,如国家统计局提供的各类年鉴,或者是自己的调研数据,这或许反映了他们那一代人做研究的方法;而后来接触的几位刚从美国读完博士回来的老师,发现他们普遍倾向于使用微观数据,比如之前写过一篇文章提到的国内较常用的几个微观数据库。但是后来我在上海对外经贸大学的“微观应用计量”暑期班上接触到大量实证研究之后,我发现了一个特点:即每一篇展示的文章,基本上都是使用的不同的数据。甚至可以这样说,许多学者花费长时间构建自己(通常是小型)的数据库,就是为了写一篇文章(当然用同一套数据写几篇文章也挺常见的,如西财的何石军等人所做的清代妻妾价格研究)。这种构建数据库的想法,跟构建大型微观数据库的想法完全不同。这反映了实证研究数据来源的多样,也反映了在当下,一份好的研究值得我们付出漫长而耐心的努力。

因此,本文主要谈下实证研究中数据的获取和使用问题,给大家(特别是需要展开论文研究的各位童鞋)提供一些思路。当然,范围限制在经济学学科,偏微观应用计量领域。

1. 微观数据库的使用及其意义

做中国的实证研究,一个重要的数据来源便是国内正在建设的几个微观数据库,包括但不限于:北大的CFPS、CHARLS,西财的CHFS、北卡的CHNS、北师大的CHIP、人大的CGSS等。目前国内的许多高校都在兴建类似于“社会科学调查中心”这样的机构,并希望依靠该平台建立自己的微观数据库,由此可见当下国内学界对微观数据的重视。大型微观数据库的意义在于:可研究的内容更广(变量多),更全面(涉及家庭方方面面),可做长期跟踪调查(更可靠的面板数据研究),且更能惠及学界(公开数据),等等。

而对于需要开展研究的初学者来说,微观数据库最为重要的地方或许在于:一、数据质量高,这为他们的研究提供了可靠的基础;二、签署协议后可免费使用,这种学界的正外部性让初学者感到轻松许多。

之前看过一个2011年左右的公开课,如果没听错的话,我记得视频里Raj Chetty说现在已经不兴使用Survey Data(调查数据),而是兴使用Administration Data(行政机构提供的数据?)。这里的Survey Data,指的就是上文提到的微观数据;而Administration Data,大概指的如税收数据这种由行政部门提供的数据。这里换个说法大家或许就不会感到太陌生了,Thomas Piketty 及其合作者Emmanuel Saez 利用美国政府提供的税收数据反推出美国的居民收入,由此研究收入不平等(Income  Inequality)的议题。而根据所做的研究,Piketty 后来出版了大家都很熟悉的 Capital in the Twenty-First Century一书。这就是一个使用Administration Data进行研究的故事。

Chetty 这么说或许跟在美国学界的现状有关:在美国,申请官方的数据更为简单,且有法律支持;而美国的微观数据库,如NPL (The National Longitudinal Surveys),已经起步快40年了,因此建立在此之上的研究应该有很多。而国内的微观数据才刚刚起步,虽然也产生了许多研究,但还有许多社会状况有待于学界、民众和政府部门去了解。

另外值得一提的是,中国的国家统计局(NBS)提供的每10年一次的人口普查数据,以及两次人口普查之间的1%抽样数据。最近一次的人口普查数据为六普数据(2010年);而1%抽样数据目前执行过三次,分别在1978、1995和2005年。基于这些普查数据进行的研究也不少,如Qian Nancy(2008)著名那篇著名的Missing Women,当然,这篇文章还结合了地理数据。

2. 自己构建数据库

除了使用现成的数据之外,就是自己构建数据库了。相较于上文提到的微观数据库,这种数据库显得较为小型,往往是因为一篇研究的需要而构建的数据库。数据来源往往为以下几个途径:调查问卷、历史文本、网络爬虫等。最后还会谈下一类较为特殊的数据,如地理、气象、环境数据,这类数据来自自然科学领域,往往作为配角和其他数据结合起来,帮助学者进行研究。

2.1 调查问卷

考虑财力人力等现实问题的话,学者通过小范围的调查问卷进行研究还是挺常见的。这方面的论文提多,这里提一篇个人觉得比较有意思的文章。陈钊、陆铭等人(2014)最近在CER上发表的关于“方言的回报”的研究,所使用的即是他们自己在上海地区收集的调查数据。

自己用调查问卷收集数据,最为重要的是保证数据的质量。问卷设计是一方面,而更为需要注意的另一处是数据的偏误问题。举个例子,最近临近期末,可以看到许多同学(也包括在国外读研究生的同学额)为了做项目在微信朋友圈上发调查问卷。这种收集数据的方式,如果不是研究相关议题(如特定于微信用户的研究),那么就可能存在很多很严重的问题。这种调查方式收集的数据存在偏误,即自我选择偏误(self-selection bias)的问题。首先,大部分使用微信的都是年轻人,所以这种你不可能在朋友圈做类似于“城市老年人消费观念”的调查;其次,最为可能帮你你填写问卷的人是近期跟你玩得比较好的朋友,所以这种方式收集的数据内容甚至不能用来代表你朋友的普遍状况。比如,有一位女同学在收集了几份问卷信息之后,在朋友圈抱怨说,“基本都是女性在填写问卷,来几位男同胞啊。”如果说这种一开始就赤果果的偏差都没有引起她的注意,那么只能说她没有一点儿“随机抽样”的意识。而且,要知道,即使是最后填写问卷的男女比例达到了1:1,这样收集上来的数据也是“然并卵”的质量。

不符合随机原则收集的调查数据可能完全不具备代表性,但并不是说就不能用,这跟你的研究内容有关。比如说,有一个域名为 zuobiao.me 的网站,为国人提供“中国政治坐标系测试”,这一测试在网民之间流传很广。后来这个网站被墙,于是站长觉得被墙之后收集的数据偏误会很大(BTW,站长是数学系的博士),因为能翻墙过来填写问卷的人跟无法翻墙的人之间的政治观念差异可能会很不一样,因此他决定公开该网站这几年收集的数据。根据这一数据,MIT的徐轶青等人(2015)和复旦的兰小欢(2015)各写了一篇文章。其实该网站被墙之前,收集的问卷数据也是有偏的,因为会做该测试的人,往往可能是对政治较为感兴趣的年轻网民,而不是全体国人。但是上面提到的两篇研究,研究的内容正是局限于对政治议题较为感兴趣且偏向于年轻的网友,因此即使数据有偏,但还是可以用在研究上。

另外,“自我选择偏误”不单存在于数据收集上,还可能存在于进行实证研究时数据选取上。比如你感兴趣的是某一地区的全部人员,但是数据库提供的仅仅是劳动力市场上人员的调查数据;又比如你感兴趣的研究内容是劳动力的受教育程度对其收入的影响,但是你会发现受教育程度较高的这部分人,往往也是家庭背景较好的一类人,而这一类人的高收入可能是由于家庭背景导致的,而如何识别教育回报,也就是一个解决“自我选择偏误”的过程。对此感兴趣的同学可以看下Heckman(1979)的经典大作。

2.2 历史文本

从历史文本中整理数据是另一种收集数据的方式,我想随着国内经济史研究的方兴未艾,通过历史文本整理数据的研究可能会越来越多。即将在Econometrica刊发的Elite Recruitment and Political Stability一文,探讨了清朝废除科举制对政治稳定的影响,使用的即是整理自文本的历史数据:1900-1906年间清朝262个府的面板数据。关于这篇文章的研究内容,可参见政见的这篇《废除科举加速清朝灭亡?》。而这篇文章的两位作者,也是政经和经济史领域的两颗学术新星,分别是目前在港中文的白营和UCSD的贾瑞雪。

再举一些经济史方面的研究,如白营和贾瑞雪之前分别写的一些文章。白营和港科大的Prof. Kung 合作的两篇文章(2011,2014),分别研究了气候变化对游牧民族入侵中原的影响,和新教在中国的知识传播对经济增长的影响。之前8月份第一次去青岛,我想到中国殖民地这方面的经济史研究选题,后来发现贾瑞雪做过一篇相关研究,即是这篇发在RES的 The Legacies of Forced Freedom

《量化历史研究》中颜色老师的那篇《从经济学的角度研究经济史的一点体会》,提到了经济史的一类很适合的研究内容为“遗产”研究(Legacy Research)。我原先不太明白什么叫做“遗产研究”,后来看到贾瑞雪这篇 The Legacies of Forced Freedom的研究内容,我才大概明白为什么说“遗产”研究是一类较为适合的经济史研究。其实很简单,从现实层面考虑,综合”历史数据的难以获取“和“当下经济数据的可获取性”两个现实,由此可推断经济史中一个可行的研究内容就是,研究历史上发生的事情对当下社会经济状况的影响,这即是所谓的“遗产”研究。

这类的研究有许多,这里推荐Harvard的Melissa Dell的两篇文章,一篇是颜色老师在书中推荐的,发在Econometrica上的 The persistent effects of Peru’s mining mita ; 另一篇则是她的工作论文:State Capacity, Local Governance, and Economic Development in Vietnam。这两篇研究都是使用RDD,研究的都是历史上的某一事件对当下的影响,因此使用的数据为2000年之后的家户调查数据:前者使用的数据包括2001年的秘鲁家户调查数据(Peruvian National Household Survey ),后者使用的数据包括2002-2012年的越南家户调查数据(Vietnam Household Living Standards Survey)。

2.3 网络爬虫

现在基于网络数据进行的实证研究也不少。一方面,网络数据虽然本身就是以电脑可直接处理的形式存在,但是该形式并不一定可以直接用做研究,也需要对其进行处理。另一方面,网络数据的优点之一是其涉及的样本量往往会比较大,因为它可能是用户自己提供的数据,如微博信息、婚恋网站的匹配数据等;也可能是定期更新的数据,如财经数据、电影票房信息等。网络数据经常需要用爬虫来获取,但这并不意味着研究人员本身需要具备爬虫技术,目前雇佣专业人员用爬虫获取数据的情况也是挺常见的。

网络数据这方面的研究,上面提到的“微博”、“婚恋网站”、“财经数据”、“票房信息”四个方面都有相关的研究,其中有些研究会结合其他的一些数据,如等下会谈到的环境数据;当然,除此之外利用网络数据进行的研究有很多,也包括研究学界本身,如利用学科的期刊数据来进行研究。我对这方面的关注较少,因此除了上文提到的徐轶青等人(2015)和兰小欢(2015)的两篇文章,这里没有其他推荐。关于网络数据的偏误问题,也见上文内容。

2.4 自然科学数据

因为我不知道该如何给地理数据、气象数据、环境数据、甚至外太空获取的灯光数据等数据归类,所以这里我就统一把他们归为自然科学领域的数据。

通常,经济学家会将这类数据当做是辅助工具,结合自己的主要数据来进行研究。前面提到的:Qian(2008)的Missing Women 和Dell(2010)的 The persistent effects of Peru’s mining mita都是结合了地理方面的数据后者是利用地理环境构建了一个RDD,也有学者用这种方法研究中国问题,即陈玉宇和李宏彬(2013)等人利用中国政府在淮河两侧采取供暖政策不同,构造了一个地理上的RDD,由此得出长期暴露在空气污染中的居民的平均预期寿命会缩短3年。

用气象数据进行的研究,如之前提到的Bai和Kung(2011)合作的文章:气候变化对游牧民族入侵中原的影响。而随着中国环境问题的加剧,特别是雾霾问题,用环境数据所进行的研究在未来几年应该都会陆续出现。如空气污染是否会影响人们的消费行为,是否会影响人们的身体健康和心理感受(如满意度)等。

用外太空获取的灯光数据进行政治经济学研究,大家应该都有所耳闻。对于一些经济数据较为难以获取,且官方提供的数据不太可靠的地区(比如非洲),用外太空获取的地区的灯光数据当做是地区经济发展状况的代理变量,由此来进行相应的研究。这方面的研究我也没有细看过文章,所以这边也没有推荐。

3.  深入讨论

上面提到了几个获取数据的途径,但并不是说实证研究只能通过这几个途径获取数据。从某种程度上来说,实证研究的数据获取可以是一个开脑洞的过程,比如外太空的灯光数据;而实证研究过程中将不同的数据结合起来,也可以是一个开脑洞的过程,就类似于寻找准自然实验的过程。这就所谓的,“大处着眼”。

而在获取了数据之后,更为重要的是如何处理这些数据。数据本身的状况就形态各异,因此需要研究者对其进行细致的识别,这样才能更好(或说更科学)地使用这些数据。实证研究中很关键的一点是识别策略,因为识别涉及到该研究的因果推断,因此只有制定了好的识别策略学者才能做出好的实证研究。这就是所谓的,“小处着手”。

最后,我们抛开数据处理的操作层面,来探讨下数据的本质。记得Angrist等人合著的《基本无害的计量经济学》中曾这样描述过RDD,

“断点回归式识别策略基于如下思想:在高度依赖规则而运行的世界中,有些规则的出现是十分随意,这种随意性为我们提供了性质良好的实验。”

而数据的产生也是如此,如果说社会存在某些规律(自然的或者是人为的),那么在日常生活中它就可能反应在人类产生的各种资料之中,这些资料可以是历史文本、微博信息、大气质量等信息,实证研究需要做的就是,使用科学的研究设计(识别策略、计量框架等)来对这些被称作为“数据”的资料进行研究,由此重新挖掘出数据中蕴含着的社会奥秘。

 

参考文献

1. Qian, Nancy. “Missing Women and the Price of Tea in China: The Effect of Sex-Specific Earnings on Sex Imbalance.” The Quarterly Journal of Economics 123.3 (2008): 1251-1285.

2. Chen, Zhao, Ming Lu, and Le Xu. “Returns to dialect: Identity exposure through language in the Chinese labor market.” China Economic Review 30 (2014): 27-43.

3.Pan, Jennifer, and Yiqing Xu. “China’s Ideological Spectrum.” (2015).

4. Lan, Xiaohuan, and Ben G. Li. “The Economics of Nationalism.” American Economic Journal: Economic Policy 7.2 (2015): 294-325.

5. Heckman, James J. “Sample selection bias as a specification error.” Econometrica: Journal of the econometric society (1979): 153-161.

6. Bai, Y., & Jia. R. “Elite Recruitment and Political Stability: The Impact of the Abolition of China’s Civil Service Exam” Econometrica, forthcoming.

7. Bai, Ying, and James Kai-sing Kung. “Climate shocks and Sino-nomadic conflict.” Review of Economics and Statistics 93.3 (2011): 970-981.

8. Bai, Ying, and James Kai-sing Kung. “Diffusing knowledge while spreading God’s message: Protestantism and economic prosperity in China, 1840–1920.” Journal of the European Economic Association (2014).

9. Jia, Ruixue. “The Legacies of Forced Freedom: China’s Treaty Ports.”Review of Economics and Statistics 96.4 (2014): 596-608.

10. 陈志武等编,《量化历史研究(第一辑)》, 浙江大学出版社 (2014), P259-269.

11. Dell, Melissa. “The persistent effects of Peru’s mining mita.” Econometrica 78.6 (2010): 1863-1903.

12. Dell, Melissa, Nathan Lane, and Pablo Querubin. “State Capacity, Local Governance, and Economic Development in Vietnam.” (2015).

13.  Chen, Yuyu, et al. “Evidence on the impact of sustained exposure to air pollution on life expectancy from China’s Huai River policy.” Proceedings of the National Academy of Sciences 110.32 (2013): 12936-12941.

14. 安神等, 《基本无害的计量经济学》, 格致出版社 (2012), P177.

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

注:目前本文仅授权给“中国经济学教育科研网”进行转载(转载网页),其余转载皆没有授权。

Share

Links for Econ Journals &Papers

8月份,我在上海对外经贸大学参加了YES的暑期班,培训内容是“微观应用计量”。

以下是我整理自暑期学校不同授课老师所提及的各领域期刊以及文献的笔记内容,分享给大家。

 

1. Literature (via 何晓波)
Journal of Economic Literature
journal of economic perspectives

2. Top 5
AER for American Economic Review
Econometrica
JPE for Journal of Political Economy
QJE for Quarterly Journal of Economics
RES for Review of Economic Studies

3. Working Paper
NBER
IZA

4. Labor Economics(via 何晓波)
Journal of Labor Economics
Journal of Human Resources

5. Development Economics(via 刘宇)
Besley, T., & Persson, T. (2014). Why Do Developing Countries Tax So Little?. The Journal of Economic Perspectives, 28(4), 99-120.
Gordon, R., & Li, W. (2009). Tax structures in developing countries: Many puzzles and a possible explanation. Journal of public Economics, 93(7), 855-866.
Gadenne, L., & Singhal, M. (2014). Decentralization in Developing Economies. Annual Review of Economics, 6, 581-604.
Pomeranz, D. (2013). No taxation without information: Deterrence and self-enforcement in the value added tax (No. w19199). National Bureau of Economic Research.
Liu, Y. (2015). Discretionary Charges as Firm Output Distortions: Evidence from China.

6. Cliometrics(Econometric History)(via 李楠)
Journal of Economic History
The Economic History Review

Nunn, N. (2009). The Importance of History for Economic Development. Annual Review of Economics, 1(1), 65-92.

7. Political Economics(via 兰小欢)
Selected Papers of Xiaohuan Lan
Lan, X., & Li, B. G. (2015). The Economics of Nationalism. American Economic Journal: Economic Policy, 7(2), 294-325.
Lan, X., GSB, C. K., & Li, W. (2013). Swiss watch cycles: Evidence of corruption during leadership transition in China. Working Paper, Cheung Kong Graduate School of Business, Shanghai.
Jia, R., & Lan, X. (2014). Capitalism for the Children: Entrepreneurs with Cadre Parents Under Big Government.

8. Academic Writing(via 马红梅)
陆铭. (2004). 把实证研究进行到底. 经济学家茶座, 8(4), 77-81.
陆铭. (2006). 如何做研究和写论文:现实.理论.证据. 上海: 复旦大学.
陆铭. (2006). 全球视野与中国问题. 上海: 复旦大学.
陆铭. (2007). 再谈”把实证研究进行到底”. 上海: 复旦大学.
陆铭. (2007). 本土经济学博士可以贡献什么. 南京: 南京农业大学.
陆铭. (2009). 中国研究与人类智慧:兼谈如何做研究和写论文. 上海: 复旦大学.
陆铭. (2011). 说审稿. 经济学家茶座, 43(3), 13-16.
彭玉生. (2010). “洋八股”与社会科学规范. 社会学研究(2), 180-210.
施一公.(2014).优秀博士如何养成. 北京: 清华大学.
王汎森. (2014). 怎样写一篇优秀论文. 台北: 台湾大学.

To be continue

如想转载,请联系我。:)

联系我

 

Share

中国劳动经济学领域的微观数据库

注:今年6月份几个数据库都公布了新一轮的数据,本文没有及时更新,相关介绍可参阅何晓波老师的文章《2016年6月最新中国微观经济数据介绍》。(写于09/17/2016)

——————————————————————————————————————————————————————————————————

本文介绍了目前国内劳经领域一些主要的微观数据库,并且附上数据申请下载地址(公开免费)。当然,国内还存在许多其他不公开的数据,一般都是由学校的教师带队进行收集和整理工作,由于公布的成本过高,所以并没有公开。如果你想做实证研究,多了解下国内的微观数据库或许对你的研究会很有帮助。另外,我了解的也不全面,如果各位觉得我漏掉了某些微观数据库,或觉得我的评论有什么不恰当之处,欢迎各位留言交流。

 

1. CHIP

CHIP全称是 Chinese Household Income Project,中文名为中国家庭收入调查

CHIP项目主要由北京师范大学的中国收入分配研究院(CIID)主持,申请过程很简单,只需要你提供基本的信息,经过审核之后即可下载数据。

CHIP项目从最早的CHIP1988到最新公开的CHIP2008,该项目已经有20年的历史。以往有许多文章用CHIP数据来研究城市和农村的劳动力,以及城乡之间的收入分配等议题。最近Juan Yang等人(2014)发表在CER的研究中,他们使用CHIP2002和2007的数据研究了中国农村地区子女中学入学的影响因素的变动情况。

值得一提的是,以往的CHIP数据只有农村和城市的住户样本,而在最新公布的CHIP2007和2008数据中,除了城市和乡村住户之外,第一次加入了城乡劳动力(rural-to-urban migrats)这一群体。而且,官方说CHIP2007和2008可以构成一个两年的面板数据(但是我对此很怀疑,因为我发现CHIP2008很多内容都跟CHIP2007是一样的,都是2007年收集的数据内容。因此个人认为,如果要使用面板数据进行研究,我暂时不会考虑用CHIP,而是考虑用CFPS)。

CHIP2007和2008也是我本科毕业论文所使用的数据,但是我最先接触到的并不是北师大的CHIP数据。由于我的老师刚从美国回来,我给她担任研究助理期间,她跟我推荐了IZA的RUMiC2008和2009数据,所以RUMiC也是我申请的第一份微观数据。后来我发现这跟CHIP2007和2008实际上是同一个的项目。

附上CHIP申请地址

 

2. CFPS

CFPS全称是 China Family Panel Studies,中文名为中国家庭追踪调查

CFPS项目由北京大学中国社会科学调查中心(ISSS)主持,申请除了需要你的信息之外,申请使用的邮箱需要一个edu后缀,即是教育系统的邮箱。申请审核通过之后,你的edu后缀邮箱会收到CFPS提供的密码,即可下载数据。另外,CFPS的问卷可以直接在官网上获取,只有数据是需要申请的。

CFPS虽然只有2010,2011和2012三年数据,和一份测试调查数据,但是从问卷中即可看出,CFPS包含的内容远比CHIP丰富。CFPS2012的面访问卷就足足有251页,而CHIP2008中较长的城乡劳动力的问卷,也仅仅只有30页。另外,CFPS2010,2012可以构成面板数据。

我看过的使用CFPS进行研究的文献虽然不多,但是我发现一个有趣的地方,就是许多人利用CFPS研究农村的金融状况。后来从问卷中我发现,CFPS包含了农村家庭的资产,投资等状况。虽然金融不是我的研究方向,但我也大概能意识到研究当下中国农村住户的金融状况有着其重要的意义,这一研究大概就属于发展中国家小额金融(micro-finance)的研究内容的一部分。另外,西南财经大学的中国家庭金融调查(CHFS)也是研究金融的不错的数据库,但是我的研究方向并不是金融领域,因此没有过多关注。

附上CFPS申请地址

 

3. CHARLS

CHARLS全称是 China Health and Retirement Longitudinal Study,中文名为中国健康与养老追踪调查

CHARLS项目跟CFPS一样,也是由北京大学中国社会科学调查中心(ISSS)主持。申请需要基本的个人信息,并不需要edu后缀的邮箱,通过审核并没有什么困难。

CHARLS,如名字所言,主要是关注中国老年人的医疗保险,养老金等方面的议题。CHARLS目前包括了2008年的两省数据,2012年的两省追踪数据,2010年的全国基线调查数据和2013年的全国基线追踪数据(今年1月底刚刚公开的数据)。前两者和后两者分别可以形成面板数据。

由于看的文献比较少,我并不熟悉老年人的医疗保险和身体健康等领域。但是我之前看过一篇特别让我感兴趣的文章,有学者利用CHARLS数据研究“大饥荒”对健康的长期影响(马光荣 2011)。因为CHARLS收集的是老年人的信息,这些人年轻的时候可能经历了中国58-61年的三年大饥荒,所以刚好可以使用当下的微观数据来研究历史事件造成的长期影响,我觉得这真是一个很有趣的研究。

另外,CHARLS在今年会展开新一轮的基线数据调查,这也是北京大学公选课“社会经济调查理论方法与实践”的暑期实践项目(这门课的老师还是赵耀辉!北大的学生就是幸福 ,>。<)。不过我作为非北京地区的学生,申请并入选了今年的CHARLS访员(参见北大的CHARLS第一批访员的录取名单)。所以今年七月初我会在北大上培训课,然后跟着大家伙到实地去帮CHARLS项目收集一个月的数据。

附上CHARLS申请地址

 

4. CHNS

CHNS全称是 China Health and Nutrition Survey, 中文名为中国健康与营养调查

CHNS项目由北卡罗来纳大学的Carolina Population Center主持,申请没有一点困难。但是CHNS提供的数据类型与刚刚介绍的几个项目提到的数据类型不一样,是需要用SAS软件打开的带sas7bdat后缀的数据。因此,如果你和我一样使用的是Mac,那么你就不得不使用SAS软件来打开或转换CHNS数据。幸好SAS有免费的University Version,但是在Mac上使用SAS需要先安装一个虚拟机。

 关于CHNS数据,官网上的介绍讲得很明确,“The China Health and Nutrition Survey (CHNS) was designed to examine the effects of the health, nutrition, and family planning policies and programs implemented by national and local governments and to see how the social and economic transformation of Chinese society is affecting the health and nutritional status of its population.”

我目前还没有仔细研究和使用过CHNS数据,所以还不能谈些什么。

附上CHNS申请地址

 

5. CGSS

CGSS全称是Chinese General Social Survey,中文名为中国综合社会调查

CGSS项目由中国人民大学的中国调查和社会中心主持。我之前申请的时候,需要提交个人信息和一份申请表格(需签字)。因为之前有人大经济论坛的帖子说CGSS的申请不遇到审核不通过的情况,我的审核是很顺利的(而且人大的效率特别高),不知道为什么会有朋友这么说。因此,为了以防万一,我建议各位跟我一样,在申请邮件中除了附上申请所需的表格之外,在正文处详细地提及下自己的研究方向,以及想要用CGSS数据研究什么内容。

但是目前好像CGSS的数据已经转移到新的网站上了,注册申请的过程也和我之前遇到的不一样。我已经发邮件给CGSS的项目组了,询问他我之前申请审核通过的账号为什么不能在新的网站上使用,目前还没收到邮件回复。(新网址见下方“CGSS申请地址”)

CGSS数据或许在社会学领域用的比较多,这应该也是国内社会学领域最好的数据库。CGSS项目也存在许久了,CGSS2003,2005,2006和2008共同构建了该项目第一阶段(长达10年)的数据调查。目前CGSS已经开始了第二个10年的数据调查,CGSS2010和最近公开的CGSS2013都属于此阶段的调查项目。

因为是社会学领域的数据库,所以除了样本住户的基本情况外,CGSS还包含了许多关于价值观念的内容。另外,CGSS数据往往会包含一些特别的内容调查,感兴趣的朋友可以自己去看下问卷。

就我之前研究所接触的文献而言,Hu等人(2011)发表在CER上的一篇文章特别不错,他用CGSS的数据研究了中国城乡劳动力短期流动和长期流动的影响因素。他们将获得了“蓝印户口”或“非农业户口”以及在城镇购买了房产的这部分人界定为城乡流动劳动力中会做出长期流动(即定居)的人群,让人很有启发。

附上CGSS申请地址

 

6. CHFS

CHFS全称是China Household Finance Survey,中文名为中国家庭金融调查

CHFS项目由西南财经大学中国家庭金融调查与研究中心主持。申请并不难,只需要提交一份叫”CHFS数据下载注册信息”的申请表,使用工作邮箱(edu后缀,不接受126,gmail等邮箱)。申请表除了需要提交你的基本信息外,你还需要说明“所需数据的研究项目的标题和摘要”及其“持续时间”。其实也就是需要你大致说下你将使用这套数据分析什么对象,用什么计量方法来进行相应的实证研究。审核时间很快,上午的申请下午就通过了。

至于CHFS数据,官网是这样介绍的,CHFS“旨在通过科学的抽样,采取现代的调查技术和调查管理手段,在全国范围内收集关于家庭资产、负债、收入支出、社会保障和保险等方面的信息为国内外的研究者提供研究中国问题的高质量的微观数据。”

我原本以为CHFS仅仅是家庭金融方面的数据库,因此没怎么关注。直到前几天听了中国家庭金融调查与研究中心主任甘犁在我们学校对CHFS的介绍,我才知道CHFS是一套很出色的数据库。甘犁说建立这套数据库,他想要做的是了解当下中国家庭的基本状况。因此CHFS不只是调查了中国家庭的资产状况,如上述几个数据库一样,它也包含了所调查家庭的基本特征。

CHFS一半以上的资金是由甘犁个人筹得,可以看出甘犁教授的能力。因此甘犁教授在前几天的讲座中说,他一直还在考虑什么时候公布2013年的CHFS数据,因为这个项目的成本实在太大了。CHFS目前只提供2011年的数据,也是全国范围的抽样数据,每两年实行一次跟踪调查。

可以说,甘犁教授的团队利用CHFS数据做了许多优秀的研究,在社会上影响反应较大的包括西财公布的基尼系数,城镇住房空置率报告。其中正是因为城镇住房空置率报告的争议,使得他们团队发现了大家对“城镇化”的误解,以往的研究都忽视了那些被新划分为“城镇”但是生活状态还是农村状态地区的考察,因此在今年的CHFS将会增加对这部分地区的数据收集。研究城镇化的童鞋们,可以关注下(多年之后会发布的…)CHFS2015数据。

附上CHFS申请地址

 

 

当然,目前经济学领域的微观数据库并不止这些,以上提到的六个数据库仅仅是研究中国劳经议题所使用的主要数据库。我想随着我研究的深入,我会更加熟悉这些数据库以及了解到其他的数据,到时我还会再来修正和补充这篇文章。

 

附上两个PDF文档:

1. 《经济学研究常用中国微观数据》,提供自厦门大学王亚南经济研究院,点击下载

2. 《中国微观数据库简介》,提供自南昌大学,点击下载

 

参考文献

1. Yang, Juan, Terry Sicular, and L. A. I. Desheng. “The changing determinants of high school attainment in rural China.” China Economic Review 30 (2014): 551-566.

2. 马光荣. “中国大饥荒对健康的长期影响: 来自 CHARLS 和县级死亡率历史数据的证据.” 世界经济 4 (2011): 104-123.

3. Hu, Feng, Zhaoyuan Xu, and Yuyu Chen. “Circular migration, or permanent stay? Evidence from China’s rural–urban migration.” China Economic Review22.1 (2011): 64-74.

 

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

非洲的政党政治:金钱联盟带来的民主

好吧,今天来聊聊或许我们都不怎么熟悉非洲政治。经济学和政治学研究中提到的“非洲”,通常是指撒哈拉以南非洲(Sub-Saharan Africa),而不是整个非洲地区。或许是因为,而与之对应的北部非洲,通常被认为是阿拉伯世界的一部分。【来自维基百科的解释】而与撒哈拉以南非洲的国家具有不同的历史、经济、政治、文化等特征。

说到非洲,其中一个较为明显的特征就是种族(Ethnic)众多,也可以理解为部落很多。不管是从文学作品,如非洲文学之父Achebe写的著名的小说《瓦解》,还是从社科类的研究,如经济学领域的Easterly等人(1997)写的经典论文Africa’s Growth Tragedy: Policies and Ethnic Divisions①,我们都可以看出“种族”特征对人们理解非洲时起到的重要作用。

今天要讲的内容来自一本比较政治领域的著作,加州伯克利大学副教授Leonardo Arriola写的Multiethnic Coalitions in Africa,副标题是Business Financing of Opposition Election Campaigns。书名可以翻译为《非洲的多种族联盟:反对政党竞选活动的商业筹款》。这是剑桥大学出版社比较政治学研究系列图书之一,该书在2013年获得了APSA和ASA下属非洲政治会议集团的最佳图书奖。②

Multi-Ethnic Coalitions in Africa

作者Arriola好奇的一个研究点是,为什么在一些非洲国家会存在反对党的政治联盟,而在另一些国家却不存在。所谓反对党的政治联盟,就是为了抗衡执政党的多数优势,在野党派会在下一次总统大选的时候组成政治联盟,由此才可能获得可与执政党抗衡的足够多的选民票数,来试图赢得该届的总统选举。

但是非洲由于存在种族的原因,选民在投票选取执政党和总统时,不会存在西方民主国家选民的意识形态上的衡量,但是却会存在种族因素上的考虑。一般而言,某一种族的选民都会支持自己种族的候选政党以及候选人,由此非洲国家的执政党都出自该国势力最大的种族。而不同种族之间的候选人也不会相互合作,选民也不会投票给别种族的候选人。由此造就了非洲名不副实的民主运作,即虽然存在周期性的政治选举的民主制度框架,但是由于非洲自身的种族特点,使得执政党及由总统(即执政党领袖)的选举总是能够被某一特定的政治集团所操作。

非洲大多数国家自上世纪60年代纷纷独立以来,这些国家虽然存在民主选择制度,但是特定政党和总统的统治往往能一直持续下去,如果某一总统去世,其指定的候选人也将会很轻易地拿下下一届的总统选举,也可以说非洲的政党选举具备较高的“可操作性”。由此带来的政治统治中民主因素一定会受到极大的压制,事实也是如此,非洲许多国家在独立以来,国家的经济重权就长期地掌握在某一政党和领导人手中。而这种对国内经济的掌控,特别是对金融市场的压制,使得国家的执政党成为了外资流入国内的看守者。可以说,非洲人民虽然存在投票的权利,但是经济上是没有什么自由可言的。然而,经济不自由,政治上也不可能自由。

这种局面一直持续到上世纪90年代,在国内的需求和国际环境,特别是当时的经济危机的影响下,非洲的国家开始采取不一样的对待外资的政策,其中一些国家还是坚持对金融市场的掌控,而另一些国家则采取了金融自由化的政策,在解决经济问题的同时,这些国家的执政党也很期待着国外提供的资金援助。由此,一些国家保持着原来的对金融市场的管制,而另一些国家则大量引进了外资。

作者发现,那些保持金融管制的国家,它们的政治选举中几乎不会存在政党联盟;而那些开放了金融市场的国家,普遍在开放金融市场之后开始出现了政党联盟。于是作者猜想是由于金融市场的开放,使得非洲的反对派组成政治联盟变得可能。

反对党们如要组成政治联盟,一般都得由支持率最高的反对党(因而获胜可能性最大)来联合其他较小的反对党,最大反对党给其他反对党提供“政治承诺”,即一旦最大反对党当选,反对党会给其他政党领袖提供副总统、内阁成员或国会成员等政治权力,而在另外一方面,其他较小的反对党领袖也要说服支持自己的同族选民转而去支持该最大反对党,由此给它带来较多的选票,才有可能跟执政党抗衡。而这一种模式的政党政治运作,在发达国家也很常见,美国也存在社区领袖让选民支持其他领导人,而在这一领导人上台之后给自己换来一个较高的职位,由此也可以间接为他所在社区的选民提供政治上的支持。

作者考虑了以往的一些组成政治联盟的条件后认为,这一“政治承诺”在非洲的政党运作中会存在许多问题,其中就包括最大的反对党在当选后毁约,或者由于当初承诺过多而在当选后无法如约执行承诺。而即使最大反对党可以如约执行承诺,这一“政治承诺”也只能在最大反对党当选之后才会被执行,而这一投资是否会得到回报(即执政党是否会被击败),是一件可能性不大的事情。因此非洲国家之间往往不会存在反对党之间的政治联盟,由此这些反对党只能每人分到相应的较少的票数,从而完全无法跟执政党相竞争。

而在金融自由化政策得到实行之后,金融市场的开放带来大量的外资和不受政府管控的资本,因此反对党可以将之前的“政治承诺”换成资金上的回报,即其他反对党支持最大反对党参选,而这些较小的反对党将会得到直接,且在选举之前就能得到资金上的回报,而选举胜利之后,还有可能得到相应的其他回报。而在之前,由于执政党对金融市场的管控,使得反对党在进行政治选举时无法利用资金上的承诺来获取政党之间的联盟。

作者在考察了数据资料后发现,相较于那些没有实行金融自由化政策的国家们,那些实行了金融自由化的国家会存在较多的商业银行,同时也会存在数量较多的政治联盟,即他们之间存在正相关的关系。而通过对喀麦隆(没有金融自由化)和肯尼亚(金融自由化)两个近似的国家作案例分析,作者更为具体地讲述了这一因果分析。

作者还考察了执政党金融管控的历史之后发现,那些在独立时,执政党所在的种族是该国主要的控制经济的种族的话,执政党则倾向于在90年代时选择接纳金融自由化的政策,因为这些执政党觉得金融自由化之后自己所在的种族将会受益最大,从而这些外来的资金将不会对自己造成不可控制的威胁;而那些在独立时,执政党所在的种族在该国并没有太大的经济行业上的优势时,这些执政党在90年代往往会选择继续管控金融市场,因为一旦开放金融市场,他们虽然能够获得更多的资金,但是他们担心自己将会无法掌控这些资金。从这一金融掌控的历史来看,我们也可以看出种族因素是非洲政经议题上不可忽视的作用。

但是选择开放了国内金融市场的执政党,在后期的选举中也没有料到国内的商人会如此地支持该国的反对党,而反对党在种族联盟上的成功,也给非洲的政治带来更为民主的新气象。

我还在读这本书,这是这两天所读内容的一个大致整理,就先发在此,跟大家分享一下。

注:

①Easterly, William, and Ross Levine. “Africa’s growth tragedy: policies and ethnic divisions.” The Quarterly Journal of Economics (1997): 1203-1250.

② Best book award (2013) from the African Politics Conference Group, an organized section of the American Political Science Association (APSA) and the African Studies Association (ASA)

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

如何用Stata进行数据清理

本文提供一些用Stata 12进行数据清理的基础知识,比较适合于刚刚接触Stata的童鞋,但这篇文章不提供Stata的下载安装,界面使用等基础知识。还需要说明的是,本人所使用的是OS X平台的Stata 12,不过我估计win系统的操作差异不大。

Stata是功能很强大的一款软件,你学得越多,Stata能帮你实现的事情就越多。如果你仅仅是一时想要处理数据,我建议你使用你比较熟悉的软件,Eviews,SPSS和R等都可以;但是如果你在将来很长一段时间都会接触到数据处理,统计分析,回归制图等,Stata则很值得你深入学习。

 

1. 一些良好的使用习惯

1.1 学会用 “help” 命令

学习的过程,不单单要学会知识,还有学会自学的能力。就比如说,如果你在学习Stata的过程中遇到了不懂的问题,你可以通过Google搜索或者询问朋友来解答你的疑惑。而值得一提的是,Stata本身也存在帮助你理解Stata的功能,这就是help命令。

在接触Stata的时候,你会接触到各种命令代码,如果你对某些命令代码不理解,你可以直接在Stata的命令框中,输入“help”+你不理解的代码。按下enter后,Stata会提供相应的信息,而且附有例子供你更好地学习和理解。

比如,你想要知道怎么使用 rename这个命令,你可以在Stata的命令框中输入“help rename”,Stata会弹出一个窗口,如图1所示。窗口里的内容包括”Title”,”Syntax”,”Menu”,”Description”和”Examples”。

rename on Stata

图1. help rename窗口

 

1.2 写do文件

还有一个良好的习惯是学会写do文件(do file)。

当你想要使用Stata的时候,你可以直接在Stata的命令框输入命令,然后来处理数据,但这不是一个很好的习惯,因为这样做带来很多弊端。

使用do文件的好处包括但不限于:

1. 易于更改:如果你在Stata命令框直接输入代码,在中途输入错误的命令后(比如数据被清楚了),由于无法撤回你就得重头到尾再输入一遍。但是使用do文件,写错了可以直接在do文件中更改,再运行一次即可;

2. 重复使用:如果你在将来要重新用到这些命令,直接在Stata上运行相应的do文件即可;

3. 提高交流效率:你可以将你的do文件发给你的合作者,这样他就可以根据do文件的内容来理解你的数据,甚至帮助你找出你处理后的数据集中的错误来源;

在Stata的上面窗口,如图2,点击Do-file Editor,即可得到输入和编辑do文件的地方,写好do文件之后点击save,保存到相应的路径即可。

do_file

 

图2. Stata的Do-file Editor

do文件的构成大致分为三部分,如图3所示。Part 1: clear表示每一次run这个do文件,都会清除掉你之前所使用的命令(一个清新的开始);Part 2: use”/XXX/XX…”是你想要处理的数据的路径名(你可以双击数据后,将显示在Stata中的数据路径复制到do文件中);Part 3: 之后就是数据清理的命令了。

do_file_demo

图3. do文件的样例

 

1.3 像程序员一样去行动

一般来说,数据处理的Stata教程不会提到这一点内容。而且这一点内容比较虚,我不知道什么才是程序员的思维方式,也不知道如何才能给大家提供这一点内容。由于我有一年的计算机专业基础,在跟我读经济学的同学接触后,我发现很多同学(特别是处理数据经验较少的同学)在了解这些命令的情况下,都不会懂得如何去跟这些命令或者手头的数据打交道。

其实很多时候,一些简单的代码就能实现复杂的功能,而如果你不懂得如何使用这些代码,你就只能达到零散地知道ABC的入门水平。

一个简单的例子是,我在没有学会在Stata中使用循环命令的时候,用简单的数据处理命令实现了我需要的类似于循环命令的功能(将数据分组,再对每组中的某变量进行求和,生产一个新的变量)。还有就是,很多同学只会在一个数据集的基础上处理数据,而不懂得将这些数据分为多个数据副本,各自处理后再合并起来即可。

这里有两点建议可以提供给大家:1. 如果不懂得如何实现某一功能,你可以先想想实现的过程会经过哪些步骤,而考虑每个步骤需要使用怎样的工具,然后再去找这些工具按,按步骤走即可;2.在这个过程中,前往不要担心出错的问题,要像程序员那样,敢于尝试,不停地在实践中学习,遇到问题后逐个攻破。Learning by doing~

 

2. 数据清理的基本命令

我们假设手中有一个(可能很大的)数据集,这个数据集包含的内容有很多,但是并不是所有的内容都是你需要的,这个时候你就要按照自己的需求,将这个数据集处理成一个专门为你的研究所需而“定制”的数据集。这一过程,就叫做“数据清理”。

2.1  if命令

下边提到的命令后边都可以加上“if”,用来表示仅仅对满足了if条件的部分内容进行更改,而不是对某变量的全部内容进行更改。结合下文,详细讲述。

 

2.2 keep和drop

你手中的数据集很大,里面包含了许多的观测值(Observation) 变量(Variables)。每一个样本就是一个观测值,而每一个样本所带的特征就是这些观测值的变量。而你只需要其中的一些变量,这个时候你就需要使用keep和drop 命令了。

【注:下文的变量一律用var表示。】

比如你的数据集有200个变量,而你只需要其中的10个变量,比如其中的id, GDP, income, age等等这种变量。从多个变量中保留少量变量,可以使用keep:

① keep var1  表示保留变量var1

② keep var1 var2 var3 表示保留var1 var2 var3多个变量(主要变量之间用空格键隔开就好,不要使用逗号等符号)

当你手头数据集的变量很少时,而你想要使用其中的大部分变量,你需要的仅仅是去除其中某些变量,这个时候可以使用drop:

③drop var1 表示去掉变量1

④ drop var1 var2 var3 表示去掉var1 var2 var3多个变量

有时候你想要保留变量var1,但是你要去掉var1的某些缺失值(数据集中用“.”表示缺失值),你可以使用:

⑤ drop var1 if var1==. 表示去掉var1变量中的缺失值(=表示赋值,==表示等于)

 

2.3 rename

在keep和drop变量之后,你就得到一个基本的数据集了。这时候你可以用rename 对数据集中的变量进行重新命名,将这些变量命令变成便于你理解的名字。

⑥ rename var1 age 表示将“var1”这个变量名变成“age”

 

2.4 generate和replace

generate用于生产新的变量,而replace则不生产新的变量,但是会按你的需要更改原变量里的数值内容。

比如数据集中只提供每个人的出生年份(用var1表示)而不是直接提供年龄(用age表示),两步命令即可:

⑦ generate age=0 表示生产一个数值都为0的age变量

replace age=2015-var1 将age中的数值由0变为“2015-var1”得到的数值

你可以可以直接用:

⑧ replace var1=2015-var1

rename var1 age

又比如你需要创建一些虚拟变量,比如按“是否为6岁以下的学龄前儿童”,生产children变量:

⑨gen children=0 #这里使用了generate的缩略符gen

replace children=1 if age<=6 表示如果age不大于6岁,令children数值为1

replace children=0 if age>6  表示如果age小于6岁,令children数值为0

 

3. 其他和一些资源

3.1 数据的检查

清理完数据之后,可以直接在Stata的命令框输入:

⑩ sum

这个时候Stata会显示处理的数据集的所有变量的基本统计特征(观察值数量,平均值,标准差,最小值,最大值),方便你检查处理后的整体的数据特征。

 

3.2 资源

英语世界存在许多讲述如何用Stata进行数据清理的文章(我当初就是靠阅读这些文章来进行学习的),但是许多同学不习惯英语阅读,因此我虽然用中文写这篇指导,但是更推荐的是各位在Google上搜索“Stata”+“Data cleaning”等关键词,来探索一个更美妙且广阔的世界。

 

一些资源:

1. 《高级计量经济学及Stata应用》,陈强:很实用的一本书,基本囊括你在做实证时所需要的知识;百度云下载

2.《Stata十八讲》,陈传波:轻巧但是比较过时;微盘下载

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

为什么会存在“侠客岛”?

科技能给我们的生活带来了日新月异的变化,互联网领域的变化仅仅是科技带来的改变的冰山一角。我们或许已经熟悉着一个充满变化的世界,就像我们熟悉着每天微博上的各种“热门话题”而从不会感到厌倦。与此同时,媒体从业人员也跟着发生变化,新媒体越来越多,就像微信上的“公众号”在日益增加。无疑,网络让人们拥有了更多的关注点和表达欲。

在这种环境下,《人民日报》这样的老牌主流媒体也不甘寂寞,开始行动起来。据人民网去年年底的一篇报道,《人民日报》正向移动互联网发力,其旗下创办于2014年2月底的两个新媒体——“侠客岛”和“学习小组”正日渐受到人们关注。在谈到读者为什么喜欢“侠客岛”的时候,人民日报海外版的编辑总结有三点原因,分别是“变化风格”,“强调及时”和“突出权威”。

对于“侠客岛”为什么会那么受欢迎,本文没有一点兴趣。本文真正感兴趣的点在于,《人民日报》已经有了包括《环球时报》在内的那么多媒体,为什么它需要“侠客岛”这个新媒体?

而另一方面,我们可以看到,正如《人民日报》和海外版的《人民日报》,新媒体“侠客岛”作为党媒的一部分,本身就拥有权威和时效性。“侠客岛”真正特别的地方在于它在文宣方面的新风格。由此我们可以将问题细化,即为什么需要这样一种存在新文宣风格的媒体?

我想就经济学领域中的“价格歧视”理论来对此进行分析。在分析之前,或许我需要先跟大家介绍下什么叫“价格歧视”。

经济学里存在许多模型,也存在许多由这些模型推导而来理论。而“价格歧视”理论就是其中之一。“价格歧视”虽然有“歧视”两字,但这里的“歧视”并不是指中文中带贬义词性的“歧视”。“价格歧视”的原文是“Price Discrimination”,如果我们愿意,我们可以将其翻译为“差别定价”。

具体而言,我们可以这样想象:在一个市场上,有些人拥有较高的支付能力,有些人则只拥有较低的支付能力。若企业对其某一产品只定一个价格,当该产品价格定得过高时,会失去支付能力较低的这部分群体;而当该产品的价格定得过低时,虽然吸引了足够的人群,但是企业的利润就会减少。所以一个聪明的做法是,针对不同人群进行差别定价,由此达到利润最大化的目的,这就是所谓的“价格歧视”,或更确切地说,是所谓的“区别定价”。

一个很明显的“价格歧视”的例子就是飞机的机票定价,一般而言,经济舱会比商务舱便宜很多,但是实际上它们是同一产品。之所以定价不同,是因为有些人有能力为其交通费用支付较高的价格,因此企业在航班中设置了商务舱这种商品。你可能会质疑说,商务舱的座位更舒适,提供的服务也更多些,因此它值得买家为此付更高的价格。我承认这是这是事实,但另一个事实是,对于航空公司而言,商务舱的成本并非较经济舱多出许多,以至于我们无法用它们之间的差价对此进行解释。

“价格歧视”的理论前提是理性人假设,即人也会选择能最大化自身利益的行为。在这里,“价格歧视”理论将企业看做是一个会最大化自身利益的微观个体。同理我们可以将《人民日报》集团看做是一个个体,但与市场化的媒体集团不一样,它并不会以利润最大化为自己的目标。作为党媒,它的目标是要使意识形态的宣称最大化。由此我们可以得知,作为《人民日报》海外版底下的新媒体,“侠客岛”的任务也是在于宣称意识形态,但以不同的文宣风格进行意识形态宣传。也就是说,“侠客岛”的存在,是由于《人民日报》集团在最大化意识形态宣传方面上的需要。

与《人民日报》不同,“侠客岛”的大部分推送内容并不涉及新闻产品的生产,而仅仅是对已经存在的新闻产品进行解读,或再阐释。“侠客岛”偶尔的独家内部稿件,可以看做是官方一如既往地对党媒的关照。从“侠客岛”的口号——“但凭侠者仁心,拆解时政迷局”,也可看出其对自身推送内容的理解。

其次,中国改革开放三十多年来,国人接触到了许许多多的观念,这使得人们的观念变得多元化。因此,正如对其他市场上的商品的需求一样,人们对于新闻产品的需求也越来越挑剔。一份虽然权威但是风格严肃的《人民日报》是无法满足人们对新闻产品的需求的,因此“侠客岛”选择了新的文宣风格。正如之前那篇报道中“侠客岛”的编辑所言,“ ‘板起脸来讲道理’,对于今天的读者来说,早就行不通了。用读者爱听且熟悉的语言,替读者找到事情的独特角度,帮读者认清当下的重大事件,才适应报网融合时代的要求。报网融合并不是将报纸搬到网上,更不是将办报纸的套路移植到新媒体端,而是必须理解读者想要什么。”

由以上分析我们可用得知:首先,就新闻产品而言,“侠客岛”所能提供的新闻资讯,可以说也是《人民日报》及其其他子媒体所能提供的新闻资讯,即他们提供的是同一产品;其次,“侠客岛”对这些内容一致的新闻资讯进行了不一样的“包装”,即为读者提供了不一样的文宣风格。

如果我们将《人民日报》集团比作是一家餐饮公司,《人民日报》就是集团下属的一家高档餐厅,很少有关人光顾,但有特定的人群会去光顾;而“侠客岛”则是集团下属的一家针对年轻群体推出的低端连锁餐厅。虽然他们都是用的同一个集团提供的食材,但是他们的餐厅包装、食材制作等方面以及目标人群完全不一样。而它们这种分工行为,最终要达到就是最大化集团利润的目的。

或许我们可以造一个词语来形容《人民日报》集团的这种行为,由于“差别定宣”表述得不是很清楚,所以我决定管它叫做,“宣称歧视”(Propaganda Discrimination)。

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

未来的经济学家是怎样的?

文章题目有标题党的嫌疑,好吧,希望文章的内容能给你一些启发。这篇文章,权当是本人就着在经济学领域仅有的一些见识,来随便写点轻松且不严谨的文章。如有不正确的地方,欢迎各位批评指正。当然,更欢迎大家一起来补充这一猜想。

十年之后,经济学领域一定会发现一些变化,但是是哪些变化呢?本文特别好奇的是十年之后的主流经济学家到底会是怎样的一副模样,比如他们会倾向于研究哪些领域的经济学议题,又会倾向于使用哪些方法进行经济学研究呢?基于现有的一些(其实只是本人所了解)资料,本文试图(无厘头地)来对这一猜想进行研(猜)究(测)。

在进行猜测之前,我想现就经济学学科的发展做个简单同时也是简陋的分析。

很多年前,经济学家是不做实证研究的,当时也没用什么计量这类的工具,那个被叫做古典主义的时代,经济学家通过观察现实(税收制度,水稻价格,制针作坊等),来分析经济现象和人类行为;后来发生了边际革命,新古典时代到来了,数学模型开始进入经济学的教科书,“理性人”也成了经济学家的分析对象。经济学家们假定人类是理性的,他们想要做的就是利益最大化(所谓的maximizer)。他们还将这一假设运用到对企业的分析中去,由此形成了微观经济学;再后来,凯恩斯写了《就业、利息和货币通论》,随着美国新政对治理大萧条的成功,凯恩斯的学说被各种各样的学派被吸收,最终发展成今天的宏观经济学。

经济学的发展经历许多,比如布坎南将“理性人”的假设运用到政府中,由此构建了一套“宪政经济学”,科斯在思考“企业为什么会存在”时提出了“交易成本”,由此将“制度经济学”推到“新制度经济学”的高峰等等,但是它们最终都没能霸占主流经济学的征地,也是将经济学领域,同时也是将千千万万年轻一代的经济学家交给了依靠强大的计量方法而异军突起的实证研究。

在这之后呢?经济学领域又会有哪些发展呢?虽然面临着不确定性,而且本人不认为经济学家应该去做一些预测方面的分析,但是基于本人现有的一些了解,大致可就经济学学科发展的趋势谈下个人的一些想法。因此,本文将就研究领域,研究方法和不确定性三个方面,猜想下经济学领域可能存在的发展。这仅是本人自己的理解,但也许可以给同行朋友提供些许有用的讯息,比如同行将来或可在哪些领域进行深入学习,需要掌握哪些技能等。
1. 研究领域

1.1 劳动经济学和发展经济学领域的崛起
忘了在哪里看到,但我记得MIT的经济学家Joshua Angrist曾经建议经济学的学生要在发展经济学或劳动经济学领域进行学术训练。Angrist是著名的《基本无害的计量经济学》的合著者之一,同时也是计量经济学领域的大家,他曾在一期的EconTalk访谈中称自己是一名劳动经济学家(labor economist)。如果没记错,Angrist推荐经济学专业的学生在这两个领域进行学术训练的原因,或许是因为这两个领域中计量方法的运用最为成熟,也就是说,在两个领域有着许多的内容可以进行实证分析,同时也有许多的文献可以提供给经济学专业的学生进行参考学习。

就我个人的感觉而言,劳动经济学领域存在许多优质的微观数据,所以不管是研究劳动力,家庭收入,还是家庭健康,你都能够找到你想要的微观数据,由此便能运用计量进行更细致和深入的研究;而在发展经济学领域,由于现在许许多多的经济学家都在关心发展中国家的各种议题,从最初对援助资金(foreign aid)的关心,发展到现在的关心发展中国家的经济发展,低收入者的储蓄投资,人口健康,甚至政治选举等议题,而且经济学家还从中收集各项微观数据,由此使得发展经济学领域可进行研究的内容大为增加,而且使得这些研究变得更加有意义。这都得益于J-PAL的诞生,所以可以说发展经济学领域已经发生了翻天覆地的变化。

也就是说,保守估计,将来会有越来越多的经济学家研究劳动经济学和发展经济学领域,因为这个领域可研究的议题多,而且所使用的研究方法也较为成熟。

1.2 研究领域涉的扩张
其实很早就存在“经济学帝国主义”的说法,而这种似乎带有威胁和挑衅意味的说法正日渐成为一种事实而不是仅仅停留在人们的口头之间。芝加哥大学似乎也很鼓励这类的研究,从将经济学领域扩张到就业歧视和家庭早期的加里·贝克尔(Garys Becker,劳动经济学领域的先驱),到后来将研究领域扩张到犯罪的史蒂芬·列维特(Steven Levitt),再到将研究领域扩张到媒体的马修·根茨科(Matthew Gentzkow),以及当下运用田野实验研究行为经济学的John List,这四位经济学家都是芝加哥大学的教授。其中,前三者都是克拉克奖的获得者,获奖年份分别是1967,2003和2014(就是去年!)。贝克尔还于1992年获得了诺贝尔经济学奖。而对于John List,虽说他40岁的时候(2008年),克拉克奖没有授予给他(克拉克奖旨在表彰对经济学领域做出贡献的,40岁以下的美国经济学家),但是他也是前途无量,对此下文将会提到。

这里我谈下根茨科(Matthew Gentzkow)。根据2014年美国经济学会荣誉与奖励委员会(American Economic Association Honors and Awards Committee)提供的信息(美国经济学会是克拉克奖的颁奖方),根茨科的获奖理由是“马修·根茨科为我们理解经济力量对媒体产品创造的影响,数字环境中媒体角色的变化,以及媒体在教育和公民参与中所起到的作用方面所做出的基础性贡献”。

但接下来的一句话引起了我的注意,“He has thus emerged as a leader in a new generation of microeconomists applying economic methods to analyze questions that were historically analyzed by non-economists”。也就是说,在新生代的微观经济学家中,根茨科已然成为了他们的领域,而这些微观经济学家们,正在用经济学的方法研究那些以前并不为经济学家所研究的问题。由此可见,经济学领域也在鼓励扩张研究领域的行为,特别是鼓励那些掌握了强大的量化工具的微观经济学家们对其他领域的扩张。

根茨科对媒体的研究很有意思,我了解的也不多,这里就说一点我了解的内容。以往我们都会认为媒体在进行报道时都是保持的客观中立的态度,但是根茨科等人(2010)①发现,媒体在进行报道时也会有自身的立场,而在对影响媒体立场选取的可能因素进行研究之后,根茨科和他的合作者发现,是媒体目标读者的爱好影响了该媒体的立场选取,而媒体主管的品味并不会显著影响媒体立场的选择。

根茨科的创新之处在于,他通过分析美国的共和党和民主党的议员在参议院发言稿中所使用的词语区别,比如同是一件事情,“共和党议员倾向于使用‘死亡税’、’税收减免’、‘个人账户’、‘反恐战争’等,而民主党议员则倾向于使用‘遗产税’、‘减税’、‘私人账户’、‘伊拉克战争’等”②,然后再分析各家媒体在进行报道时会使用哪一类的词语,由此对这些媒体进行分类,并将它们分为亲共和党和亲民主党的媒体。这使得对媒体的分类变得可行,而且也许是能够进行分析的样本大为增加。他们最终发现,报纸报道会产生倾斜,更多地是受需求方(读者)的影响,而不是受供给方(报纸老板)的影响。

也就是说,将来的经济学研究会扩张到越来越多的以往的经济学家并不进行或不感兴趣的领域。而这些领域,很可能会显得极为有趣。如果你想了解一些优秀的年轻经济学家的研究领域,我之前翻译了一篇文章《新世代经济学家》,或许可以给你提供一些你感兴趣的内容。
2. 研究方法

2.1 越来越多的RCT,越来越多的田野实验
其实仅仅用实证领域传统研究方法的成熟(各种对计量和对数据的运用),还不足以说明为什么将来劳动经济学领域和发展经济学会崛起,因此,还需要提及的内容是,经济学研究领域研究方法的进步。

RCT原本只是被用作于医学上的药物测试,而后来被大量运用到了经济学领域,这完全得益于J-PAL的RCT方法上运用的成功。RCT的全称是Randomized controlled trial,中文名可以翻做“随机试验”。在医学领域,为了测试药物的有效性,研究者往往对病人进行随机地分组,然后对不同组别的病人进行不同药剂的服用,然后观察这些药品各组病人的作用。简单来说,就是模仿自然科学中的随机试验方法,将想要研究的对象分为“控制组”(control group)和“实验组”(treatment group),并通过随机取样的方法决定哪些人分入“控制组”,哪些人分入“实验组”。在样本足够大的前提下,观察政府实施的某一政策或NGO实施的某一援助方法,对“控制组”(不是是该政策或援助)和“实验组”(实施该政策或援助)进行一段时期的不同干预后,看这些组别中分别会产生什么后果,以达到评估的效果。

这里有本书,详细地介绍了J-PAL中的RCT是如何操作的,Running Randomized Evaluations。两位作者本身也是J-PAL的成员。

另外就是,会有越来越多的经济学家使用田野实验的方法进行研究。John List率先兴起用田野实验方法来进行各种研究,以至于他能在经济学五大顶级期刊上狂发文章,并从一个非常春藤的毕业生华丽转身为芝加哥大学的经济学教授,可谓独领风骚。对List的研究感兴趣的同学,可以参见他之前出版的《The Why Axis》,而对“田野实验”感兴趣的同学可以看下豆瓣上的这篇书评《经济学家的新工具:田野实验》

其实这些都还不是重点,重点在于,为什么说将来会有越来越多的经济学家用RCT和田野实验的方法进行研究呢?

这还得从经济学家如何收集数据说起。以往经济学家都是根据现有的一些数据来进行研究,之后便学会建立各种项目收集更优质的微观数据,这些微观数据库往往特别庞大,研究人员所需要的并不是该数据库里面所有的数据,而是依据他们的研究需要而对这些数据进行筛选,然后再进行分析;J-PAL则是为了评估某一政策而直接进行随机试验,然后跟踪收集任何所需要的数据,但不收集那些与他们研究无关的数据。也就是说,J-PAL显示出一种新的能力,即经济学家可以根据自己想要研究的内容来收集对应的数据。同理,田野实验也是如此,

RCT和田野实验另外一个超然之处在于它们在研究变量之间“因果关系”方面有着独特的优势,这得先说下变量之间的“相关关系”(correlation)和“因果关系”(causality)。变量之间如果存在“相关关系”,比如说有人发现,“雾霾越严重的城市,经济发展越好”,所以经济学家会依此推断,“工业化有助于经济发展,我们应当大力推进工业化,虽然可以会带来雾霾这一副作用”吗?不是的,经济学家可没有那么蠢。经济学家会指出,这一发现存在内生性问题,或者说“互为因果”的问题,即完全有可能因为一个城市经济发展越好,说明这所城市工业越发达,由此带来越严重的雾霾,而不是反过来说“雾霾促进经济发展”。也就是说,“雾霾”和“经济发展”这两个变量之间存在正向的“相关关系”,但是它们之间到底是谁因谁果,还不得而知,也就是变量之间的“因果关系”还不清楚。

以往的经济学家都在进行实证研究的时候,鉴于数据的局限,大多都是研究变量之间的“相关关系”问题,而只有少数的经济学家能通过巧妙地构建“准试验设计”(Quasi-Experimental Design),在现有数据的基础上,进行“因果关系”的研究,比如兰小欢的博士论文,这里有篇他写的文章《博士后的困境》介绍了他的这一研究(内有福利,不要错过)。而现在,通过J-PAL的RCT方法,和List的田野实验方法,经济学家能够通过构建各种实验,来对变量之间的“因果关系”进行研究。

总得来说,由于RCT和田野实验在收集数据和进行“因果关系”研究之间的优势,使得它们将会在未来被越来越多的经济学家所使用。

2.2 从线上(online)挖掘数据
经济学家似乎正变得越来越无所不能,他们不单单要学习经济学知识和运用在经济学领域的数理知识,还要自学LaTeX来为自己的论文进行排版或制作幻灯片,还要学习编程等(因此人们吐槽说经济学家就是不爱看书)。经济学家越来越不像是一名社科学者,反而越来越像一名十项全能的参赛选手。

将来的经济学家会怎样呢?有一个趋势是会有越来越多的经济学家想着从线上挖掘数据,因此如果你看到有经济学家写了一本《如何用Python挖掘数据》之类的指导手册或者书籍,你也不用觉得奇怪。

为什么会是从线上挖掘数据呢?答案很简单,因为网络上到处都是(数据)金矿。现实生活中也会产生很多数据,比如我们如果要知道医改的实施对提升病人健康到底有没有作用,我们可以收集医院的数据来做一些可能的研究,但是院方并不是为经济学家可能进行的研究而为他们提供专业而且详细的数据,事实上,医院会很正常地拒绝对外提供病人的数据。所以说,线下虽然存在很多数据,但是收集起来会有很多限制,但是线上的情况就不同了。要知道互联网本身就是一个数据库,每天跟互联网打交道的人都是在“生产”各式各样的数据,而挖掘这些数据并且分析它们,将会可以做出一些很好玩的研究。

但是挖掘线上数据的一个要求是你需要掌握一定的编程能力,或者你有个计算机系的合作者。我的编程能力不是很强(不然很多想要做的研究早就可以做了。。。),但是我注意到Python能较好地实现爬虫性能,即将Python比作一只蜘蛛,让它在互联网这张大网上爬各个页面,没日没夜地抓取各种数据,单程地爬,多程地爬,想想也怪可怕的。。。

不管怎样,将来利用线上的数据进行的研究会越来越多,就像现在的经济学家普遍会掌握一两个统计软件一样。到时候也许会存在越来越多的操作简便的软件更好地帮助经济学家实现这些功能吧,以解放经济学家的双手,让他们能有更多时间去研究数学(#误)。。。

3.不确定性
当然,最后要讲的内容就是不确定性了。经济学学科将来会怎么发展,面临着许许多多不确定的地方。也许有一天,一个像凯恩斯一样的天才人物就出现了,彻底地改变了经济学的发展轨迹;而更可能地来预测,也许计量领域会出现其他很棒的工具,这样经济学家做更多的研究了。

注:
①Gentzkow, Matthew, and Jesse M. Shapiro. “What drives media slant? Evidence from US daily newspapers.” Econometrica 78.1 (2010): 35-71.

②引自 《亚洲周刊》的《經濟學家撥開媒體客觀公正性迷霧》一文,http://www.yzzk.com/cfm/content_archive.cfm?id=1399520706128&docissue=2014-19

 

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

手段与目的

也许很多人会感到很奇怪,为什么经济学专业的学生要那么关心敲代码这件事情,为什么经济学专业的学生要数学学得好。敲代码,是为了利用统计软件(Stata, R ,SAS等等)来分析数据,从而进行实证研究;而学习数学则是为了便于建模和模型推导。

其实,如果一个经济学专业的学生想要获得同行的肯定,或者说想要在经济学专业深造,一般都得关心计量和建模。当然,也不是所有的经济学专业的学生都关心这些东西。但是对于这些人来说,他们如果还想要继续深造的话,往往得转读其他专业。

但是不管如何,我觉得,计量和模型都只是帮助我们更好地理解这个社会的两种手段,而并非目的。也就是说,我们收集(或挖掘),敲代码,分析数据,运用计量知识进行实证研究等,和我们学习数学,建立数学模型和对模型进行推导等,都是为了“我们能够更好地理解这个社会”这一目的,这些内容本身并不构成我们所追求的目的,它们仅仅是手段。

我也知道听过有经济学专业的博士,毕业之后就转行去计算机公司,或者转做数据分析师。就像也可能会有经济学的博士毕业生毕业后选择用定性研究和案例分析等方法来研究经济史,制度变迁,经济思想等。这些都是很正常的事情,不可能一个专业的毕业生都是做的一个职业。所以这篇文章讲述的对象,还是做为知识生产者的主流的经济学家。

但是我认为,对于一个想要更好地理解这个社会的经济学家来说,不可以将手段与目的弄混。

这时也许有人会问,“为什么一定要借由建模和计量的方式来学习经济学?经济学界的鼻祖——亚当斯密也不会那么倾向于使用数学来理解这个社会呀。”

对于这个疑问,首先我想消除他对经济学学科的理解偏差,然后再来回答这个问题。

什么叫“对经济学学科的理解偏差”?我们假设有一个非经济学专业的学生,他想要通过阅读来理解经济学,但是发现读的经济学的著作越多反而越不理解数学在经济学领域的运用。我觉得这是一个很普遍的状况,如果遇到这样的情况,就可以说这个人对经济学学科不了解,或者说对其了解有偏差。

为什么会出现这种有趣的状况呢?其实这个问题很简单。我们再假设经济学书籍分为两类,A类是经济学教材,上面铺满了模型;B类是没有数学内容的经济学著作。那么对于上面提到的人来说,他读的经济学方面的书籍是很多,但是由于他自己的一种对“在经济学领域大量运用数学”的排斥,他会倾向于阅读许许多多的B类书籍。如果我们将一本本书籍比做一个个样本,经济学家便会说,他的取样是有偏差的,因此这必然导致了他对经济学学科的理解是有偏差的。

如果消除了这个人对经济学学科的理解偏差,这个人便会这样想:“原来经济学学科并不是一个只用定型分析或案例研究等方式来研究经济现象或者人类行为的学科,它更多的还会用数学模型和实证研究来理解这个社会。”而在消除了这种偏差之后,我们回过头再来看下上面的那个问题,即研究经济学有那么多的手段,为什么你们要偏偏选择偏数学而不是偏人文的手段呢?

其实这个问题并不能够成问题,真正构成问题的是经济学家可能会将手段与目的弄混,或者在大量运用数学知识之后,经济学学科的发展是否会产生不良影响。对于后者我还是挺乐观的,而对于前者,我觉得提问者是没有意识到数学工具的强大力量。

我们不能总是抱着亚当斯密的书来理解经济学学科的发展,要知道,在亚当斯密的年代是没有个人电脑的。在今天,大多数年轻的一代习惯于每天都跟网络接触,而这些人的父母一辈,年轻的时候可不曾接触过个人电脑是什么。正是因为计算机的进步才使得将统计学的潜藏力量运用到经济学乃至其他社会学科变得可能。在以前,人们只能做些简单的统计分析:柏拉图在《理想国》对接触到的政体进行分析归类;韦伯的《新教伦理与资本主义精神》这本书的出发点也在于对一个统计分析结果的探究,即对其学生奥芬巴赫在论文《信仰与社会分层》中对德国巴登州不同信仰群体的课税和教育状况的统计学分析(在此推荐下郁老师的Coursera课 “《新教伦理与资本主义精神》导读”)。但是在今天,就像互联网、个人电脑、智能手机等全面地改变了人们的生活习惯一样,这些科技的进步也可以说是深远地影响了经济学学科的发展。

在去年出版The Why Axis 的序言处,畅销书Freakonomics一书的合著者之一,同时也是在The Why Axis 一书的合著者之一的J. List在芝加哥大学的同事Levitt,这样写道:

“Historically, economics had been a discipline dominated by theory. The big advances had mostly come from impossibly smart people writing down complicated mathematical models that generated abstract theorems about how the world worked. With the explosion in computing power and big data sets, however, the economics profession was transformed in the 1980s and 1990s. Empirical research—the analysis of real-world data—increasingly became the focus of many economists. It became respectable for a young economist like me, having figured out I was not nearly smart enough to come up with fancy theoretical insights, to spend my time toiling in the data looking for interesting facts.”

我看到这里也不得不感叹,正如Levitt在上文所说的,如果不是因为计算机的进步(个人电脑都能做统计分析了!)和大规模数据的出现,这才使得想我这种非数学天才同时也对建模无感的经济学专业的学生在进行研究工作时有了更多的选择。(其实这里还要感谢各个天才经济学家为计量工具的进步所做的贡献)当然,对建模无感,这仅仅是我个人的感受。客观来说,经济学教科书上的每一个模型,都是经过了许许多多的竞争和质疑,及同行评议等才留下来的产物,可以说是数学天才的作品。经济学学科中的数学模型为我们更好地理解这个社会有着其特有的贡献。

就数学建模这一手段而言,我无法多谈些什么,但是我可以谈下实证研究正在如何帮助我们更好地来理解这个社会。

上面提到的两本书,The Why Axis和Freakonomics,以及Levitt后来的Superfreakonomics等,都是实证研究的产物。

在The Why Axis中,两位作者通过巧妙地构建各种田野实验来获取他们想要的数据(这不是天然的数据,而可以说是对相应变量进行控制值后的实验数据),然后他们在对这些数据进行实证分析。举个书中的例子,他们为了研究男女性别差异如何地导致了今天社会上男性的工资和社会地位普遍要比女性高这个问题,他们通过在网站发布两份虚假的招聘信息,而这两份招聘信息唯一的差别在于前者寻求的报道娱乐信息的新闻助手,而后者寻求的是报道体育赛事的新闻助手。而在收到将近7000份感兴趣的申请后,他们告知一些人他们的工资是按照每小时15美元付费,而告知另一些人他们的工资是按照每小时12美元付费,但是他们的活做比他们对应的那一位处于竞争关系的同事好的话,他们还会有额外的6美元奖金收入。他们发现,申请体育类新闻助手工作的女性只有53.8%,而娱乐信息类的女性占比为80.5%,这并不让人感到奇怪。真正有趣的地方在于,在告知了工资的支付规则之后,他们发现,相较于男性,女性并不喜欢竞争型的工资支付规则。事实上,男性比女性选择在选择竞争型的工资支付规则的意愿上大强70%。他们还发现,在申请竞争型的工作的女性相较于申请该工作的男性,她们的履历往往更优秀。

我没有看过Levitt的Freakonomics,但是曾经在斯托克和沃森写的《计量经济学》教材上看到过Levitt对犯罪的议题的一个研究。Levitt(1996)研究的内容是将罪犯关入监狱会减少犯罪吗?即研究各州的监狱人口与犯罪率之间的关系。因为这里存在互为因果(或内生性)问题,即你想要研究的是监狱人口对犯罪率的影响,但是你会发现犯罪率也会对监狱人口反过来造成影响,因此Levitt在此用“针对减少监狱过分拥堵的诉讼”作为工具变量,来研究这个问题。(这里解释起来比较复杂,感谢的同学可以具体去看下这篇论文,文章结尾处有这篇论文的具体信息。)我想要在此说的是,正是因为实证研究这一手段的强大,使得经济学学科可以研究的议题增加许多,这也使得经济学领域的研究充满乐趣。而对于实证研究兴起之前的传统的经济学家来说,他们是不会对犯罪这种议题产生研究兴趣的,当时能研究的内容要较现在狭窄得多。

对于The Why Axis和Freakonomics,还有去之前看过的Poor Economics,Why Nations Fail等书籍,都可以说是经济学家的通俗版的论文集。为什么这么说呢?经济学家一般都是通过先对自己感兴趣的领域进行实证研究,然后将这些论文投递给各大期刊(由于优秀的经济学期刊审稿周期很长,为了将最新的研究内容呈现给人们,顶尖的经济学家一般都会先将这些论文当做working paper发布出去。据我所知,好像working paper也是可以引用的),最后等到一篇篇的研究统一领域但是不同议题的论文发表在期刊上之后,经济学家们为了将他们的研究发现介绍给非专业的读者,他们便会将这些研究通俗化之后(一般都是配上一些吸引人的小故事),写成一本书进行出版;或者先出版一本严肃的论文集,然后在通俗化这本论文集(正如Acemoglu和Robinson的Economic Origins of Dictatorship and Democracy与Why Nations Fail;NYU几个政治学教授写的The Logic of Political Survival和The Dictator’s Handbook)。

这里说明的两件事情:一是对于经济学家来说,发表论文的激励要大于出版书籍,所以如果你想要研究当下经济学研究的前沿内容,一般都会选择看他们的working paper或者发表的论文,而不是看滞后了一段时间才出版的书籍。而且这种书籍的内容都写得很简单且啰嗦,书籍风格跟他们干脆利落、逻辑严谨的论文风格形成鲜明对比;二是,当下很多经济学家(也有不少其他社科学科的学者)写的书籍,都是实证研究的结果,由此可以看出实证研究对经济学的影响之大。当然,如果你不看这些书籍,你就不会感受到经济学学科正在发生的极具活力的变化,这又一个书籍的选取偏差问题。

在文章的结尾,还需要提下Poor Economics,这本书的作者Banerjee和Duflo夫妇(同是MIT的教授)和由Duflo领导的成立于2003年的J-pal。直到今天,J-pal已经在全球五大洲建立了将近600个评估项目,具体参见J-pal官网的Evaluation Map。这些评估项目,是学者,NGO和当地官员三方所进行的一种合作,致力于用更科学的方法来对某一政策的有效性进行评估。比如今天中国政府面对着对土地流转,户籍改革等政策进行评估的需求,而且中国的省份那么多,完全可以用随机实验的方法来进行政策评估(估计有些地方已经在做类似的政策评估了)。但是由于不选在讨好选民的需要,中国的地方官员不会存在激励去对自发地对其所欲施行的政策进行评估。而J-pal的成功在很大程度上归功于实证研究,Duflo也由于J-pal的成功以及其各种评估项目的成果而获得了克拉克奖(小诺贝尔经济学奖,颁给40岁以下的杰出经济学家)。

经济学人也曾经写过一篇文章介绍这个项目,见Random Harvest。另,这里有一篇文章发表在《新知》上的文章《贫困的细节》,可以借此更加了解下J-pal这个机构和他们所使用的随机试验(RCT)方法。

综上所介绍的经济学家做研究的手段我们可以知道,一昧反对在经济学领域运用数理知识,不客气地说,这可以说是一种反智的体现。而这些手段最终会帮助我们更好地达到我们的目的吗?还是会像马克思的资本论模型一样对人类造成伤疤累累的巨大影响?我也不知道会是怎样的一种结果。但是我认为,具体的内容应该具体分析,很难用一个结论来进行粗暴地好坏划分;而且以往的许多对在经济学领域运用数理知识的批评都是建立在误解或者说不理解的基础之上,其实这是完全不必要的。

就我个人而言,我完全不反对定性的研究作品,我也乐于学习非经济学学科的其他社科知识。正如这篇文章所要表明的那样,不管是定性还是定量,文字资料还是大型数据,都仅仅是我们借由来更好地理解这个社会的手段,而不是目的。

而那些经典的非定量研究的著作,曾经给过我们人类巨大的思想启发,也给人类带来因对其的理解不一而产生的巨大争论,但这些都使得这个社会变得更加开放多元。我相信,他们不仅仅曾经冲击过我们,将来也会成为人类巨大的思想武器。而那些伟大的思想,就如凯恩斯所说,我们这些平庸的人类最终会发现自己终将受到它们的影响。

文中提到的文献:
Levitt, Steven D. “The Effect of Prison Population Size on Crime Rates: Evidence from Prison Overcrowding Litigation.” The Quarterly Journal of Economics 111.2 (1996): 319-351.

 

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

关于实证研究的一些想法

最近都在忙本科的毕业论文。

我研究的内容是中国城乡劳动力(Rural-to-ruban Migrates)的短期流动,即我想知道,对于那些在农村中、持农业户口的人来说,什么因素会影响到他们去城镇工作或者寻求工作。我使用的数据是IZA的RUMiC2009项目中提供的数据集。在论文中,对数据进行基本的统计学描述是必须的。而对于一个经济学专业的学生来说,对本科论文的选题进行实证分析也是不可或缺的。

而对实证研究接触越多,我就对其越加了解,由此也越是喜欢。我觉得很多朋友会有这样一种感受,即对在经济学或社科领域引入大量数学分析表示质疑或担忧,特别是那些靠阅读书籍自学来了解经济学及其他社科知识的朋友。 虽然目前我对经济学学科依然存在许多质疑和忧虑,但是在我更加了解实证研究之后,我对在经济学中运用数据(往往是大规模的数据集)和计量工具(统计学的应用)进行实证研究表示乐观,并想和大家分享下我为什么表示乐观,或者说在哪些方面上的想法发生了改变。(具体而言,这里探究的内容仅仅是经济学或其他社科领域中的实证研究部分。因此,这里提到的经济学家,和其他社科领域的学者,都是指的是进行实证研究的学者。)

首先,需要说的是,用实证研究(简单来说就是数据加计量)进行因果分析有着其统计学的基础。实证研究方面使用的计量方法并不像大多数批评者所说的那么没力。恰恰相反,计量工具在快速发展,各种各样的计量工具有着其对应的适用范围,这使得实证研究的可行领域在不断扩大。而且有越来越多的经济学家都在为更合理且巧妙地使用计量工具而做出贡献。值得一提的是,不少诺贝尔经济学奖都是颁给了对计量有所贡献的经济学家,如“计量经济学”词汇的提出者Frisch(1969),Tobit模型的提出者Tobin(1981),计量经济史领域的Fogel(1993)和发展了离散选择数据分析的McFadden(2000)等。

其次,我们可以聊下数据质量及操作数据的问题。很多人都会质疑数据的可靠性,特别是接触过政府的统计部门提供的数据的朋友。而且,还有很多人们还会质疑经济学家在进行研究分析的时候是否会刻意选择数据,来使得统计内容或回归结果符合他们提出的一个观点。换句话说,当统计或回归结果与经济学家提出的观点相悖时,他们是否会保留这个数据结果。

关于数据质量,其实也是很多经济学家关心的问题。政府的统计部门究竟在多大程度上为我们提供了质量低下的数据,我们不得而知。但我想提及的是,经济学家并不是一个不关心数据质量的群体,相反,经济学家经常会在论文中对自己所使用的数据的质量优劣进行竞争;经济学家也不是一个会刻意制造虚假数据的群体,(虽然不缺乏制造虚假问卷结果的经济学同行,事实上,这样的群体在哪个领域都不缺乏),相反,经济学家们正在通过建立各种数据的收集、跟踪项目,来为研究者们提供质量更高的数据。北师大的CHIP项目(也是我论文所使用的数据)和北大CCER的CHARLS项目即为在中国的两个例子。经济学家和普通大众一样,当听到“地方提供的GDP数量的总和超过中央测算的GDP数量”这样的消息时,都会感到气愤和质疑政府发布的数据(我很质疑政府发布的GDP增长速率),但是与普通大众不一样的是,经济学家会试着通过不一样的数据来源(比如上面提到的项目),和不同的测量计算方法(比如用发电量来测量地下经济量,比如不同的失业率定义)等方式,来对政府的经济数据测量提出质疑。可以说,当政府显得很不负责任时,经济学家会成为一个专业的批评者。

另一个数据质量方面的质疑是,即使存在严谨的数据收集过程,被调查者提供的数据是否会存在质量问题,特别是主观程度上的数据。比如说个体的幸福程度,我们可以通过数据来还原个体的幸福程度吗?关于个体的主观感受,我想说经济学家并不想通过数据来精确还原个体的主观感受(事实上,任何学科都不会这么做,将来神经学科会不会这么做我不知道),而只是试图通过数据来反映个体主观感受的程度。而且,这类质疑往往是对调查的提问方式不了解才产生的,经济学家在进行调查时会这样问被调查者,“你在找寻工作的过程中,是否会感到压力很大?是的话为1,否的话为0”;或者这样问,“请用下列数值来描述自己抵抗风险的程度”,然后要求被调查者在1到10的坐标中刻画自己的位置,就如用坐标来测量政治价值观上左右倾向一样。而对客观数据的使用就司空见惯了,我们也经常会用“年龄”、“体重”或“身高”这样的测量值来表达对自己的理解。

值得一提的是,在进行田野的数据收集过程中,会出现各种各样的问题,比如数据收集者本身的操作失误,被调查者的问题(比如在问题一认为10头牛大于5头羊,而在问题二认为15头牛小于3头羊)等等,因此,这里更显现出实证研究的统计学的力量。经济学家通过统计学的基础来排除这些我们称之为“误差值”和“偏差值”的样本。

至于数据操作。很多人觉得,经济学家会通过操作数据,来改变统计内容或回归结果,由此来获取自己的学术利益或政府资助。确实,经济学家也在担忧这个情况,而且也有许多经济学家以为论证政府颁布的新政策的正确性为荣(还是那句话,这种人在认识领域都存在。可能只是因为经济学家跟政府互动较频繁而较为显眼)。经济学家可以通过使用不同的测量指标、测量方法和控制数据取值范围等方式来操作数据,因此来操作统计或回归结果。其实,正如对于如何解释社会不同的人会有不同的方法一样,经济学家们也有不同的方式来解释经济现象。而当经济学家运用不一样的指标来解释经济现象时,争议是不可避免的。但是我们可以相信,通过越来越多的争论,人们便会达成一定的共识,而这种争论在经济学界并不缺乏。

而通过操作数据来改变回归结果是很难的事情,因为回归结果有着其统计基础,经济学家对于回归结果也是无法预测的,因此并不是说经济学家想要有怎样的结果就能达到怎样的结果。实证研究没有有些批评者(往往是对计量一窍不通)提及的那样“神奇”。当然,经济学家可以通过制造虚假数据来改变回归结果,特别是当样本较小的时候。如果经济学家想要在大样本(比如观测值大于一万)的情况下伪造回归结果,那么他就必须要伪造几万甚至十几万以上的数据值,而且这样的伪造之后的数据的回归结果到底是什么,也是不能由该位”经济学家“(这种造假手段实在效率低下,情节恶劣无趣,以至于不能称其为”经济学家“)所掌握的。这里我们也可以看到统计学的作用,数据也许可以欺骗人,但是基于数据的回归结果是不会欺骗人的。如果一个经济学家通过伪造的数据来达到自己想要的一个结果,那么同行很容易通过对同样的指标进行数据收集,做出一个与前者相悖的研究。

在这里我想特别提下经济学家对于质疑的态度。经济学家在做实证研究的时候,经常会问自己,”我所做的研究到底有什么意义,它对学科的发展会有所贡献吗”(其实做实证研究的社科领域的学者基本上是抱着“要做出贡献”的原则来进行实证研究)。经济学家鼓励贡献,因此他们是带着坦诚的态度来进行研究的。经济学家自身就对同行进行过许许多多的质疑,比如样本选择偏差的问题,实证研究的内生性问题(互为因果问题)等等。

总的来说,经济学家进行实证研究时,是依靠着强大的数学(特别是统计学)基础建立起各种计量工具,通过提高数据质量,创造性地建立起各种田野实验和准试验分析,来理解这个社会的。经济学家认为,数据的回归结果是一个客观事实,而到底是怎样一种机制导致了这样的客观事实(就像存在一个黑盒子,里面到底是怎样的还不得而知,或者需要更进一步的研究),经济学家对其提出各种可能的解释,并且通过自身后续的研究或者同行的研究,来验证自己当初提出的这个可能机制的正确性。

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

在Mac上使用LaTeX,一份简单的指导

也许你跟我一样,手头上的笔记本是带OS X系统的Mac,而不带Win系统;也许你又恰好跟我一样,仅仅是听过LaTeX,但现在需要学习如何使用LaTeX,以更好地完成自己的学术工作;也许你又恰好想在认真并花费一定时间学习LaTeX之前,需要一份简单的指导。

那么,这篇文章刚好可以给你提供你需要的内容。

 

1. 所需软件

我使用的软件是MacTex,其实下载安装后你会得到一套软件。点击MacTex 之后,即可看到MacTeX.pkg 字样的下载链接,点击下载好pkg格式的MacTex软件之后即可安装。这一软件及其安装包的一个被人诟病的特点是太大,我写这篇文章的时候,MacTex提供的安装包大约是 2.4G(25 May 2014的版本)。

2.学习教材

安装好之后,你会发现电脑上多了很多程序,打开其中的TeXShop,你便可以在上面进行LaTeX的编译。LaTeX的编辑可以在很多编辑器上完成,但是如果你想要预览或生产PDF文档,你需要将你编写的内容放在TeXShop上进行编译。

这个时候你或许会问,“我都完成不了解LaTeX,有了这些软件我也不知道怎么去制作那些规范的PDF文档?”所以,现在就需要花费一点时间,去阅读和学习关于LaTeX的知识。我推荐这份《93 分钟学会 LATEX 2ε》,对于LaTeX的入门者需要的大部分内容,你在这里都能学到。虽然这是一份完成于2002年5月的文档,但是文档里提供了相应的链接,以便读者能从中获取与LaTeX有关的最新内容。

 

看完《93 分钟学会 LATEX 2ε》,你学到了关于LaTeX的具体知识。但是在运用MacTex这套软件时,你还有需要学习的地方。这里讲与这套软件的使用有关的两个内容——如何在MaxTex中使用中文和管理参考文献(下面第4,5部分)。

 

3. 编辑器的选择

我们可以选择直接在TeXShop上编写LaTeX,也可以选择别的编辑器进行LaTeX编写。就比如当你想要写一篇文章时,你可以选择直接在Word上编写,也可以选择在Pages上编写,具体选择哪一款编辑器就看个人偏好。

那么在Mac上进行LaTeX编辑,有哪些优秀的编辑器可以选择呢?在知乎上,有篇《有哪些好的 LaTeX 编辑器》的帖子可以参考下。我之前试着下载了texmaker和LyX,发现前者在Mac上会出现乱码(不知道是不是需要设置下),而后者显得笨重而且会强迫你按照Word的编写方式来编写LaTeX(当然,如果你有这种偏好,LyX是一个不错的选择)。也就是说,这两款编辑器都无法让我感到满足。而后来我遇到了Sublime Text…

Sublime Text有着许多优点,轻小灵活启动快,跨平台,支持诸多代码高亮(而且代码亮得特别酷炫),无限期的免费使用权限等等。用Sublime Text编写LaTeX安装其他的一些插件和一款软件Skim,需要的都是些不难的设置。具体的安装,可以参考这篇写得很清楚,界面也很清爽的博文,《在Mac上通过Sublime、Skim编辑LaTeX》

一切都安装好后,这里还有两点补充。

一是,如果编译的时候提示

“LaTeXTools: you need to migrate your preferences. See the README file for instructions.”

则打开Pallte(Command + Shift + P)输入如下命令即可。

LaTeXTools: Reconfigure and migrate setting

二是,如何支持中文的问题,我也还在找解决方案。待完善…

 

4. 在TeXShop上使用中文

我们也可以直接在MacTex中的TeXShop上编写LaTeX代码。这谈下如何在TeXShop上编辑中文。

在win下有CTeX可用(我没用过),但在OS X系统下其实也能实现中文输入,但是或许有些缺陷。这里推荐的文章是《在TeXShop中使用中文》。

文章中列了两种方法。

方法一(也是我使用的办法),需要注意两点内容,一是要选择“XeLaTeX”,二是要将编码设置为“Unicode(UTF-8)”;

方法二,是添加CJK宏包。需要指出的是,CJK宏包支持的是繁体字(可见发明者必然不是大陆人),所以其生成的结果中,那些与繁体字不一样的简体字将会无法显示。打个比方,如果使用方法二在TeXShop中输入中文,如“语言”,会发现输出结果只会显示为:空格+“言”字(即“   言”)。因为在繁体字中,“语言”写为“語言”。

5.管理参考文献

你可能想要利用LaTeX编辑一篇规范的学术论文。在你管理论文的参考文献的时候,你可能需要了解如何结合TeXShop和BibDesk,更高效地对参考文献进行管理。

我在这里推荐一篇博文,《LaTeX笔记——citation引用文献》,这篇讲得很清楚而且详细(网上不乏编排混乱或内容错误的这方面的文章)。值得指出的是,原文中有个小错误,作者在文中将“\cite{XXXXX}”错写成“/cite{XXXXX}”,虽然这是很基础的内容,但是对于初学者来说,每一处细节都显得很重要。

也许很多朋友会发现这篇文章无法访问,那么可以看下这篇内容较为简单的介绍,《在latex上使用BibDesk》。我在看这篇文章的时候,有些理解错误的地方(或许是台湾人的表述方式跟大陆人不一样),因此在此指出给各位并做些补充。①在原文的第二步中,“./reference”就是指带".bib”后缀的BibDesk文件名称;②而在第三步,你需要打开texshop,然后按照“ Macros->Applescript->Bibliography”的步骤点击“Bibliography”并进行编译,最后再使用“command+T” ,就可以得到你想要的结果。

6.其他

我也还在学习LaTeX,所以本文还会有一个后续的补充和修改过程。

如果你对本文有任何问题或建议,欢迎留言评论给我。

 

欢迎转载,转载请注明出处。

注:如有错别字错误,欢迎各位指正。:)

联系我

 

Share