注:今年6月份几个数据库都公布了新一轮的数据,本文没有及时更新,相关介绍可参阅何晓波老师的文章《2016年6月最新中国微观经济数据介绍》。(写于09/17/2016)
——————————————————————————————————————————————————————————————————
本文介绍了目前国内劳经领域一些主要的微观数据库,并且附上数据申请下载地址(公开免费)。当然,国内还存在许多其他不公开的数据,一般都是由学校的教师带队进行收集和整理工作,由于公布的成本过高,所以并没有公开。如果你想做实证研究,多了解下国内的微观数据库或许对你的研究会很有帮助。另外,我了解的也不全面,如果各位觉得我漏掉了某些微观数据库,或觉得我的评论有什么不恰当之处,欢迎各位留言交流。
1. CHIP
CHIP全称是 Chinese Household Income Project,中文名为中国家庭收入调查。
CHIP项目主要由北京师范大学的中国收入分配研究院(CIID)主持,申请过程很简单,只需要你提供基本的信息,经过审核之后即可下载数据。
CHIP项目从最早的CHIP1988到最新公开的CHIP2008,该项目已经有20年的历史。以往有许多文章用CHIP数据来研究城市和农村的劳动力,以及城乡之间的收入分配等议题。最近Juan Yang等人(2014)发表在CER的研究中,他们使用CHIP2002和2007的数据研究了中国农村地区子女中学入学的影响因素的变动情况。
值得一提的是,以往的CHIP数据只有农村和城市的住户样本,而在最新公布的CHIP2007和2008数据中,除了城市和乡村住户之外,第一次加入了城乡劳动力(rural-to-urban migrats)这一群体。而且,官方说CHIP2007和2008可以构成一个两年的面板数据(但是我对此很怀疑,因为我发现CHIP2008很多内容都跟CHIP2007是一样的,都是2007年收集的数据内容。因此个人认为,如果要使用面板数据进行研究,我暂时不会考虑用CHIP,而是考虑用CFPS)。
CHIP2007和2008也是我本科毕业论文所使用的数据,但是我最先接触到的并不是北师大的CHIP数据。由于我的老师刚从美国回来,我给她担任研究助理期间,她跟我推荐了IZA的RUMiC2008和2009数据,所以RUMiC也是我申请的第一份微观数据。后来我发现这跟CHIP2007和2008实际上是同一个的项目。
附上CHIP申请地址
2. CFPS
CFPS全称是 China Family Panel Studies,中文名为中国家庭追踪调查。
CFPS项目由北京大学中国社会科学调查中心(ISSS)主持,申请除了需要你的信息之外,申请使用的邮箱需要一个edu后缀,即是教育系统的邮箱。申请审核通过之后,你的edu后缀邮箱会收到CFPS提供的密码,即可下载数据。另外,CFPS的问卷可以直接在官网上获取,只有数据是需要申请的。
CFPS虽然只有2010,2011和2012三年数据,和一份测试调查数据,但是从问卷中即可看出,CFPS包含的内容远比CHIP丰富。CFPS2012的面访问卷就足足有251页,而CHIP2008中较长的城乡劳动力的问卷,也仅仅只有30页。另外,CFPS2010,2012可以构成面板数据。
我看过的使用CFPS进行研究的文献虽然不多,但是我发现一个有趣的地方,就是许多人利用CFPS研究农村的金融状况。后来从问卷中我发现,CFPS包含了农村家庭的资产,投资等状况。虽然金融不是我的研究方向,但我也大概能意识到研究当下中国农村住户的金融状况有着其重要的意义,这一研究大概就属于发展中国家小额金融(micro-finance)的研究内容的一部分。另外,西南财经大学的中国家庭金融调查(CHFS)也是研究金融的不错的数据库,但是我的研究方向并不是金融领域,因此没有过多关注。
附上CFPS申请地址
3. CHARLS
CHARLS全称是 China Health and Retirement Longitudinal Study,中文名为中国健康与养老追踪调查。
CHARLS项目跟CFPS一样,也是由北京大学中国社会科学调查中心(ISSS)主持。申请需要基本的个人信息,并不需要edu后缀的邮箱,通过审核并没有什么困难。
CHARLS,如名字所言,主要是关注中国老年人的医疗保险,养老金等方面的议题。CHARLS目前包括了2008年的两省数据,2012年的两省追踪数据,2010年的全国基线调查数据和2013年的全国基线追踪数据(今年1月底刚刚公开的数据)。前两者和后两者分别可以形成面板数据。
由于看的文献比较少,我并不熟悉老年人的医疗保险和身体健康等领域。但是我之前看过一篇特别让我感兴趣的文章,有学者利用CHARLS数据研究“大饥荒”对健康的长期影响(马光荣 2011)。因为CHARLS收集的是老年人的信息,这些人年轻的时候可能经历了中国58-61年的三年大饥荒,所以刚好可以使用当下的微观数据来研究历史事件造成的长期影响,我觉得这真是一个很有趣的研究。
另外,CHARLS在今年会展开新一轮的基线数据调查,这也是北京大学公选课“社会经济调查理论方法与实践”的暑期实践项目(这门课的老师还是赵耀辉!北大的学生就是幸福 ,>。<)。不过我作为非北京地区的学生,申请并入选了今年的CHARLS访员(参见北大的CHARLS第一批访员的录取名单)。所以今年七月初我会在北大上培训课,然后跟着大家伙到实地去帮CHARLS项目收集一个月的数据。
4. CHNS
CHNS全称是 China Health and Nutrition Survey, 中文名为中国健康与营养调查。
CHNS项目由北卡罗来纳大学的Carolina Population Center主持,申请没有一点困难。但是CHNS提供的数据类型与刚刚介绍的几个项目提到的数据类型不一样,是需要用SAS软件打开的带sas7bdat后缀的数据。因此,如果你和我一样使用的是Mac,那么你就不得不使用SAS软件来打开或转换CHNS数据。幸好SAS有免费的University Version,但是在Mac上使用SAS需要先安装一个虚拟机。
我目前还没有仔细研究和使用过CHNS数据,所以还不能谈些什么。
附上CHNS申请地址
5. CGSS
CGSS全称是Chinese General Social Survey,中文名为中国综合社会调查。
CGSS项目由中国人民大学的中国调查和社会中心主持。我之前申请的时候,需要提交个人信息和一份申请表格(需签字)。因为之前有人大经济论坛的帖子说CGSS的申请不遇到审核不通过的情况,我的审核是很顺利的(而且人大的效率特别高),不知道为什么会有朋友这么说。因此,为了以防万一,我建议各位跟我一样,在申请邮件中除了附上申请所需的表格之外,在正文处详细地提及下自己的研究方向,以及想要用CGSS数据研究什么内容。
但是目前好像CGSS的数据已经转移到新的网站上了,注册申请的过程也和我之前遇到的不一样。我已经发邮件给CGSS的项目组了,询问他我之前申请审核通过的账号为什么不能在新的网站上使用,目前还没收到邮件回复。(新网址见下方“CGSS申请地址”)
CGSS数据或许在社会学领域用的比较多,这应该也是国内社会学领域最好的数据库。CGSS项目也存在许久了,CGSS2003,2005,2006和2008共同构建了该项目第一阶段(长达10年)的数据调查。目前CGSS已经开始了第二个10年的数据调查,CGSS2010和最近公开的CGSS2013都属于此阶段的调查项目。
因为是社会学领域的数据库,所以除了样本住户的基本情况外,CGSS还包含了许多关于价值观念的内容。另外,CGSS数据往往会包含一些特别的内容调查,感兴趣的朋友可以自己去看下问卷。
就我之前研究所接触的文献而言,Hu等人(2011)发表在CER上的一篇文章特别不错,他用CGSS的数据研究了中国城乡劳动力短期流动和长期流动的影响因素。他们将获得了“蓝印户口”或“非农业户口”以及在城镇购买了房产的这部分人界定为城乡流动劳动力中会做出长期流动(即定居)的人群,让人很有启发。
附上CGSS申请地址
6. CHFS
CHFS全称是China Household Finance Survey,中文名为中国家庭金融调查。
CHFS项目由西南财经大学中国家庭金融调查与研究中心主持。申请并不难,只需要提交一份叫”CHFS数据下载注册信息”的申请表,使用工作邮箱(edu后缀,不接受126,gmail等邮箱)。申请表除了需要提交你的基本信息外,你还需要说明“所需数据的研究项目的标题和摘要”及其“持续时间”。其实也就是需要你大致说下你将使用这套数据分析什么对象,用什么计量方法来进行相应的实证研究。审核时间很快,上午的申请下午就通过了。
至于CHFS数据,官网是这样介绍的,CHFS“旨在通过科学的抽样,采取现代的调查技术和调查管理手段,在全国范围内收集关于家庭资产、负债、收入支出、社会保障和保险等方面的信息为国内外的研究者提供研究中国问题的高质量的微观数据。”
我原本以为CHFS仅仅是家庭金融方面的数据库,因此没怎么关注。直到前几天听了中国家庭金融调查与研究中心主任甘犁在我们学校对CHFS的介绍,我才知道CHFS是一套很出色的数据库。甘犁说建立这套数据库,他想要做的是了解当下中国家庭的基本状况。因此CHFS不只是调查了中国家庭的资产状况,如上述几个数据库一样,它也包含了所调查家庭的基本特征。
CHFS一半以上的资金是由甘犁个人筹得,可以看出甘犁教授的能力。因此甘犁教授在前几天的讲座中说,他一直还在考虑什么时候公布2013年的CHFS数据,因为这个项目的成本实在太大了。CHFS目前只提供2011年的数据,也是全国范围的抽样数据,每两年实行一次跟踪调查。
可以说,甘犁教授的团队利用CHFS数据做了许多优秀的研究,在社会上影响反应较大的包括西财公布的基尼系数,城镇住房空置率报告。其中正是因为城镇住房空置率报告的争议,使得他们团队发现了大家对“城镇化”的误解,以往的研究都忽视了那些被新划分为“城镇”但是生活状态还是农村状态地区的考察,因此在今年的CHFS将会增加对这部分地区的数据收集。研究城镇化的童鞋们,可以关注下(多年之后会发布的…)CHFS2015数据。
附上CHFS申请地址
当然,目前经济学领域的微观数据库并不止这些,以上提到的六个数据库仅仅是研究中国劳经议题所使用的主要数据库。我想随着我研究的深入,我会更加熟悉这些数据库以及了解到其他的数据,到时我还会再来修正和补充这篇文章。
附上两个PDF文档:
1. 《经济学研究常用中国微观数据》,提供自厦门大学王亚南经济研究院,点击下载;
2. 《中国微观数据库简介》,提供自南昌大学,点击下载。
参考文献
1. Yang, Juan, Terry Sicular, and L. A. I. Desheng. “The changing determinants of high school attainment in rural China.” China Economic Review 30 (2014): 551-566.
2. 马光荣. “中国大饥荒对健康的长期影响: 来自 CHARLS 和县级死亡率历史数据的证据.” 世界经济 4 (2011): 104-123.
3. Hu, Feng, Zhaoyuan Xu, and Yuyu Chen. “Circular migration, or permanent stay? Evidence from China’s rural–urban migration.” China Economic Review22.1 (2011): 64-74.
欢迎各位批评指正。
如想转载,请联系我。:)
Pingback: 劳动经济学领域有哪些比较好用的数据库? | 学习热
CHFS和CFPS虽然数据较新,但是为了保障受访者隐私隐去了受访者所在市区县的信息,不利于引入宏观变量,对其适用范围造成了相当的约束
我刚刚看了一下CFPS数据,数据里面是有countyid的,就是还是可以结合宏观数据分析,但前提是你需要了解这些countyid代表的各县市是什么?
另外,CHARLS数据里面倒是有受访样本所在区域的具体信息,虽是如此,县一级和村一级的宏观数据依旧很难获取。不过我看过一些处理方式是构造区域的虚拟变量,如分为中东西部,或用当地的社区平均收入,来衡量区域的经济水平。
希望能帮到你。 :)
CFPS里的countyid是经过重新编码的,可以给北大ISSS写信获取区县级数据库,提供的相关变量信息将包括区县的顺序码、 GDP、人均GDP、人口数、就业率、平均受教育年限、劳动年龄人口比例、老年人口比例、10到19岁人口性别比例、非农业户口人口比率。
另外,村居的编码在2010和2012年是不一样的。2012年村居编码中的前5位,是与2010年相对应的,可据此匹配两年的村居数据。在stata中打开2012年数据,replace cid=floor(cid/) if year==2012就可以实现转换。 此外,要注意,由于某些村子在2010到2012年间集体搬迁,以及个别家户的搬迁,导致部分家户的cid在两年间发生了变化,这一点也需要注意。