如何用Stata进行数据清理

本文提供一些用Stata 12进行数据清理的基础知识,比较适合于刚刚接触Stata的童鞋,但这篇文章不提供Stata的下载安装,界面使用等基础知识。还需要说明的是,本人所使用的是OS X平台的Stata 12,不过我估计win系统的操作差异不大。

Stata是功能很强大的一款软件,你学得越多,Stata能帮你实现的事情就越多。如果你仅仅是一时想要处理数据,我建议你使用你比较熟悉的软件,Eviews,SPSS和R等都可以;但是如果你在将来很长一段时间都会接触到数据处理,统计分析,回归制图等,Stata则很值得你深入学习。

 

1. 一些良好的使用习惯

1.1 学会用 “help” 命令

学习的过程,不单单要学会知识,还有学会自学的能力。就比如说,如果你在学习Stata的过程中遇到了不懂的问题,你可以通过Google搜索或者询问朋友来解答你的疑惑。而值得一提的是,Stata本身也存在帮助你理解Stata的功能,这就是help命令。

在接触Stata的时候,你会接触到各种命令代码,如果你对某些命令代码不理解,你可以直接在Stata的命令框中,输入“help”+你不理解的代码。按下enter后,Stata会提供相应的信息,而且附有例子供你更好地学习和理解。

比如,你想要知道怎么使用 rename这个命令,你可以在Stata的命令框中输入“help rename”,Stata会弹出一个窗口,如图1所示。窗口里的内容包括”Title”,”Syntax”,”Menu”,”Description”和”Examples”。

rename on Stata

图1. help rename窗口

 

1.2 写do文件

还有一个良好的习惯是学会写do文件(do file)。

当你想要使用Stata的时候,你可以直接在Stata的命令框输入命令,然后来处理数据,但这不是一个很好的习惯,因为这样做带来很多弊端。

使用do文件的好处包括但不限于:

1. 易于更改:如果你在Stata命令框直接输入代码,在中途输入错误的命令后(比如数据被清楚了),由于无法撤回你就得重头到尾再输入一遍。但是使用do文件,写错了可以直接在do文件中更改,再运行一次即可;

2. 重复使用:如果你在将来要重新用到这些命令,直接在Stata上运行相应的do文件即可;

3. 提高交流效率:你可以将你的do文件发给你的合作者,这样他就可以根据do文件的内容来理解你的数据,甚至帮助你找出你处理后的数据集中的错误来源;

在Stata的上面窗口,如图2,点击Do-file Editor,即可得到输入和编辑do文件的地方,写好do文件之后点击save,保存到相应的路径即可。

do_file

 

图2. Stata的Do-file Editor

do文件的构成大致分为三部分,如图3所示。Part 1: clear表示每一次run这个do文件,都会清除掉你之前所使用的命令(一个清新的开始);Part 2: use”/XXX/XX…”是你想要处理的数据的路径名(你可以双击数据后,将显示在Stata中的数据路径复制到do文件中);Part 3: 之后就是数据清理的命令了。

do_file_demo

图3. do文件的样例

 

1.3 像程序员一样去行动

一般来说,数据处理的Stata教程不会提到这一点内容。而且这一点内容比较虚,我不知道什么才是程序员的思维方式,也不知道如何才能给大家提供这一点内容。由于我有一年的计算机专业基础,在跟我读经济学的同学接触后,我发现很多同学(特别是处理数据经验较少的同学)在了解这些命令的情况下,都不会懂得如何去跟这些命令或者手头的数据打交道。

其实很多时候,一些简单的代码就能实现复杂的功能,而如果你不懂得如何使用这些代码,你就只能达到零散地知道ABC的入门水平。

一个简单的例子是,我在没有学会在Stata中使用循环命令的时候,用简单的数据处理命令实现了我需要的类似于循环命令的功能(将数据分组,再对每组中的某变量进行求和,生产一个新的变量)。还有就是,很多同学只会在一个数据集的基础上处理数据,而不懂得将这些数据分为多个数据副本,各自处理后再合并起来即可。

这里有两点建议可以提供给大家:1. 如果不懂得如何实现某一功能,你可以先想想实现的过程会经过哪些步骤,而考虑每个步骤需要使用怎样的工具,然后再去找这些工具按,按步骤走即可;2.在这个过程中,前往不要担心出错的问题,要像程序员那样,敢于尝试,不停地在实践中学习,遇到问题后逐个攻破。Learning by doing~

 

2. 数据清理的基本命令

我们假设手中有一个(可能很大的)数据集,这个数据集包含的内容有很多,但是并不是所有的内容都是你需要的,这个时候你就要按照自己的需求,将这个数据集处理成一个专门为你的研究所需而“定制”的数据集。这一过程,就叫做“数据清理”。

2.1  if命令

下边提到的命令后边都可以加上“if”,用来表示仅仅对满足了if条件的部分内容进行更改,而不是对某变量的全部内容进行更改。结合下文,详细讲述。

 

2.2 keep和drop

你手中的数据集很大,里面包含了许多的观测值(Observation) 变量(Variables)。每一个样本就是一个观测值,而每一个样本所带的特征就是这些观测值的变量。而你只需要其中的一些变量,这个时候你就需要使用keep和drop 命令了。

【注:下文的变量一律用var表示。】

比如你的数据集有200个变量,而你只需要其中的10个变量,比如其中的id, GDP, income, age等等这种变量。从多个变量中保留少量变量,可以使用keep:

① keep var1  表示保留变量var1

② keep var1 var2 var3 表示保留var1 var2 var3多个变量(主要变量之间用空格键隔开就好,不要使用逗号等符号)

当你手头数据集的变量很少时,而你想要使用其中的大部分变量,你需要的仅仅是去除其中某些变量,这个时候可以使用drop:

③drop var1 表示去掉变量1

④ drop var1 var2 var3 表示去掉var1 var2 var3多个变量

有时候你想要保留变量var1,但是你要去掉var1的某些缺失值(数据集中用“.”表示缺失值),你可以使用:

⑤ drop var1 if var1==. 表示去掉var1变量中的缺失值(=表示赋值,==表示等于)

 

2.3 rename

在keep和drop变量之后,你就得到一个基本的数据集了。这时候你可以用rename 对数据集中的变量进行重新命名,将这些变量命令变成便于你理解的名字。

⑥ rename var1 age 表示将“var1”这个变量名变成“age”

 

2.4 generate和replace

generate用于生产新的变量,而replace则不生产新的变量,但是会按你的需要更改原变量里的数值内容。

比如数据集中只提供每个人的出生年份(用var1表示)而不是直接提供年龄(用age表示),两步命令即可:

⑦ generate age=0 表示生产一个数值都为0的age变量

replace age=2015-var1 将age中的数值由0变为“2015-var1”得到的数值

你可以可以直接用:

⑧ replace var1=2015-var1

rename var1 age

又比如你需要创建一些虚拟变量,比如按“是否为6岁以下的学龄前儿童”,生产children变量:

⑨gen children=0 #这里使用了generate的缩略符gen

replace children=1 if age<=6 表示如果age不大于6岁,令children数值为1

replace children=0 if age>6  表示如果age小于6岁,令children数值为0

 

3. 其他和一些资源

3.1 数据的检查

清理完数据之后,可以直接在Stata的命令框输入:

⑩ sum

这个时候Stata会显示处理的数据集的所有变量的基本统计特征(观察值数量,平均值,标准差,最小值,最大值),方便你检查处理后的整体的数据特征。

 

3.2 资源

英语世界存在许多讲述如何用Stata进行数据清理的文章(我当初就是靠阅读这些文章来进行学习的),但是许多同学不习惯英语阅读,因此我虽然用中文写这篇指导,但是更推荐的是各位在Google上搜索“Stata”+“Data cleaning”等关键词,来探索一个更美妙且广阔的世界。

 

一些资源:

1. 《高级计量经济学及Stata应用》,陈强:很实用的一本书,基本囊括你在做实证时所需要的知识;百度云下载

2.《Stata十八讲》,陈传波:轻巧但是比较过时;微盘下载

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

为什么会存在“侠客岛”?

科技能给我们的生活带来了日新月异的变化,互联网领域的变化仅仅是科技带来的改变的冰山一角。我们或许已经熟悉着一个充满变化的世界,就像我们熟悉着每天微博上的各种“热门话题”而从不会感到厌倦。与此同时,媒体从业人员也跟着发生变化,新媒体越来越多,就像微信上的“公众号”在日益增加。无疑,网络让人们拥有了更多的关注点和表达欲。

在这种环境下,《人民日报》这样的老牌主流媒体也不甘寂寞,开始行动起来。据人民网去年年底的一篇报道,《人民日报》正向移动互联网发力,其旗下创办于2014年2月底的两个新媒体——“侠客岛”和“学习小组”正日渐受到人们关注。在谈到读者为什么喜欢“侠客岛”的时候,人民日报海外版的编辑总结有三点原因,分别是“变化风格”,“强调及时”和“突出权威”。

对于“侠客岛”为什么会那么受欢迎,本文没有一点兴趣。本文真正感兴趣的点在于,《人民日报》已经有了包括《环球时报》在内的那么多媒体,为什么它需要“侠客岛”这个新媒体?

而另一方面,我们可以看到,正如《人民日报》和海外版的《人民日报》,新媒体“侠客岛”作为党媒的一部分,本身就拥有权威和时效性。“侠客岛”真正特别的地方在于它在文宣方面的新风格。由此我们可以将问题细化,即为什么需要这样一种存在新文宣风格的媒体?

我想就经济学领域中的“价格歧视”理论来对此进行分析。在分析之前,或许我需要先跟大家介绍下什么叫“价格歧视”。

经济学里存在许多模型,也存在许多由这些模型推导而来理论。而“价格歧视”理论就是其中之一。“价格歧视”虽然有“歧视”两字,但这里的“歧视”并不是指中文中带贬义词性的“歧视”。“价格歧视”的原文是“Price Discrimination”,如果我们愿意,我们可以将其翻译为“差别定价”。

具体而言,我们可以这样想象:在一个市场上,有些人拥有较高的支付能力,有些人则只拥有较低的支付能力。若企业对其某一产品只定一个价格,当该产品价格定得过高时,会失去支付能力较低的这部分群体;而当该产品的价格定得过低时,虽然吸引了足够的人群,但是企业的利润就会减少。所以一个聪明的做法是,针对不同人群进行差别定价,由此达到利润最大化的目的,这就是所谓的“价格歧视”,或更确切地说,是所谓的“区别定价”。

一个很明显的“价格歧视”的例子就是飞机的机票定价,一般而言,经济舱会比商务舱便宜很多,但是实际上它们是同一产品。之所以定价不同,是因为有些人有能力为其交通费用支付较高的价格,因此企业在航班中设置了商务舱这种商品。你可能会质疑说,商务舱的座位更舒适,提供的服务也更多些,因此它值得买家为此付更高的价格。我承认这是这是事实,但另一个事实是,对于航空公司而言,商务舱的成本并非较经济舱多出许多,以至于我们无法用它们之间的差价对此进行解释。

“价格歧视”的理论前提是理性人假设,即人也会选择能最大化自身利益的行为。在这里,“价格歧视”理论将企业看做是一个会最大化自身利益的微观个体。同理我们可以将《人民日报》集团看做是一个个体,但与市场化的媒体集团不一样,它并不会以利润最大化为自己的目标。作为党媒,它的目标是要使意识形态的宣称最大化。由此我们可以得知,作为《人民日报》海外版底下的新媒体,“侠客岛”的任务也是在于宣称意识形态,但以不同的文宣风格进行意识形态宣传。也就是说,“侠客岛”的存在,是由于《人民日报》集团在最大化意识形态宣传方面上的需要。

与《人民日报》不同,“侠客岛”的大部分推送内容并不涉及新闻产品的生产,而仅仅是对已经存在的新闻产品进行解读,或再阐释。“侠客岛”偶尔的独家内部稿件,可以看做是官方一如既往地对党媒的关照。从“侠客岛”的口号——“但凭侠者仁心,拆解时政迷局”,也可看出其对自身推送内容的理解。

其次,中国改革开放三十多年来,国人接触到了许许多多的观念,这使得人们的观念变得多元化。因此,正如对其他市场上的商品的需求一样,人们对于新闻产品的需求也越来越挑剔。一份虽然权威但是风格严肃的《人民日报》是无法满足人们对新闻产品的需求的,因此“侠客岛”选择了新的文宣风格。正如之前那篇报道中“侠客岛”的编辑所言,“ ‘板起脸来讲道理’,对于今天的读者来说,早就行不通了。用读者爱听且熟悉的语言,替读者找到事情的独特角度,帮读者认清当下的重大事件,才适应报网融合时代的要求。报网融合并不是将报纸搬到网上,更不是将办报纸的套路移植到新媒体端,而是必须理解读者想要什么。”

由以上分析我们可用得知:首先,就新闻产品而言,“侠客岛”所能提供的新闻资讯,可以说也是《人民日报》及其其他子媒体所能提供的新闻资讯,即他们提供的是同一产品;其次,“侠客岛”对这些内容一致的新闻资讯进行了不一样的“包装”,即为读者提供了不一样的文宣风格。

如果我们将《人民日报》集团比作是一家餐饮公司,《人民日报》就是集团下属的一家高档餐厅,很少有关人光顾,但有特定的人群会去光顾;而“侠客岛”则是集团下属的一家针对年轻群体推出的低端连锁餐厅。虽然他们都是用的同一个集团提供的食材,但是他们的餐厅包装、食材制作等方面以及目标人群完全不一样。而它们这种分工行为,最终要达到就是最大化集团利润的目的。

或许我们可以造一个词语来形容《人民日报》集团的这种行为,由于“差别定宣”表述得不是很清楚,所以我决定管它叫做,“宣称歧视”(Propaganda Discrimination)。

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

未来的经济学家是怎样的?

文章题目有标题党的嫌疑,好吧,希望文章的内容能给你一些启发。这篇文章,权当是本人就着在经济学领域仅有的一些见识,来随便写点轻松且不严谨的文章。如有不正确的地方,欢迎各位批评指正。当然,更欢迎大家一起来补充这一猜想。

十年之后,经济学领域一定会发现一些变化,但是是哪些变化呢?本文特别好奇的是十年之后的主流经济学家到底会是怎样的一副模样,比如他们会倾向于研究哪些领域的经济学议题,又会倾向于使用哪些方法进行经济学研究呢?基于现有的一些(其实只是本人所了解)资料,本文试图(无厘头地)来对这一猜想进行研(猜)究(测)。

在进行猜测之前,我想现就经济学学科的发展做个简单同时也是简陋的分析。

很多年前,经济学家是不做实证研究的,当时也没用什么计量这类的工具,那个被叫做古典主义的时代,经济学家通过观察现实(税收制度,水稻价格,制针作坊等),来分析经济现象和人类行为;后来发生了边际革命,新古典时代到来了,数学模型开始进入经济学的教科书,“理性人”也成了经济学家的分析对象。经济学家们假定人类是理性的,他们想要做的就是利益最大化(所谓的maximizer)。他们还将这一假设运用到对企业的分析中去,由此形成了微观经济学;再后来,凯恩斯写了《就业、利息和货币通论》,随着美国新政对治理大萧条的成功,凯恩斯的学说被各种各样的学派被吸收,最终发展成今天的宏观经济学。

经济学的发展经历许多,比如布坎南将“理性人”的假设运用到政府中,由此构建了一套“宪政经济学”,科斯在思考“企业为什么会存在”时提出了“交易成本”,由此将“制度经济学”推到“新制度经济学”的高峰等等,但是它们最终都没能霸占主流经济学的征地,也是将经济学领域,同时也是将千千万万年轻一代的经济学家交给了依靠强大的计量方法而异军突起的实证研究。

在这之后呢?经济学领域又会有哪些发展呢?虽然面临着不确定性,而且本人不认为经济学家应该去做一些预测方面的分析,但是基于本人现有的一些了解,大致可就经济学学科发展的趋势谈下个人的一些想法。因此,本文将就研究领域,研究方法和不确定性三个方面,猜想下经济学领域可能存在的发展。这仅是本人自己的理解,但也许可以给同行朋友提供些许有用的讯息,比如同行将来或可在哪些领域进行深入学习,需要掌握哪些技能等。
1. 研究领域

1.1 劳动经济学和发展经济学领域的崛起
忘了在哪里看到,但我记得MIT的经济学家Joshua Angrist曾经建议经济学的学生要在发展经济学或劳动经济学领域进行学术训练。Angrist是著名的《基本无害的计量经济学》的合著者之一,同时也是计量经济学领域的大家,他曾在一期的EconTalk访谈中称自己是一名劳动经济学家(labor economist)。如果没记错,Angrist推荐经济学专业的学生在这两个领域进行学术训练的原因,或许是因为这两个领域中计量方法的运用最为成熟,也就是说,在两个领域有着许多的内容可以进行实证分析,同时也有许多的文献可以提供给经济学专业的学生进行参考学习。

就我个人的感觉而言,劳动经济学领域存在许多优质的微观数据,所以不管是研究劳动力,家庭收入,还是家庭健康,你都能够找到你想要的微观数据,由此便能运用计量进行更细致和深入的研究;而在发展经济学领域,由于现在许许多多的经济学家都在关心发展中国家的各种议题,从最初对援助资金(foreign aid)的关心,发展到现在的关心发展中国家的经济发展,低收入者的储蓄投资,人口健康,甚至政治选举等议题,而且经济学家还从中收集各项微观数据,由此使得发展经济学领域可进行研究的内容大为增加,而且使得这些研究变得更加有意义。这都得益于J-PAL的诞生,所以可以说发展经济学领域已经发生了翻天覆地的变化。

也就是说,保守估计,将来会有越来越多的经济学家研究劳动经济学和发展经济学领域,因为这个领域可研究的议题多,而且所使用的研究方法也较为成熟。

1.2 研究领域涉的扩张
其实很早就存在“经济学帝国主义”的说法,而这种似乎带有威胁和挑衅意味的说法正日渐成为一种事实而不是仅仅停留在人们的口头之间。芝加哥大学似乎也很鼓励这类的研究,从将经济学领域扩张到就业歧视和家庭早期的加里·贝克尔(Garys Becker,劳动经济学领域的先驱),到后来将研究领域扩张到犯罪的史蒂芬·列维特(Steven Levitt),再到将研究领域扩张到媒体的马修·根茨科(Matthew Gentzkow),以及当下运用田野实验研究行为经济学的John List,这四位经济学家都是芝加哥大学的教授。其中,前三者都是克拉克奖的获得者,获奖年份分别是1967,2003和2014(就是去年!)。贝克尔还于1992年获得了诺贝尔经济学奖。而对于John List,虽说他40岁的时候(2008年),克拉克奖没有授予给他(克拉克奖旨在表彰对经济学领域做出贡献的,40岁以下的美国经济学家),但是他也是前途无量,对此下文将会提到。

这里我谈下根茨科(Matthew Gentzkow)。根据2014年美国经济学会荣誉与奖励委员会(American Economic Association Honors and Awards Committee)提供的信息(美国经济学会是克拉克奖的颁奖方),根茨科的获奖理由是“马修·根茨科为我们理解经济力量对媒体产品创造的影响,数字环境中媒体角色的变化,以及媒体在教育和公民参与中所起到的作用方面所做出的基础性贡献”。

但接下来的一句话引起了我的注意,“He has thus emerged as a leader in a new generation of microeconomists applying economic methods to analyze questions that were historically analyzed by non-economists”。也就是说,在新生代的微观经济学家中,根茨科已然成为了他们的领域,而这些微观经济学家们,正在用经济学的方法研究那些以前并不为经济学家所研究的问题。由此可见,经济学领域也在鼓励扩张研究领域的行为,特别是鼓励那些掌握了强大的量化工具的微观经济学家们对其他领域的扩张。

根茨科对媒体的研究很有意思,我了解的也不多,这里就说一点我了解的内容。以往我们都会认为媒体在进行报道时都是保持的客观中立的态度,但是根茨科等人(2010)①发现,媒体在进行报道时也会有自身的立场,而在对影响媒体立场选取的可能因素进行研究之后,根茨科和他的合作者发现,是媒体目标读者的爱好影响了该媒体的立场选取,而媒体主管的品味并不会显著影响媒体立场的选择。

根茨科的创新之处在于,他通过分析美国的共和党和民主党的议员在参议院发言稿中所使用的词语区别,比如同是一件事情,“共和党议员倾向于使用‘死亡税’、’税收减免’、‘个人账户’、‘反恐战争’等,而民主党议员则倾向于使用‘遗产税’、‘减税’、‘私人账户’、‘伊拉克战争’等”②,然后再分析各家媒体在进行报道时会使用哪一类的词语,由此对这些媒体进行分类,并将它们分为亲共和党和亲民主党的媒体。这使得对媒体的分类变得可行,而且也许是能够进行分析的样本大为增加。他们最终发现,报纸报道会产生倾斜,更多地是受需求方(读者)的影响,而不是受供给方(报纸老板)的影响。

也就是说,将来的经济学研究会扩张到越来越多的以往的经济学家并不进行或不感兴趣的领域。而这些领域,很可能会显得极为有趣。如果你想了解一些优秀的年轻经济学家的研究领域,我之前翻译了一篇文章《新世代经济学家》,或许可以给你提供一些你感兴趣的内容。
2. 研究方法

2.1 越来越多的RCT,越来越多的田野实验
其实仅仅用实证领域传统研究方法的成熟(各种对计量和对数据的运用),还不足以说明为什么将来劳动经济学领域和发展经济学会崛起,因此,还需要提及的内容是,经济学研究领域研究方法的进步。

RCT原本只是被用作于医学上的药物测试,而后来被大量运用到了经济学领域,这完全得益于J-PAL的RCT方法上运用的成功。RCT的全称是Randomized controlled trial,中文名可以翻做“随机试验”。在医学领域,为了测试药物的有效性,研究者往往对病人进行随机地分组,然后对不同组别的病人进行不同药剂的服用,然后观察这些药品各组病人的作用。简单来说,就是模仿自然科学中的随机试验方法,将想要研究的对象分为“控制组”(control group)和“实验组”(treatment group),并通过随机取样的方法决定哪些人分入“控制组”,哪些人分入“实验组”。在样本足够大的前提下,观察政府实施的某一政策或NGO实施的某一援助方法,对“控制组”(不是是该政策或援助)和“实验组”(实施该政策或援助)进行一段时期的不同干预后,看这些组别中分别会产生什么后果,以达到评估的效果。

这里有本书,详细地介绍了J-PAL中的RCT是如何操作的,Running Randomized Evaluations。两位作者本身也是J-PAL的成员。

另外就是,会有越来越多的经济学家使用田野实验的方法进行研究。John List率先兴起用田野实验方法来进行各种研究,以至于他能在经济学五大顶级期刊上狂发文章,并从一个非常春藤的毕业生华丽转身为芝加哥大学的经济学教授,可谓独领风骚。对List的研究感兴趣的同学,可以参见他之前出版的《The Why Axis》,而对“田野实验”感兴趣的同学可以看下豆瓣上的这篇书评《经济学家的新工具:田野实验》

其实这些都还不是重点,重点在于,为什么说将来会有越来越多的经济学家用RCT和田野实验的方法进行研究呢?

这还得从经济学家如何收集数据说起。以往经济学家都是根据现有的一些数据来进行研究,之后便学会建立各种项目收集更优质的微观数据,这些微观数据库往往特别庞大,研究人员所需要的并不是该数据库里面所有的数据,而是依据他们的研究需要而对这些数据进行筛选,然后再进行分析;J-PAL则是为了评估某一政策而直接进行随机试验,然后跟踪收集任何所需要的数据,但不收集那些与他们研究无关的数据。也就是说,J-PAL显示出一种新的能力,即经济学家可以根据自己想要研究的内容来收集对应的数据。同理,田野实验也是如此,

RCT和田野实验另外一个超然之处在于它们在研究变量之间“因果关系”方面有着独特的优势,这得先说下变量之间的“相关关系”(correlation)和“因果关系”(causality)。变量之间如果存在“相关关系”,比如说有人发现,“雾霾越严重的城市,经济发展越好”,所以经济学家会依此推断,“工业化有助于经济发展,我们应当大力推进工业化,虽然可以会带来雾霾这一副作用”吗?不是的,经济学家可没有那么蠢。经济学家会指出,这一发现存在内生性问题,或者说“互为因果”的问题,即完全有可能因为一个城市经济发展越好,说明这所城市工业越发达,由此带来越严重的雾霾,而不是反过来说“雾霾促进经济发展”。也就是说,“雾霾”和“经济发展”这两个变量之间存在正向的“相关关系”,但是它们之间到底是谁因谁果,还不得而知,也就是变量之间的“因果关系”还不清楚。

以往的经济学家都在进行实证研究的时候,鉴于数据的局限,大多都是研究变量之间的“相关关系”问题,而只有少数的经济学家能通过巧妙地构建“准试验设计”(Quasi-Experimental Design),在现有数据的基础上,进行“因果关系”的研究,比如兰小欢的博士论文,这里有篇他写的文章《博士后的困境》介绍了他的这一研究(内有福利,不要错过)。而现在,通过J-PAL的RCT方法,和List的田野实验方法,经济学家能够通过构建各种实验,来对变量之间的“因果关系”进行研究。

总得来说,由于RCT和田野实验在收集数据和进行“因果关系”研究之间的优势,使得它们将会在未来被越来越多的经济学家所使用。

2.2 从线上(online)挖掘数据
经济学家似乎正变得越来越无所不能,他们不单单要学习经济学知识和运用在经济学领域的数理知识,还要自学LaTeX来为自己的论文进行排版或制作幻灯片,还要学习编程等(因此人们吐槽说经济学家就是不爱看书)。经济学家越来越不像是一名社科学者,反而越来越像一名十项全能的参赛选手。

将来的经济学家会怎样呢?有一个趋势是会有越来越多的经济学家想着从线上挖掘数据,因此如果你看到有经济学家写了一本《如何用Python挖掘数据》之类的指导手册或者书籍,你也不用觉得奇怪。

为什么会是从线上挖掘数据呢?答案很简单,因为网络上到处都是(数据)金矿。现实生活中也会产生很多数据,比如我们如果要知道医改的实施对提升病人健康到底有没有作用,我们可以收集医院的数据来做一些可能的研究,但是院方并不是为经济学家可能进行的研究而为他们提供专业而且详细的数据,事实上,医院会很正常地拒绝对外提供病人的数据。所以说,线下虽然存在很多数据,但是收集起来会有很多限制,但是线上的情况就不同了。要知道互联网本身就是一个数据库,每天跟互联网打交道的人都是在“生产”各式各样的数据,而挖掘这些数据并且分析它们,将会可以做出一些很好玩的研究。

但是挖掘线上数据的一个要求是你需要掌握一定的编程能力,或者你有个计算机系的合作者。我的编程能力不是很强(不然很多想要做的研究早就可以做了。。。),但是我注意到Python能较好地实现爬虫性能,即将Python比作一只蜘蛛,让它在互联网这张大网上爬各个页面,没日没夜地抓取各种数据,单程地爬,多程地爬,想想也怪可怕的。。。

不管怎样,将来利用线上的数据进行的研究会越来越多,就像现在的经济学家普遍会掌握一两个统计软件一样。到时候也许会存在越来越多的操作简便的软件更好地帮助经济学家实现这些功能吧,以解放经济学家的双手,让他们能有更多时间去研究数学(#误)。。。

3.不确定性
当然,最后要讲的内容就是不确定性了。经济学学科将来会怎么发展,面临着许许多多不确定的地方。也许有一天,一个像凯恩斯一样的天才人物就出现了,彻底地改变了经济学的发展轨迹;而更可能地来预测,也许计量领域会出现其他很棒的工具,这样经济学家做更多的研究了。

注:
①Gentzkow, Matthew, and Jesse M. Shapiro. “What drives media slant? Evidence from US daily newspapers.” Econometrica 78.1 (2010): 35-71.

②引自 《亚洲周刊》的《經濟學家撥開媒體客觀公正性迷霧》一文,http://www.yzzk.com/cfm/content_archive.cfm?id=1399520706128&docissue=2014-19

 

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

手段与目的

也许很多人会感到很奇怪,为什么经济学专业的学生要那么关心敲代码这件事情,为什么经济学专业的学生要数学学得好。敲代码,是为了利用统计软件(Stata, R ,SAS等等)来分析数据,从而进行实证研究;而学习数学则是为了便于建模和模型推导。

其实,如果一个经济学专业的学生想要获得同行的肯定,或者说想要在经济学专业深造,一般都得关心计量和建模。当然,也不是所有的经济学专业的学生都关心这些东西。但是对于这些人来说,他们如果还想要继续深造的话,往往得转读其他专业。

但是不管如何,我觉得,计量和模型都只是帮助我们更好地理解这个社会的两种手段,而并非目的。也就是说,我们收集(或挖掘),敲代码,分析数据,运用计量知识进行实证研究等,和我们学习数学,建立数学模型和对模型进行推导等,都是为了“我们能够更好地理解这个社会”这一目的,这些内容本身并不构成我们所追求的目的,它们仅仅是手段。

我也知道听过有经济学专业的博士,毕业之后就转行去计算机公司,或者转做数据分析师。就像也可能会有经济学的博士毕业生毕业后选择用定性研究和案例分析等方法来研究经济史,制度变迁,经济思想等。这些都是很正常的事情,不可能一个专业的毕业生都是做的一个职业。所以这篇文章讲述的对象,还是做为知识生产者的主流的经济学家。

但是我认为,对于一个想要更好地理解这个社会的经济学家来说,不可以将手段与目的弄混。

这时也许有人会问,“为什么一定要借由建模和计量的方式来学习经济学?经济学界的鼻祖——亚当斯密也不会那么倾向于使用数学来理解这个社会呀。”

对于这个疑问,首先我想消除他对经济学学科的理解偏差,然后再来回答这个问题。

什么叫“对经济学学科的理解偏差”?我们假设有一个非经济学专业的学生,他想要通过阅读来理解经济学,但是发现读的经济学的著作越多反而越不理解数学在经济学领域的运用。我觉得这是一个很普遍的状况,如果遇到这样的情况,就可以说这个人对经济学学科不了解,或者说对其了解有偏差。

为什么会出现这种有趣的状况呢?其实这个问题很简单。我们再假设经济学书籍分为两类,A类是经济学教材,上面铺满了模型;B类是没有数学内容的经济学著作。那么对于上面提到的人来说,他读的经济学方面的书籍是很多,但是由于他自己的一种对“在经济学领域大量运用数学”的排斥,他会倾向于阅读许许多多的B类书籍。如果我们将一本本书籍比做一个个样本,经济学家便会说,他的取样是有偏差的,因此这必然导致了他对经济学学科的理解是有偏差的。

如果消除了这个人对经济学学科的理解偏差,这个人便会这样想:“原来经济学学科并不是一个只用定型分析或案例研究等方式来研究经济现象或者人类行为的学科,它更多的还会用数学模型和实证研究来理解这个社会。”而在消除了这种偏差之后,我们回过头再来看下上面的那个问题,即研究经济学有那么多的手段,为什么你们要偏偏选择偏数学而不是偏人文的手段呢?

其实这个问题并不能够成问题,真正构成问题的是经济学家可能会将手段与目的弄混,或者在大量运用数学知识之后,经济学学科的发展是否会产生不良影响。对于后者我还是挺乐观的,而对于前者,我觉得提问者是没有意识到数学工具的强大力量。

我们不能总是抱着亚当斯密的书来理解经济学学科的发展,要知道,在亚当斯密的年代是没有个人电脑的。在今天,大多数年轻的一代习惯于每天都跟网络接触,而这些人的父母一辈,年轻的时候可不曾接触过个人电脑是什么。正是因为计算机的进步才使得将统计学的潜藏力量运用到经济学乃至其他社会学科变得可能。在以前,人们只能做些简单的统计分析:柏拉图在《理想国》对接触到的政体进行分析归类;韦伯的《新教伦理与资本主义精神》这本书的出发点也在于对一个统计分析结果的探究,即对其学生奥芬巴赫在论文《信仰与社会分层》中对德国巴登州不同信仰群体的课税和教育状况的统计学分析(在此推荐下郁老师的Coursera课 “《新教伦理与资本主义精神》导读”)。但是在今天,就像互联网、个人电脑、智能手机等全面地改变了人们的生活习惯一样,这些科技的进步也可以说是深远地影响了经济学学科的发展。

在去年出版The Why Axis 的序言处,畅销书Freakonomics一书的合著者之一,同时也是在The Why Axis 一书的合著者之一的J. List在芝加哥大学的同事Levitt,这样写道:

“Historically, economics had been a discipline dominated by theory. The big advances had mostly come from impossibly smart people writing down complicated mathematical models that generated abstract theorems about how the world worked. With the explosion in computing power and big data sets, however, the economics profession was transformed in the 1980s and 1990s. Empirical research—the analysis of real-world data—increasingly became the focus of many economists. It became respectable for a young economist like me, having figured out I was not nearly smart enough to come up with fancy theoretical insights, to spend my time toiling in the data looking for interesting facts.”

我看到这里也不得不感叹,正如Levitt在上文所说的,如果不是因为计算机的进步(个人电脑都能做统计分析了!)和大规模数据的出现,这才使得想我这种非数学天才同时也对建模无感的经济学专业的学生在进行研究工作时有了更多的选择。(其实这里还要感谢各个天才经济学家为计量工具的进步所做的贡献)当然,对建模无感,这仅仅是我个人的感受。客观来说,经济学教科书上的每一个模型,都是经过了许许多多的竞争和质疑,及同行评议等才留下来的产物,可以说是数学天才的作品。经济学学科中的数学模型为我们更好地理解这个社会有着其特有的贡献。

就数学建模这一手段而言,我无法多谈些什么,但是我可以谈下实证研究正在如何帮助我们更好地来理解这个社会。

上面提到的两本书,The Why Axis和Freakonomics,以及Levitt后来的Superfreakonomics等,都是实证研究的产物。

在The Why Axis中,两位作者通过巧妙地构建各种田野实验来获取他们想要的数据(这不是天然的数据,而可以说是对相应变量进行控制值后的实验数据),然后他们在对这些数据进行实证分析。举个书中的例子,他们为了研究男女性别差异如何地导致了今天社会上男性的工资和社会地位普遍要比女性高这个问题,他们通过在网站发布两份虚假的招聘信息,而这两份招聘信息唯一的差别在于前者寻求的报道娱乐信息的新闻助手,而后者寻求的是报道体育赛事的新闻助手。而在收到将近7000份感兴趣的申请后,他们告知一些人他们的工资是按照每小时15美元付费,而告知另一些人他们的工资是按照每小时12美元付费,但是他们的活做比他们对应的那一位处于竞争关系的同事好的话,他们还会有额外的6美元奖金收入。他们发现,申请体育类新闻助手工作的女性只有53.8%,而娱乐信息类的女性占比为80.5%,这并不让人感到奇怪。真正有趣的地方在于,在告知了工资的支付规则之后,他们发现,相较于男性,女性并不喜欢竞争型的工资支付规则。事实上,男性比女性选择在选择竞争型的工资支付规则的意愿上大强70%。他们还发现,在申请竞争型的工作的女性相较于申请该工作的男性,她们的履历往往更优秀。

我没有看过Levitt的Freakonomics,但是曾经在斯托克和沃森写的《计量经济学》教材上看到过Levitt对犯罪的议题的一个研究。Levitt(1996)研究的内容是将罪犯关入监狱会减少犯罪吗?即研究各州的监狱人口与犯罪率之间的关系。因为这里存在互为因果(或内生性)问题,即你想要研究的是监狱人口对犯罪率的影响,但是你会发现犯罪率也会对监狱人口反过来造成影响,因此Levitt在此用“针对减少监狱过分拥堵的诉讼”作为工具变量,来研究这个问题。(这里解释起来比较复杂,感谢的同学可以具体去看下这篇论文,文章结尾处有这篇论文的具体信息。)我想要在此说的是,正是因为实证研究这一手段的强大,使得经济学学科可以研究的议题增加许多,这也使得经济学领域的研究充满乐趣。而对于实证研究兴起之前的传统的经济学家来说,他们是不会对犯罪这种议题产生研究兴趣的,当时能研究的内容要较现在狭窄得多。

对于The Why Axis和Freakonomics,还有去之前看过的Poor Economics,Why Nations Fail等书籍,都可以说是经济学家的通俗版的论文集。为什么这么说呢?经济学家一般都是通过先对自己感兴趣的领域进行实证研究,然后将这些论文投递给各大期刊(由于优秀的经济学期刊审稿周期很长,为了将最新的研究内容呈现给人们,顶尖的经济学家一般都会先将这些论文当做working paper发布出去。据我所知,好像working paper也是可以引用的),最后等到一篇篇的研究统一领域但是不同议题的论文发表在期刊上之后,经济学家们为了将他们的研究发现介绍给非专业的读者,他们便会将这些研究通俗化之后(一般都是配上一些吸引人的小故事),写成一本书进行出版;或者先出版一本严肃的论文集,然后在通俗化这本论文集(正如Acemoglu和Robinson的Economic Origins of Dictatorship and Democracy与Why Nations Fail;NYU几个政治学教授写的The Logic of Political Survival和The Dictator’s Handbook)。

这里说明的两件事情:一是对于经济学家来说,发表论文的激励要大于出版书籍,所以如果你想要研究当下经济学研究的前沿内容,一般都会选择看他们的working paper或者发表的论文,而不是看滞后了一段时间才出版的书籍。而且这种书籍的内容都写得很简单且啰嗦,书籍风格跟他们干脆利落、逻辑严谨的论文风格形成鲜明对比;二是,当下很多经济学家(也有不少其他社科学科的学者)写的书籍,都是实证研究的结果,由此可以看出实证研究对经济学的影响之大。当然,如果你不看这些书籍,你就不会感受到经济学学科正在发生的极具活力的变化,这又一个书籍的选取偏差问题。

在文章的结尾,还需要提下Poor Economics,这本书的作者Banerjee和Duflo夫妇(同是MIT的教授)和由Duflo领导的成立于2003年的J-pal。直到今天,J-pal已经在全球五大洲建立了将近600个评估项目,具体参见J-pal官网的Evaluation Map。这些评估项目,是学者,NGO和当地官员三方所进行的一种合作,致力于用更科学的方法来对某一政策的有效性进行评估。比如今天中国政府面对着对土地流转,户籍改革等政策进行评估的需求,而且中国的省份那么多,完全可以用随机实验的方法来进行政策评估(估计有些地方已经在做类似的政策评估了)。但是由于不选在讨好选民的需要,中国的地方官员不会存在激励去对自发地对其所欲施行的政策进行评估。而J-pal的成功在很大程度上归功于实证研究,Duflo也由于J-pal的成功以及其各种评估项目的成果而获得了克拉克奖(小诺贝尔经济学奖,颁给40岁以下的杰出经济学家)。

经济学人也曾经写过一篇文章介绍这个项目,见Random Harvest。另,这里有一篇文章发表在《新知》上的文章《贫困的细节》,可以借此更加了解下J-pal这个机构和他们所使用的随机试验(RCT)方法。

综上所介绍的经济学家做研究的手段我们可以知道,一昧反对在经济学领域运用数理知识,不客气地说,这可以说是一种反智的体现。而这些手段最终会帮助我们更好地达到我们的目的吗?还是会像马克思的资本论模型一样对人类造成伤疤累累的巨大影响?我也不知道会是怎样的一种结果。但是我认为,具体的内容应该具体分析,很难用一个结论来进行粗暴地好坏划分;而且以往的许多对在经济学领域运用数理知识的批评都是建立在误解或者说不理解的基础之上,其实这是完全不必要的。

就我个人而言,我完全不反对定性的研究作品,我也乐于学习非经济学学科的其他社科知识。正如这篇文章所要表明的那样,不管是定性还是定量,文字资料还是大型数据,都仅仅是我们借由来更好地理解这个社会的手段,而不是目的。

而那些经典的非定量研究的著作,曾经给过我们人类巨大的思想启发,也给人类带来因对其的理解不一而产生的巨大争论,但这些都使得这个社会变得更加开放多元。我相信,他们不仅仅曾经冲击过我们,将来也会成为人类巨大的思想武器。而那些伟大的思想,就如凯恩斯所说,我们这些平庸的人类最终会发现自己终将受到它们的影响。

文中提到的文献:
Levitt, Steven D. “The Effect of Prison Population Size on Crime Rates: Evidence from Prison Overcrowding Litigation.” The Quarterly Journal of Economics 111.2 (1996): 319-351.

 

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share