关于实证研究的一些想法

最近都在忙本科的毕业论文。

我研究的内容是中国城乡劳动力(Rural-to-ruban Migrates)的短期流动,即我想知道,对于那些在农村中、持农业户口的人来说,什么因素会影响到他们去城镇工作或者寻求工作。我使用的数据是IZA的RUMiC2009项目中提供的数据集。在论文中,对数据进行基本的统计学描述是必须的。而对于一个经济学专业的学生来说,对本科论文的选题进行实证分析也是不可或缺的。

而对实证研究接触越多,我就对其越加了解,由此也越是喜欢。我觉得很多朋友会有这样一种感受,即对在经济学或社科领域引入大量数学分析表示质疑或担忧,特别是那些靠阅读书籍自学来了解经济学及其他社科知识的朋友。 虽然目前我对经济学学科依然存在许多质疑和忧虑,但是在我更加了解实证研究之后,我对在经济学中运用数据(往往是大规模的数据集)和计量工具(统计学的应用)进行实证研究表示乐观,并想和大家分享下我为什么表示乐观,或者说在哪些方面上的想法发生了改变。(具体而言,这里探究的内容仅仅是经济学或其他社科领域中的实证研究部分。因此,这里提到的经济学家,和其他社科领域的学者,都是指的是进行实证研究的学者。)

首先,需要说的是,用实证研究(简单来说就是数据加计量)进行因果分析有着其统计学的基础。实证研究方面使用的计量方法并不像大多数批评者所说的那么没力。恰恰相反,计量工具在快速发展,各种各样的计量工具有着其对应的适用范围,这使得实证研究的可行领域在不断扩大。而且有越来越多的经济学家都在为更合理且巧妙地使用计量工具而做出贡献。值得一提的是,不少诺贝尔经济学奖都是颁给了对计量有所贡献的经济学家,如“计量经济学”词汇的提出者Frisch(1969),Tobit模型的提出者Tobin(1981),计量经济史领域的Fogel(1993)和发展了离散选择数据分析的McFadden(2000)等。

其次,我们可以聊下数据质量及操作数据的问题。很多人都会质疑数据的可靠性,特别是接触过政府的统计部门提供的数据的朋友。而且,还有很多人们还会质疑经济学家在进行研究分析的时候是否会刻意选择数据,来使得统计内容或回归结果符合他们提出的一个观点。换句话说,当统计或回归结果与经济学家提出的观点相悖时,他们是否会保留这个数据结果。

关于数据质量,其实也是很多经济学家关心的问题。政府的统计部门究竟在多大程度上为我们提供了质量低下的数据,我们不得而知。但我想提及的是,经济学家并不是一个不关心数据质量的群体,相反,经济学家经常会在论文中对自己所使用的数据的质量优劣进行竞争;经济学家也不是一个会刻意制造虚假数据的群体,(虽然不缺乏制造虚假问卷结果的经济学同行,事实上,这样的群体在哪个领域都不缺乏),相反,经济学家们正在通过建立各种数据的收集、跟踪项目,来为研究者们提供质量更高的数据。北师大的CHIP项目(也是我论文所使用的数据)和北大CCER的CHARLS项目即为在中国的两个例子。经济学家和普通大众一样,当听到“地方提供的GDP数量的总和超过中央测算的GDP数量”这样的消息时,都会感到气愤和质疑政府发布的数据(我很质疑政府发布的GDP增长速率),但是与普通大众不一样的是,经济学家会试着通过不一样的数据来源(比如上面提到的项目),和不同的测量计算方法(比如用发电量来测量地下经济量,比如不同的失业率定义)等方式,来对政府的经济数据测量提出质疑。可以说,当政府显得很不负责任时,经济学家会成为一个专业的批评者。

另一个数据质量方面的质疑是,即使存在严谨的数据收集过程,被调查者提供的数据是否会存在质量问题,特别是主观程度上的数据。比如说个体的幸福程度,我们可以通过数据来还原个体的幸福程度吗?关于个体的主观感受,我想说经济学家并不想通过数据来精确还原个体的主观感受(事实上,任何学科都不会这么做,将来神经学科会不会这么做我不知道),而只是试图通过数据来反映个体主观感受的程度。而且,这类质疑往往是对调查的提问方式不了解才产生的,经济学家在进行调查时会这样问被调查者,“你在找寻工作的过程中,是否会感到压力很大?是的话为1,否的话为0”;或者这样问,“请用下列数值来描述自己抵抗风险的程度”,然后要求被调查者在1到10的坐标中刻画自己的位置,就如用坐标来测量政治价值观上左右倾向一样。而对客观数据的使用就司空见惯了,我们也经常会用“年龄”、“体重”或“身高”这样的测量值来表达对自己的理解。

值得一提的是,在进行田野的数据收集过程中,会出现各种各样的问题,比如数据收集者本身的操作失误,被调查者的问题(比如在问题一认为10头牛大于5头羊,而在问题二认为15头牛小于3头羊)等等,因此,这里更显现出实证研究的统计学的力量。经济学家通过统计学的基础来排除这些我们称之为“误差值”和“偏差值”的样本。

至于数据操作。很多人觉得,经济学家会通过操作数据,来改变统计内容或回归结果,由此来获取自己的学术利益或政府资助。确实,经济学家也在担忧这个情况,而且也有许多经济学家以为论证政府颁布的新政策的正确性为荣(还是那句话,这种人在认识领域都存在。可能只是因为经济学家跟政府互动较频繁而较为显眼)。经济学家可以通过使用不同的测量指标、测量方法和控制数据取值范围等方式来操作数据,因此来操作统计或回归结果。其实,正如对于如何解释社会不同的人会有不同的方法一样,经济学家们也有不同的方式来解释经济现象。而当经济学家运用不一样的指标来解释经济现象时,争议是不可避免的。但是我们可以相信,通过越来越多的争论,人们便会达成一定的共识,而这种争论在经济学界并不缺乏。

而通过操作数据来改变回归结果是很难的事情,因为回归结果有着其统计基础,经济学家对于回归结果也是无法预测的,因此并不是说经济学家想要有怎样的结果就能达到怎样的结果。实证研究没有有些批评者(往往是对计量一窍不通)提及的那样“神奇”。当然,经济学家可以通过制造虚假数据来改变回归结果,特别是当样本较小的时候。如果经济学家想要在大样本(比如观测值大于一万)的情况下伪造回归结果,那么他就必须要伪造几万甚至十几万以上的数据值,而且这样的伪造之后的数据的回归结果到底是什么,也是不能由该位”经济学家“(这种造假手段实在效率低下,情节恶劣无趣,以至于不能称其为”经济学家“)所掌握的。这里我们也可以看到统计学的作用,数据也许可以欺骗人,但是基于数据的回归结果是不会欺骗人的。如果一个经济学家通过伪造的数据来达到自己想要的一个结果,那么同行很容易通过对同样的指标进行数据收集,做出一个与前者相悖的研究。

在这里我想特别提下经济学家对于质疑的态度。经济学家在做实证研究的时候,经常会问自己,”我所做的研究到底有什么意义,它对学科的发展会有所贡献吗”(其实做实证研究的社科领域的学者基本上是抱着“要做出贡献”的原则来进行实证研究)。经济学家鼓励贡献,因此他们是带着坦诚的态度来进行研究的。经济学家自身就对同行进行过许许多多的质疑,比如样本选择偏差的问题,实证研究的内生性问题(互为因果问题)等等。

总的来说,经济学家进行实证研究时,是依靠着强大的数学(特别是统计学)基础建立起各种计量工具,通过提高数据质量,创造性地建立起各种田野实验和准试验分析,来理解这个社会的。经济学家认为,数据的回归结果是一个客观事实,而到底是怎样一种机制导致了这样的客观事实(就像存在一个黑盒子,里面到底是怎样的还不得而知,或者需要更进一步的研究),经济学家对其提出各种可能的解释,并且通过自身后续的研究或者同行的研究,来验证自己当初提出的这个可能机制的正确性。

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

在Mac上使用LaTeX,一份简单的指导

也许你跟我一样,手头上的笔记本是带OS X系统的Mac,而不带Win系统;也许你又恰好跟我一样,仅仅是听过LaTeX,但现在需要学习如何使用LaTeX,以更好地完成自己的学术工作;也许你又恰好想在认真并花费一定时间学习LaTeX之前,需要一份简单的指导。

那么,这篇文章刚好可以给你提供你需要的内容。

 

1. 所需软件

我使用的软件是MacTex,其实下载安装后你会得到一套软件。点击MacTex 之后,即可看到MacTeX.pkg 字样的下载链接,点击下载好pkg格式的MacTex软件之后即可安装。这一软件及其安装包的一个被人诟病的特点是太大,我写这篇文章的时候,MacTex提供的安装包大约是 2.4G(25 May 2014的版本)。

2.学习教材

安装好之后,你会发现电脑上多了很多程序,打开其中的TeXShop,你便可以在上面进行LaTeX的编译。LaTeX的编辑可以在很多编辑器上完成,但是如果你想要预览或生产PDF文档,你需要将你编写的内容放在TeXShop上进行编译。

这个时候你或许会问,“我都完成不了解LaTeX,有了这些软件我也不知道怎么去制作那些规范的PDF文档?”所以,现在就需要花费一点时间,去阅读和学习关于LaTeX的知识。我推荐这份《93 分钟学会 LATEX 2ε》,对于LaTeX的入门者需要的大部分内容,你在这里都能学到。虽然这是一份完成于2002年5月的文档,但是文档里提供了相应的链接,以便读者能从中获取与LaTeX有关的最新内容。

 

看完《93 分钟学会 LATEX 2ε》,你学到了关于LaTeX的具体知识。但是在运用MacTex这套软件时,你还有需要学习的地方。这里讲与这套软件的使用有关的两个内容——如何在MaxTex中使用中文和管理参考文献(下面第4,5部分)。

 

3. 编辑器的选择

我们可以选择直接在TeXShop上编写LaTeX,也可以选择别的编辑器进行LaTeX编写。就比如当你想要写一篇文章时,你可以选择直接在Word上编写,也可以选择在Pages上编写,具体选择哪一款编辑器就看个人偏好。

那么在Mac上进行LaTeX编辑,有哪些优秀的编辑器可以选择呢?在知乎上,有篇《有哪些好的 LaTeX 编辑器》的帖子可以参考下。我之前试着下载了texmaker和LyX,发现前者在Mac上会出现乱码(不知道是不是需要设置下),而后者显得笨重而且会强迫你按照Word的编写方式来编写LaTeX(当然,如果你有这种偏好,LyX是一个不错的选择)。也就是说,这两款编辑器都无法让我感到满足。而后来我遇到了Sublime Text…

Sublime Text有着许多优点,轻小灵活启动快,跨平台,支持诸多代码高亮(而且代码亮得特别酷炫),无限期的免费使用权限等等。用Sublime Text编写LaTeX安装其他的一些插件和一款软件Skim,需要的都是些不难的设置。具体的安装,可以参考这篇写得很清楚,界面也很清爽的博文,《在Mac上通过Sublime、Skim编辑LaTeX》

一切都安装好后,这里还有两点补充。

一是,如果编译的时候提示

“LaTeXTools: you need to migrate your preferences. See the README file for instructions.”

则打开Pallte(Command + Shift + P)输入如下命令即可。

LaTeXTools: Reconfigure and migrate setting

二是,如何支持中文的问题,我也还在找解决方案。待完善…

 

4. 在TeXShop上使用中文

我们也可以直接在MacTex中的TeXShop上编写LaTeX代码。这谈下如何在TeXShop上编辑中文。

在win下有CTeX可用(我没用过),但在OS X系统下其实也能实现中文输入,但是或许有些缺陷。这里推荐的文章是《在TeXShop中使用中文》。

文章中列了两种方法。

方法一(也是我使用的办法),需要注意两点内容,一是要选择“XeLaTeX”,二是要将编码设置为“Unicode(UTF-8)”;

方法二,是添加CJK宏包。需要指出的是,CJK宏包支持的是繁体字(可见发明者必然不是大陆人),所以其生成的结果中,那些与繁体字不一样的简体字将会无法显示。打个比方,如果使用方法二在TeXShop中输入中文,如“语言”,会发现输出结果只会显示为:空格+“言”字(即“   言”)。因为在繁体字中,“语言”写为“語言”。

5.管理参考文献

你可能想要利用LaTeX编辑一篇规范的学术论文。在你管理论文的参考文献的时候,你可能需要了解如何结合TeXShop和BibDesk,更高效地对参考文献进行管理。

我在这里推荐一篇博文,《LaTeX笔记——citation引用文献》,这篇讲得很清楚而且详细(网上不乏编排混乱或内容错误的这方面的文章)。值得指出的是,原文中有个小错误,作者在文中将“\cite{XXXXX}”错写成“/cite{XXXXX}”,虽然这是很基础的内容,但是对于初学者来说,每一处细节都显得很重要。

也许很多朋友会发现这篇文章无法访问,那么可以看下这篇内容较为简单的介绍,《在latex上使用BibDesk》。我在看这篇文章的时候,有些理解错误的地方(或许是台湾人的表述方式跟大陆人不一样),因此在此指出给各位并做些补充。①在原文的第二步中,“./reference”就是指带".bib”后缀的BibDesk文件名称;②而在第三步,你需要打开texshop,然后按照“ Macros->Applescript->Bibliography”的步骤点击“Bibliography”并进行编译,最后再使用“command+T” ,就可以得到你想要的结果。

6.其他

我也还在学习LaTeX,所以本文还会有一个后续的补充和修改过程。

如果你对本文有任何问题或建议,欢迎留言评论给我。

 

欢迎转载,转载请注明出处。

注:如有错别字错误,欢迎各位指正。:)

联系我

 

Share