关于实证研究的一些想法

最近都在忙本科的毕业论文。

我研究的内容是中国城乡劳动力(Rural-to-ruban Migrates)的短期流动,即我想知道,对于那些在农村中、持农业户口的人来说,什么因素会影响到他们去城镇工作或者寻求工作。我使用的数据是IZA的RUMiC2009项目中提供的数据集。在论文中,对数据进行基本的统计学描述是必须的。而对于一个经济学专业的学生来说,对本科论文的选题进行实证分析也是不可或缺的。

而对实证研究接触越多,我就对其越加了解,由此也越是喜欢。我觉得很多朋友会有这样一种感受,即对在经济学或社科领域引入大量数学分析表示质疑或担忧,特别是那些靠阅读书籍自学来了解经济学及其他社科知识的朋友。 虽然目前我对经济学学科依然存在许多质疑和忧虑,但是在我更加了解实证研究之后,我对在经济学中运用数据(往往是大规模的数据集)和计量工具(统计学的应用)进行实证研究表示乐观,并想和大家分享下我为什么表示乐观,或者说在哪些方面上的想法发生了改变。(具体而言,这里探究的内容仅仅是经济学或其他社科领域中的实证研究部分。因此,这里提到的经济学家,和其他社科领域的学者,都是指的是进行实证研究的学者。)

首先,需要说的是,用实证研究(简单来说就是数据加计量)进行因果分析有着其统计学的基础。实证研究方面使用的计量方法并不像大多数批评者所说的那么没力。恰恰相反,计量工具在快速发展,各种各样的计量工具有着其对应的适用范围,这使得实证研究的可行领域在不断扩大。而且有越来越多的经济学家都在为更合理且巧妙地使用计量工具而做出贡献。值得一提的是,不少诺贝尔经济学奖都是颁给了对计量有所贡献的经济学家,如“计量经济学”词汇的提出者Frisch(1969),Tobit模型的提出者Tobin(1981),计量经济史领域的Fogel(1993)和发展了离散选择数据分析的McFadden(2000)等。

其次,我们可以聊下数据质量及操作数据的问题。很多人都会质疑数据的可靠性,特别是接触过政府的统计部门提供的数据的朋友。而且,还有很多人们还会质疑经济学家在进行研究分析的时候是否会刻意选择数据,来使得统计内容或回归结果符合他们提出的一个观点。换句话说,当统计或回归结果与经济学家提出的观点相悖时,他们是否会保留这个数据结果。

关于数据质量,其实也是很多经济学家关心的问题。政府的统计部门究竟在多大程度上为我们提供了质量低下的数据,我们不得而知。但我想提及的是,经济学家并不是一个不关心数据质量的群体,相反,经济学家经常会在论文中对自己所使用的数据的质量优劣进行竞争;经济学家也不是一个会刻意制造虚假数据的群体,(虽然不缺乏制造虚假问卷结果的经济学同行,事实上,这样的群体在哪个领域都不缺乏),相反,经济学家们正在通过建立各种数据的收集、跟踪项目,来为研究者们提供质量更高的数据。北师大的CHIP项目(也是我论文所使用的数据)和北大CCER的CHARLS项目即为在中国的两个例子。经济学家和普通大众一样,当听到“地方提供的GDP数量的总和超过中央测算的GDP数量”这样的消息时,都会感到气愤和质疑政府发布的数据(我很质疑政府发布的GDP增长速率),但是与普通大众不一样的是,经济学家会试着通过不一样的数据来源(比如上面提到的项目),和不同的测量计算方法(比如用发电量来测量地下经济量,比如不同的失业率定义)等方式,来对政府的经济数据测量提出质疑。可以说,当政府显得很不负责任时,经济学家会成为一个专业的批评者。

另一个数据质量方面的质疑是,即使存在严谨的数据收集过程,被调查者提供的数据是否会存在质量问题,特别是主观程度上的数据。比如说个体的幸福程度,我们可以通过数据来还原个体的幸福程度吗?关于个体的主观感受,我想说经济学家并不想通过数据来精确还原个体的主观感受(事实上,任何学科都不会这么做,将来神经学科会不会这么做我不知道),而只是试图通过数据来反映个体主观感受的程度。而且,这类质疑往往是对调查的提问方式不了解才产生的,经济学家在进行调查时会这样问被调查者,“你在找寻工作的过程中,是否会感到压力很大?是的话为1,否的话为0”;或者这样问,“请用下列数值来描述自己抵抗风险的程度”,然后要求被调查者在1到10的坐标中刻画自己的位置,就如用坐标来测量政治价值观上左右倾向一样。而对客观数据的使用就司空见惯了,我们也经常会用“年龄”、“体重”或“身高”这样的测量值来表达对自己的理解。

值得一提的是,在进行田野的数据收集过程中,会出现各种各样的问题,比如数据收集者本身的操作失误,被调查者的问题(比如在问题一认为10头牛大于5头羊,而在问题二认为15头牛小于3头羊)等等,因此,这里更显现出实证研究的统计学的力量。经济学家通过统计学的基础来排除这些我们称之为“误差值”和“偏差值”的样本。

至于数据操作。很多人觉得,经济学家会通过操作数据,来改变统计内容或回归结果,由此来获取自己的学术利益或政府资助。确实,经济学家也在担忧这个情况,而且也有许多经济学家以为论证政府颁布的新政策的正确性为荣(还是那句话,这种人在认识领域都存在。可能只是因为经济学家跟政府互动较频繁而较为显眼)。经济学家可以通过使用不同的测量指标、测量方法和控制数据取值范围等方式来操作数据,因此来操作统计或回归结果。其实,正如对于如何解释社会不同的人会有不同的方法一样,经济学家们也有不同的方式来解释经济现象。而当经济学家运用不一样的指标来解释经济现象时,争议是不可避免的。但是我们可以相信,通过越来越多的争论,人们便会达成一定的共识,而这种争论在经济学界并不缺乏。

而通过操作数据来改变回归结果是很难的事情,因为回归结果有着其统计基础,经济学家对于回归结果也是无法预测的,因此并不是说经济学家想要有怎样的结果就能达到怎样的结果。实证研究没有有些批评者(往往是对计量一窍不通)提及的那样“神奇”。当然,经济学家可以通过制造虚假数据来改变回归结果,特别是当样本较小的时候。如果经济学家想要在大样本(比如观测值大于一万)的情况下伪造回归结果,那么他就必须要伪造几万甚至十几万以上的数据值,而且这样的伪造之后的数据的回归结果到底是什么,也是不能由该位”经济学家“(这种造假手段实在效率低下,情节恶劣无趣,以至于不能称其为”经济学家“)所掌握的。这里我们也可以看到统计学的作用,数据也许可以欺骗人,但是基于数据的回归结果是不会欺骗人的。如果一个经济学家通过伪造的数据来达到自己想要的一个结果,那么同行很容易通过对同样的指标进行数据收集,做出一个与前者相悖的研究。

在这里我想特别提下经济学家对于质疑的态度。经济学家在做实证研究的时候,经常会问自己,”我所做的研究到底有什么意义,它对学科的发展会有所贡献吗”(其实做实证研究的社科领域的学者基本上是抱着“要做出贡献”的原则来进行实证研究)。经济学家鼓励贡献,因此他们是带着坦诚的态度来进行研究的。经济学家自身就对同行进行过许许多多的质疑,比如样本选择偏差的问题,实证研究的内生性问题(互为因果问题)等等。

总的来说,经济学家进行实证研究时,是依靠着强大的数学(特别是统计学)基础建立起各种计量工具,通过提高数据质量,创造性地建立起各种田野实验和准试验分析,来理解这个社会的。经济学家认为,数据的回归结果是一个客观事实,而到底是怎样一种机制导致了这样的客观事实(就像存在一个黑盒子,里面到底是怎样的还不得而知,或者需要更进一步的研究),经济学家对其提出各种可能的解释,并且通过自身后续的研究或者同行的研究,来验证自己当初提出的这个可能机制的正确性。

 

欢迎各位批评指正。

如想转载,请联系我。:)

联系我

Share

发表评论

电子邮件地址不会被公开。 必填项已用*标注