暑期在学校做RA,参与一个跟中国空气污染相关的项目。之前听过一些用空气质量数据写的文章,但并没有过多留意,没想到这两年经常能看到相关的paper或working paper,而且我想将来使用这方面数据的人也会越来越多。因此整理了下中国空气质量数据的相关资料,并在此跟大家分享下。当然,主要是以经济学的视角来写这篇文章。
空气质量数据,按数据来源分为两类,一类是政府网站提供的数据(下文1-4),另一类则是网友提供的,在政府网站上抓取下来的数据(下文5)。前者是社科学者直接能用的数据,即使可能存在数据造假也可以用,这点下面会谈到;后者则是爬虫数据,主要是网友在做的一些相关项目提供的数据(which is awesome)。后者的数据获取会比较简单(一些网站提供API接口或SQL格式的数据),但数据在使用之前需要跟官方数据做一下核对。
1. 全国城市空气质量日报(http://datacenter.mep.gov.cn:8099/ths-report/report!list.action?xmlname=1462259560614)
全国城市空气质量日报是环境部数据中心的一部分,目前提供中国367个城市每天的AQI数据。最早可查询到2014年1月1号的数据,但是时间越早的数据所涉及的城市越少。
说到空气质量数据,值得一提的是2012年之前,中国政府使用的是API(Air Pollution Index)数据。事情的拐点发生在2011年年底,美国驻华大使馆开始在推特公布北京的PM2.5数据,民众渐渐关注到中国的空气议题,之后中国政府在批评声中修改了空气质量标准,而以往的标准是不包含PM2.5这一指标的。AQI和API的区别,如维基百科AQI条目所述:
“AQI分级计算参考的标准是GB 3095-2012《环境空气质量标准》(现行),参与评价的污染物为SO2、NO2、PM10、PM2.5、O3、CO等六项,每小时发布一次;而API分级计算参考的标准是GB 3095-1996《环境空气质量标准》(已作废),评价的污染物仅为SO2、NO2和PM10等三项,每天发布一次。因此,AQI采用的标准更严、污染物指标更多、发布频次更高,其评价结果也将更加接近公众的真实感受。”
早期的经济学的相关研究使用的主要是环境部的API数据,其中包含了PM10、SO2和NO2三个指标。如Ghanem&Zhang (2014) 发表在JEEM的文章,通过研究中国113个城市2010年期间的API数据,他们怀疑中国有一半的城市存在数据造假行为。他们发现天数的密度曲线在API为100左右存在一个断点,即API稍稍小于100的天数会明显多于API稍稍大于100的天数。这以断点对北京特别明显,而API在100以下则是北京市“蓝天计划”中的蓝天标准。除此之外,Chen et al. (2013)同样发表在JEEM的文章,利用2000到2009年的API数据研究发现,北京为举办奥运会所做的改善空气准备,确实改善了北京的空气质量。其后为了排除数据造假对其估计的影响,他们使用美国NASA卫星的AOD数据做了稳健性检验。因此,我们可以看到,即使数据被怀疑存在造假,也是可以用以研究的;一是研究数据造假本身,二则是利用第三方可靠的数据源进行论证。
2. 全国城市空气质量发布平台(http://106.37.208.233:20035/)
该平台由中国环境监测总站提供,是除了上述空气质量日报之外,另一个中国官方提供的空气质量数据。该数据源最大的特点在于其提供实时的各城市各个监测点的数据,也就是说,这一网站提供的是每小时的、散落在不同城市的各个检测点的,包含了SO2、NO2、PM10、PM2.5、O3、CO六个指标的数据。这应该能为经济学研究者进行识别(identification)提供不少帮助。但该网站有一个槽点,是只能用IE浏览器打开。
3. 美使馆数据(http://www.stateair.net/)
该项数据由美国驻华大使馆(北京)和四个领事馆(上海、沈阳、成都和广州)所提供,网站上提供实时的AQI数据,也有历史的每小时PM2.5数据提供下载。这是上述五个机构自己测量的空气质量数据,监测点应该在各使馆内部。虽然涉及到的城市只有五个,即北京、上海、沈阳、成都和广州,但是数据质量可信度较高,很适合拿来做稳健性检验。如上文所述,美使馆于2011年底开始在推特公布PM2.5数据,推动了中国政府在空气质量检测方面的改变。
4. 美国NASA的AOD数据(https://ladsweb.modaps.eosdis.nasa.gov/)
AOD的全称是Aerosol Optical Depth,中文叫气溶剂光学厚度,该数据由美国国家航空航天局(NASA)的MODIS卫星提供。作为Chen et al.(2013)里提及的数据,这里也仅仅是提及下。因为涉及气象学方面的知识,我也不是很了解。数据具体的下载网站是https://ladsweb.modaps.eosdis.nasa.gov/,但这应该跟灯光数据类似,需要了解相关领域才能懂得如何处理数据。值得一提的是,网上有些研究表示,AOD数据与PM10存在相关性,但是这一相关性会受季节或其他气象因素影响,因此使用时需要注意控制变量的设置。感兴趣的同学还请自行google相关资料。
5. 一些网友整理的数据
最后介绍下一些网友爬虫整理的数据,他们的数据源基本来自上述介绍的两个中国政府网站。但有些网站并没有明说其数据源是什么,对于这些网站,并不能确定他们的数据源是什么。
第一个的网站是 http://aqicn.org/ ,特点是提供英文(和其他语言)界面,且提供的是全世界范围的空气质量数据(虽然我们并不关心这点),感觉外国人多半会选择这个网站来了解一些中国的空气质量信息。第二个网站则是http://www.pm25.in/ ,特点是提供API接口,因此方便人们抓取数据。这两个网站都没有明说其数据源,但提供的是中国各城市的监测点数据。我猜他们的数据源应该是前面提到的“全国城市空气质量发布平台”。
第三和第四个网站分别是中国大陆重点城市空气质量(AQI)历史数据库(https://www.gracecode.com/aqi.html )和中国大陆重点城市空气质量(AQI)数据抓取(http://ydoku.com/aqi-fetch.html)。他们抓取的都是环境部数据中心提供的中国各城市每日的AQI数据。两者都是网友自己抓取的数据,前者网站上写着“目前数据库包含 3231
个地区的总计 444391
条数据,时间跨度为 2000-06-05
至 2015-02-25
”;后者则是在前者的基础上,抓取了2014-01-01
至 2017-04-27
的数据。数据的储存格式是SQL,因此需要处理一下转化成csv格式。
参考文献
- Ghanem, D., & Zhang, J. (2014). ‘Effortless Perfection:’Do Chinese cities manipulate air pollution data?. Journal of Environmental Economics and Management, 68(2), 203-225.
- Chen, Y., Jin, G. Z., Kumar, N., & Shi, G. (2013). The promise of Beijing: Evaluating the impact of the 2008 Olympic Games on air quality. Journal of Environmental Economics and Management, 66(3), 424-443.
欢迎各位批评指正。
如想转载,请联系我。:)