刚好2020年是美国的人口普查年(每10年一次),且本人在美国居住,于是成为了这一波普查数据的一个样本点。因为之前用过中国的普查抽样数据,所以以为问卷长度会差不多。但最近刚填完美国普查问卷,发现内容其实特别短(至少对我这一户来说是如何),只是问了下住户和个人基本信息。感觉可以大概讲讲,权当做是一个小知识。并在结尾大概讲下中国的普查数据情况。
今年三月份时,住址门口上就被挂上了材料,材料里面也就是一封信。一般来说,在美国信件都会寄往住址信箱。普查信件却是没有走信箱,而是直接当包裹一样挂门口,大概是一种大型reminder的意思。之后一直没有填写以至于忘了这件事情,七月份的时候信箱里收到另一个很简单的信件(真reminder),正文写了一行加粗的字:“Your response is required by law”,于是便想起来上网填写这份问卷。
整个流程很简单:1.登录官网(my2020census.gov);2. 输入被分配的家户ID(随信可见);3. 完成问卷填写。附上官网问卷开始前的介绍截图。
问卷内容很短,大概几分钟就能填完。家户中人口数多的可能需要多点时间,因为每个住户的都需要填写自己的个人问卷,但个人问卷其实也很短,所以整体10分钟之内基本上可以搞定填写。
问卷分四个板块:Address Verification;Household Questions;People Questions; Final Questions。前两个板块像是过滤问卷,目的是确认:a.(2020年4月1号)你是住在当下这个地址和 b. 该地址的住户都有谁。由此进入个人问卷,问了些简单的个人特征:性别,出生年月日,是否为西班牙裔或拉丁裔出身,和你的种族信息。最后的板块则是询问填写人是否在其他地方住过。
可能是我的情况相对简单,所以几分钟就填写完成。如本文开头所说,我原本预期的问卷长度跟国内的普查问卷长度相仿,但发现其实不然。国内的普查问卷涉及到家户中个人的许多方面:除基本人口学特征,还会问及受教育程度和工作情况等。如果你对国内普查问卷感兴趣,这里提供一个1982年的普查问卷,挂在世行网站上,其他年份的也可自行Google。
但其实美国的普查问卷也涉及到人口学特征之外的其他问题,仅仅是部分的地址(2020年的抽样是:350万个地址)会被抽中填写这些内容,而我这一地址没有被抽中。这些被抽中的住址,需要填写另一份叫American Community Survey (ACS)的问卷,里面含括了如受教育程度,工作,互联网可获取程度和公共通勤等问题。美国普查局(US Census Bureau)官网提供了对ACS的介绍和它跟Census的对比,戳这里可见。ACS也是学界经常会使用的一份很重要的数据,虽然我没有用过这份数据,但是从官网上的介绍可知:虽是家户抽样数据,但是ACS是每年每个月都会执行的一份调查。由此可以想象最后的样本体量(样本数*变量)会很大。
那中国的普查数据情况如何?这里也介绍下中国的普查数据(背景信息+如何获取):
其实2020年也是中国进行普查的时候,我们管这种10年一次的普查叫大普查(全人口),因为在两次大普查之间,还会有一次小普查(全人口1%抽样)。根据维基页面,新中国历史上一共进行了六次人口(大)普查,时间分别为:1953,1964,1982,1990,2000,和2010。所以2020年的普查是第七次人口普查。
先介绍下学界能拿到的普查数据:脱敏数据,大普的样本量是对当年家户的10%进行~1%再抽样,即人口总数的~1‰;小普数据的样本量则是对当年1%人口进行再抽样,最后抽样比同样是占当年人口总数的1‰。具体而言,以2010年六普为例,2010六普数据为全抽样(人口总数为~13亿4千万),对供学界使用的数据进行了0.995%的再抽样,最后的样本总人数为一百万左右(1267381),占当年人口总数比例的0.95‰。(来源资料见国家统计局微观数据官网附件处)
再介绍下应该如何获取这些数据。获取性主要分两种情况来讲:1. 对于1982, 1990, 和 2000 的中国普查数据, 可以在IPUMS International上申请下载。具体需要先申请一个账号,审核通过之后可以下载具体数据。链接戳这里。2. 对于2000年及其之后年份的数据,需要跟国家统计局或其合作的学界机构(如清华大学的中国经济社会数据研究中心)申请,然后实地访问使用。详细具体信息可见国家统计局微观数据官网附件处。清华大学的中国经济社会数据研究中心也写了一个很好的介绍公告:《微观数据开发应用情况简介》。
中国统计局目前在跟学界机构合作,以提供更多行政数据方便学界研究使用,值得赞扬。这无疑会汇集到学界及其之外的诸多领域,希望能看到这一进程在将来继续稳步前行。