潘璠
近一时期来,研究大数据问题,参阅了许多相关文章和研究成果,走访了不少有关企业和政府部门。诸多研究都认为,大数据具有数据量大、价值量大、类型繁多、处理速度快等特点。大数据以其存在形态划分,既有可以用二维表形式表示的结构化数据,更有大量难以用二维表形式表示的非结构化数据,且后者的比重远远高于前者。还有研究成果认为,大数据现象将对统计工作以及统计学的理论方法产生重要影响。对统计工作特别是政府统计工作的影响,对于做了30多年统计工作的我来讲是完全可以理解的,但对统计学的影响我就一时有些不明就里了。直到分享了一些年轻研究人员的学术观点后,我对这种说法才有了一些了解和理解。 持这种观点的研究者认为,很多不同类型的大数据都具有一个特点就是:样本=总体。比如,一些部门的行政记录,一些网站的商业交易记录,一些基于某个关键词的网上搜索记录,等等。你用还是不用,数据就在那里。如果想拿、有办法拿,就可以过去一把抓,一抓一大把,把需要的都拿到手里。换言之,通过数据抓取技术拿过来的相关大数据,就是一个相对完整的总体,而不是按照抽样技术抽取到的少量样本。于是,年轻学者们说,这就对传统统计学提出了挑战,因为传统统计学研究的,就是如何通过样本来推算总体。有两个常被引用的经典案例,一个叫“黑球和白球”,一个叫“捕捞再捕捞”。前者说的是一个袋里有8个黑球和N个白球,因为不知道白球的具体数目,所以也不知道黑球与白球加在一起后的总数,需要一次次地抽取、放回,把每一次抽取到的黑球做上记号并放回,通过其被抽中的概率推算球的总数和白球的数量。而“捕捞再捕捞”案例的设计也是如此,只不过黑球、白球变成了红鲤鱼和鲫鱼。学者们说,这就是统计推断。而大数据背景下,可以一下把所有的球都抽上来,把所有的鱼都捞上来。可以直接对总体进行数据处理和分析,不需要抽几个样本进行推算。如果一定要用“样本”这个概念,那么,样本即等于总体。 或许对年轻学者而言,从他们的统计学启蒙开始,接触的就是大一统之后的西方统计理论。当我们通过《统计法》确立了以抽样调查为主体之后,年轻人从走进校园到走上工作岗位,都可以切身感受到抽样调查的主体地位。但对我来说,看到“样本=总体”的表述,第一反应却是“这不就是全面调查吗”?想当年,在我们依靠运作有效的系统和渠道进行全面调查时,曾努力解放思想,去大力推进抽样调查,尽管西方统计人士也有声音说,我们搞抽样是因为拿不到全面的数据;尽管多目标(不是一般的多,而是很多)抽样、满足各级的代表性,至今都是一个抽样调查难以解决的难题。而现在,当那些一开始就搞抽样的人、一开始就学抽样的人,都在把直接面对总体作为一个新生事物而看待和迎接时,让我们这些时至今日还在不遗余力地去确立抽样调查主体地位的人们情何以堪呢? 但经过思考分析,我又意识到,此一时彼一时,时代不同了。大数据背景下的“全面调查”比之我们曾经在年报和定期报表中采用的全面调查,已经发生了根本的变化。曾几何时,我们虽然也对每一个单位去“应统尽统”,但大多数情况下,每一个填报单位的数据都是层层汇总上报的。以当时的计算手段,难以对成千上万的统计对象进行直接加总,更难以作各种各样的分组和分析。而面对一些大数据的全样本,比如互联网上的交易信息,我们是可以直接一把抓的,而且不需要动员千千万万的人民群众。当年做不到的很多事情,现在都可以做到了。所以,我们的工作方式和方法必须作出相应的调整,以适应大数据时代的发展变化。但是否还要进行抽样呢?我以为至少在相当一段时间内,不仅必要,而且还需要完善。比如价格指数的编制,无论是新加坡统计局从商场、超市取得的价格信息,还是美国麻省理工学院实施的10亿价格项目,或是阿里巴巴公司的淘宝价格指数,都要在获得大数据基础资料的基础上,继续进行抽样和计算,因为以现在的手段,还真的不能把近乎天文数字的大数据信息带入也近乎天文长度的公式中去转圈。至于将来呢,如同20年前我们想象不到今天会走到一个大数据时代一样,我们不知道20年后会走到哪里。但我们还是要多观察、多学习、多思考,既借鉴他山之石,又从自身的实际出发,我们才会在正确的道路上前行,并走得更好更快一些。
|