版面导航:| 新闻资讯 | 统计导刊 | 数说民生 | 经世导刊 | 行业看台 | 汽车时代 | 周末副刊 | 数苑观象 | 地方经济 | 新月刊 |
| 区域观察 | 经济观察 | 城市经纬 | 艺苑大观 | 县域经济 | 调查月刊 | 特色产业 | 脱贫攻坚 | 青春之声 | 大数据时代 | 法治利剑 |
  重点栏目:| 今日评论 | 潘璠视点 |
网络爬虫技术促大数据与CPI 调查融合发展_中国信息报
当前位置:[大数据时代] →返回首页
更新时间:2019年09月12日 08:54:56

网络爬虫技术促大数据与CPI 调查融合发展

■ 胡建伟 仇海燕 

    网络爬虫是一种自动抓取互联网信息的程序或者脚本。应用网络爬虫技术能够将大量无序的、碎片的网站数据规则化、系统化和格式化,从而便于对数据进行整理、挖掘和分析。今年以来,青岛调查队在居民消费价格调查中,创新应用网络爬虫技术开展互联网大数据采集和应用,在实践中显现出良好效果。
    网络爬虫技术在CPI调查中成效渐显
    青岛调查队积极探索、大胆尝试,应用网络爬虫技术有力地推进了CPI调查。
    采集房租网络大数据评估房租价格指数。利用网络爬虫技术特定抓取房地产网络平台上的公开租房信息,如房源楼盘、行政区域、片区、地址、房型、面积、楼层、朝向、挂牌价格等网络大数据,进而开展深度挖掘和分析,获取CPI中私房房租新统计方法所需的各行政区热点板块、代表户型等规格品信息,各行政区、各户型租赁成交房数量比重等数据,并按照挂牌价格测算变动趋势和幅度,用于评估私房房租价格指数,有效提高了数据评估的科学性。
    代替人工实现网络价格定时云采集。互联网的快速发展使网络消费在居民消费中的比重越来越大,网络商品和服务的价格采集成为当前CPI调查的重要课题之一。利用网络爬虫技术,通过自定义数据采集规则,批量采集互联网上机票、宾馆住宿、火车票、电子产品等网络规格品的规格参数、原价、成交价、运费、销量、店铺信息、客户评价、网址等信息,并利用服务器集群实现数据定时云采集,最大限度地替代目前的人工网络采价,提高了采价效率和数据精确度。
    利用大数据维护样本代表性。应用网络爬虫技术批量采集网络店铺和网络商品的销量、客户评价等大数据,进而进行CPI样本分析,科学选取符合制度要求的、最具代表性的网络调查点和网络规格品。对失去代表性和更新换代的规格品,通过抓取的网络大数据分析,可以进行及时、合理的替换。
    搜集网络信息进行物价热点和舆情监测。一是定期抓取互联网上有关消费价格,特别是粮油肉蛋菜等重要食品价格的微博信息,依据信息的转发、评论、收藏和点赞数量,掌握当前社会关注热点和价格变动苗头,增强了统计分析的针对性和实效性;二是在每月CPI数据发布后3日内,自动在微博等网络平台抓取网民针对CPI数据发布的观点,提取关键词和典型意见,及时应对网络舆情。
    应用网络爬虫技术开展CPI调查优势明显
    网络爬虫技术的应用,有效推进了大数据与统计的深度融合发展,与传统的CPI调查方法相比,体现出了极大的优势。
    扩充了调查样本和数据量。通过网络爬虫技术可采集各类互联网大数据,极大地拓宽了基础数据的来源,提高了数据收集速度,扩充了统计调查样本量和数据量。以私房房租价格调查数据为例,青岛调查队将网络爬虫技术应用到房租价格调查中。目前采集互联网平台待租房租数据最快速度达到了1分钟采集359套房源,6500条数据;参与测算和评估房租价格指数的原始数据,由平均每月6000笔扩大到90万笔,数据量是原来的150倍。
    优化了调查业务流程。首先,定时云采集减少了中间环节,提高了数据质量。当前CPI调查中网络交易价格采集普遍采用人工方式。而应用网络爬虫可实现规格品价格定时云采集。调查人员配置好采集规则后,无需开机即可完成自动定时采集数据,减少了人工采集数据和报表整理的中间环节,避免了多流程操作产生的误差,数据质量大大提高。其次,应用网络爬虫可提高选定规格品的“代表性”。目前CPI网络调查点和代表规格品的选取一般参照网络排名,或将网站同类商品销量排序后,根据经验选择确定。而网络排名和网站排序往往会受电商营销策略影响,并不完全准确。应用网络爬虫可长期追踪同一类商品在主要电商平台的品牌、销量、价格、综合评分、客户评价、推荐率、商品参数等指标,通过对海量数据进行综合性筛选和分析,选定符合制度的最具代表性的调查点和规格品。
    完善了数据评估机制。一方面,针对部分网络消费占比较高的CPI基本分类,应用网络爬虫技术可长期跟踪其价格和销量数据,测算网络消费价格指数,进而对CPI相关分类指数进行评估或开展对比分析,进一步提高数据质量;另一方面,国家统计局明确要求,要参考互联网租赁挂牌价格对CPI中私房房租价格指数进行评估,而网络爬虫技术为抓取房租互联网租赁挂牌价格提供了极大便利,使数据评估更加准确可靠。网络爬虫技术强化了大数据的应用创新,为政府统计提供了有益的补充和验证。
    丰富了统计数据产品。大数据的优势在于“以大见小”,通过对大量数据深入分析,挖掘数据中蕴含的新规律新见解,能够丰富统计数据产品,进而完善政府统计方法。例如,可长期追踪抓取互联网平台的飞机票、宾馆住宿等价格,通过深入分析研究“提前预定天数”与“预定价格”的相关关系和变化规律,获取“提前预定天数”的最优选择,从而进一步完善CPI调查方法。
    大数据在CPI调查中的设想
    目前的CPI调查方法允许利用行政数据、企业电子数据和互联网数据等非传统方式辅助采价,但统计制度仍然规定使用“代表规格品法”计算价格指数,统计方法并没有跟调查方式同步推进。因此,建议改进CPI调查制度,对于可以获取企业或互联网大数据的分类,如电子产品、电影票、书籍、飞机票、宾馆住宿、家电、通信服务、车辆保险等,探讨研究并采取规范统一的大数据统计方法,从而提高价格指数的数据质量。此外,建议国家统计局统一建立统计专用网络爬虫技术平台,提供满足统计各专业需求的数据采集规则和模板,对各级统计调查机构组织开展培训和技术支持。建立与政府部门及大型企业信息共享机制。同时,统计部门应与商务部等职能部门、阿里巴巴、链家等大型企业建立合作机制,获取商品零售企业、电商、互联网平台大数据。
(作者单位:国家统计局青岛调查队)

(微课堂)网络爬虫

    网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
    聚焦爬虫主要是定向抓取相关网页资源的。它是一个自动下载网页的程序,根据既定的抓取目标,有选择地访问互联网上的网页与相关地链接,获取所需要的信息。与通用爬虫(general purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。

 
[近期推荐]
· 《新中国统计70年》首发...
· 8 月份居民消费价格同比...
· 新产品开发力度不断加大
· 企业专利申请持续活跃 助...
· 初心铸就来时路 重整行装...
 
[联系我们]
中国信息报记者名录

新闻热线:(010)63376728
广告热线:(010)63376800
发行热线:(010)63376723
举报电话:(010)63376713

中国产业报协会
产业报行业报新闻道德委员会
举报投诉电话:010-65573925
举报投诉邮箱:xwddwyh@126.com

报社简介 | 广告刊例 | 投稿信箱 | 记者名录 | 新闻记者证管理办法 | 报刊记者站管理办法 |
通讯地址:北京月坛南街57号国家统计局中国信息报社 邮政编码:100826
网址:http://www.zgxxb.com.cn 中国信息报社版权所有
京ICP备06043878号-2