版面导航:| 要闻 | 统计导刊(原) | 党建巡礼 | 统计法治 | 基层统计 | 交流思考 | 智慧统计 | 数说民生 | 地区经济 | 行业经济 |
| 脱贫攻坚 | 国际经济 | 经济观察 | 文心副刊 | 青春之声 |
  重点栏目:| 数据发布 |
大数据都用在哪_中国信息报
当前位置:[大数据时代] →返回首页
更新时间:2020年06月05日 08:56:57

大数据都用在哪

——大数据广泛应用场景一览
■ 汤志华 

    大数据在分析和预测经济变量方面具有巨大潜力,但大数据的结构大多凌乱多样,需要将其处理为有效的数据结构以分析并预测相关经济指标。
    
    大数据处理一般步骤
    
    一般来说,将非结构化数据转换成结构化数据涉及,提取、分类、开发存储库和数据映射四个主要步骤。其中,提取数据涉及到元数据的构建,可采用都柏林核心元数据(DCMI)来标识元素,如标题、说明、日期、标识符、创作者、发布者、类型、来源、主题等;也可以采用欧盟统计局的ESS-MH系统,并根据数据实际情况进行适当的调整。数据映射则是指设定主题(话题/业务、兴趣/业务对象),将存储库数据映射到主题库,输出结构化数据集。
    对于数据量巨大的情形,常使用随机子抽样方法来创建一个远小于原始数据的新数据集。例如,可以选择一个小时内随机秒数、一天中随机小时数或一个月中随机天数的观测数据,采用随机子抽样方法对总体数据集进行转换。随机子采样在大型数据集分析中非常经济高效,通过这种方式,研究人员可以随机提取子样本,不仅保留了原始数据的主要特征,且整体分布非常逼近原数据集。
    
    大数据应用常见场景
    
    不同研究主题或业务,在实际应用中所采用的具体数据结构化和转换技术不尽相同。
    对于高频数据,如金融市场交易数据,可能每秒都会产生数次交易,如何将其转换为观测值均匀分布时间序列?常用方法是在给定首选频率下进行价格抽样,获取当天数个时间段的交易观测值,并构建实际波动率,其可应用于多项金融领域,也可作为金融不确定性指标用于预测宏观经济。
    移动电话使用情况一般通过地理/空间角度和时间维度来映射为结构化数据。在人口统计工作中,可以通过评估移动电话数据的质量,充分利用不同地理/空间/时间的汇总数据,用以补充传统人口普查的统计数据。
    传感器数据则是将数据转换为地理/空间观测的过程。例如,根据传感器数据将流通的汽车数量按地理区域进行分类,研究交通预报情况;根据用户某段时间内的GPS位置来测量其进入商场的次数,用来改进零售业人流量的预测等。
    在卫星影像方面,如夜间灯光数据,一般将其用于解释或预测年度GDP增长情况。根据卫星灯光数据,对每日灯光数量进行分类,并采用不同颜色表示灯光强度,计算一国年度周期内的平均灯光强度,用以预测其经济发展情况。
    网络消费数据抓取是收集大数据进行宏观经济预测的方法之一,尤其在预测通货膨胀方面应用较好。在某段时间周期内,每日从选定网上超市或网上零售商的网站上抓取价格数据,并构建基于网络抓取数据的价格指数,可与官方消费者价格指数进行比较,研究线上和线下消费者价格指数之间的相关性,或者将网络消费者价格指数作为官方发布指数的补充。网络数据还可以非常及时地提供商品近期内的消费情况,用于观测经济活动的短期变化,如2020年3月京东大数据研究院发布《从消费数据看复工回暖》报告,从会议音频视频等远程工作设备、电热饭盒、办公用品、实体商铺所用收银机等销量数据,呈现了不同时期不同地区的复工复产特点。
    文本分析可以采用新闻报道、社交媒体信息、网络搜索数据等大数据进行分析。文本数据的结构化过程首先是将原始文本通过提取特定特征(例如特定关键词、单词序列、字母等)表达为数值数据,然后将数值数据进行映射,并根据数据特征构建结构化时间序列,最后利用高维数值方法处理和分析数据集。
    经济新闻报道一般来自专业记者,通过经济新闻文本数据,能够提供更多有效及时的经济信息并对宏观经济进行预测。例如,通过计算特定词汇如经济新闻中出现的关于“不确定性”描述出现的频率,作为衡量经济情绪波动状况的参考指标之一;利用向量空间语义方法(GloVe或word2vec)训练词语之间的语义关系,构建语义蔟来捕捉新闻中的“积极”或“消极”情绪,可以及时了解新闻舆论对于经济发展引导的倾向性,也可作为经济情况进行短期预测的补充。
    社交媒体信息的分析是将平台用户发布的文本(见解、经验、观点等)进行语义分析和识别,一般用来测量用户的关注行为和情绪指标。在经济分析中,与新闻报道类似,对于用户发布的文本中出现的关键词进行频率分析或语义关系训练,作为观测经济活动的舆论或情绪倾向的参考。
    由于网上搜索数据反映了用户的行为,利用搜索数据可以补充宏观经济的预测分析。例如,大多数人会在网上寻找招聘广告,因此提取与就业、失业相关的关键词搜索就很有意义。网上搜索数据也可以用于住房领域、度假地和旅游业、金融市场(主要是特定公司的股票价格)等方面的研究。对于更复杂的情况如工业生产、零售贸易或GDP,可能需要考虑大量关键词,此时,可以手动创建大量关键词并提取其网络搜索趋势。网络搜索数据还可及时观测到经济的短期发展情况,如2020年3月,百度发布了《六大线下行业复苏搜索大数据报告》,通过聚焦汽车、旅游出行、生产制造、房产装修、招聘、企业服务六大行业在疫情爆发以来的搜索趋势变化,展现线下行业复苏情况,为不同行业复工复产经济情况提供了较为及时的信息。
(作者单位:国家统计局统计科学研究所)

 
[近期推荐]
· 河南部署七人普重点工作...
· 湖南:提高认识抓紧准备
· 山西扎实推进省级综合试...
· 七人普综合试点总结暨全...
· 国家统计局党组召开会议...
 
[联系我们]
中国信息报记者名录

新闻热线:(010)63376728
广告热线:(010)63376800
发行热线:(010)63376723
举报电话:(010)63376713

中国产业报协会
产业报行业报新闻道德委员会
举报投诉电话:010-65573925
举报投诉邮箱:xwddwyh@126.com

报社简介 | 广告刊例 | 投稿信箱 | 记者名录 | 新闻记者证管理办法 | 报刊记者站管理办法 |
通讯地址:北京月坛南街57号国家统计局中国信息报社 邮政编码:100826
网址:http://www.zgxxb.com.cn 中国信息报社版权所有
京ICP备06043878号-2