政务大数据需避免的三大认识误区

大数据等于开放数据

由于目前尚无对“大数据”的标准界定,政府部门对大数据的认识存在混淆,将开放数据等同于大数据,将任何“大”的政府数据集的发布都当作是大数据。但事实上,很多开放数据只是离散的“小数据”,并不具备大规模、未经处理和非结构化等大数据的基本特征,且很多通过开放数据机构发布的在线数据集仅仅是一个可用的样本集。同时,虽然开放数据对于促进政务大数据应用意义很大,但当开放数据仅仅是由于上级部门的指令要求,并对政府部门本身工作并没有任何回馈时,开放数据项目就会缺乏可持续性。

考虑到开放数据并不是不需要成本(公务员需要花时间去收集这些数据,并发布出去),在政府看不到任何收益的情况下,其维持下去会很困难。在加拿大和英国,已经有证据表明,政府开放数据项目的可持续性受到了威胁,有些官员将开放数据描述为仅是由一小群爱好者推动的“桌角项目”。这实际上也是因为网站数据集的可用性不佳造成的27。

此外,为了便于开发者和分析者能够不受数据格式限制而处理数据,开放数据集都是以原始格式发布,这将影响数据的获得和使用。由于缺乏编码的一致性,这些数据在没有电脑归纳的情况下非常难以理解,从而难以得到真正有效应用。再以美国的data.gov门户网站为例,其在2012年包含有378,529个原始空间数据集、1,264个政府APP和236个公民开发APP。然而到了2014年,该网站的数据集事实上已经下降到了108,606个,且各种APP的数量也有所下降28。可见,在推动政务大数据应用中,并不能简单地将大数据等同于开放数据。

大数据等于共享数据

Gang-Hoon Kim等29对美国、英国、荷兰、瑞士、新加坡、日本、韩国、澳大利亚等欧美发达国家的24项政府大数据应用进行了统计分析,发现目前欧美发达国家大数据应用发展相比商业领域大数据其规模还有很大距离,且目前大部分政府大数据应用的对象仍以结构化数据为主,较少采用实时、动态、半结构化甚至非结构化数据。这在我国政务大数据应用中也较为常见。

据调查,目前很多地方政府建设的大数据平台,仅仅是过去政府共享数据平台的“翻版”。政府推动大数据平台建设首要目的不是推动大数据应用,而是统一政府信息基础设施,实现各部门数据的互联互通。但政府大数据不仅仅是政府自身的业务数据,在当前社会,有大量对政府治理有意义的大数据源,如金融、电商、医疗、社交媒体等,并不完全由政府自身掌握。在推动政务大数据应用中,应逐步整合政府外部数据资源,建设国家层面的全国性大数据中心,形成更加完善的治理决策支持体系,以在数据整合的基础上实现服务整合。如澳大利亚Centrelink国家数据中心的建设,全国各地的Centrelink与数据中心直接联网,联邦、州、当地的服务机构,如税务部门、金融机构、警局等,也与数据中心实现联网共享;Centrelink在多种服务渠道的后台,借助信息通讯技术将业务流程、服务、网络和资源进行优化整合,便捷、高效地为公众提供一体化的服务。

大数据等于海量数据

随着大数据在我国的不断发展,各个地方都开始兴建大数据中心,但对于大数据中心的建设,更多的还停留在“建机房、上设备、堆数据”的阶段,忽视了大数据强调的是对数据的分析和应用。对于政务大数据的推进或大数据中心的建设,首先应有周密、严谨、细致的数据目录体系顶层规划,建立统一的数据资源目录体系、数据标准体系、数据质量审计体系和业务系统数据共享交换体系等;其次要有可对比、可回溯、可审计的数据质量管理*体系,保障数据采集获取的可持续性,避免“数据陷阱”;再者,要有精通数据挖掘业务建模的数据科学家队伍,从政务应用需求出发,做好潜在数据价值的挖掘与应用。此外,当前不少学者还未真正认识到大数据价值,认为海量数据无法获得,且大数据只是一种暂时性趋势。诸不知,大数据虽指海量数据,但并不是“全数据”,而是数据资源总量不断增长的状态,且从“大数据”中挖掘出价值信息才是大数据应用的关键。

0%