秀站网,秀执着,秀梦想,一个爱秀的地方!

自媒体资讯网

热门关键词:  as  i hone  阿萨德  网站
政府“开放数据”访问量低?可能是数据不“对味”
来源:
作者:
时间:2018-01-30
浏览热度:
#评论#
[ 导读 ] 中国有越来越多的城市开始向公众开放各类数据,但这些数据真的是市民们所需要的吗?市民对什么类型的数据需求最大?在最早推动“开放数据”的美国,一家名为阳光基金会的机构前段时间发布了一份报告,给出了一份当地居民最欢迎的“开放数据”类型排名,或对中国
中国有越来越多的城市开始向公众开放各类数据,但这些数据真的是市民们所需要的吗?市民对什么类型的数据需求最大?在最早推动“开放数据”的美国,一家名为阳光基金会的机构前段时间发布了一份报告,给出了一份当地居民最欢迎的“开放数据”类型排名,或对中国城市有所启示。

▍美国的政府“开放数据”中,哪些数据最受居民欢迎?

在2017年, 美国各地方政府及州政府发布的“开放数据”(Open Data)类型几乎无所不包,涵盖了日常生活的方方面面。然而我们并不知道居民们如何看待和使用这些巨量的公共信息。

随着地方政府越来越多地为居民提供获取公共数据的便捷渠道,政府应该优先考虑提供开放哪些类型的数据?

为了弄清楚人们最感兴趣的数据类型,我们分析了全美范围内141个城市/州政府提供的总计2.1万份开放数据集的文本描述部分,并根据被浏览与下载的次数对这些开放数据集的热门程度进行了打分,结果如下:

 

\

 

如图,结果显示,最受居民欢迎的10大“开放数据”类型依次为:1. 警察与犯罪;2. 交通运输;3. 紧急呼叫;4. 住房与经济发展;5. 建筑安全;6. 政府财政;7. 竞选活动;8. 营业执照与政府采购; 9. 服务与监察;10. 学校与教育。

▍怎样获得关于“开放数据”相关的数据

我们怎样才能知道哪种类型的开放数据最热门呢?幸运的是,有关“开放数据”的数据也是开放的。

为了尽可能多地收集各个城市/州的开放数据信息,我们找到了一个在线开放数据网站Socrata,该网站能够给我们提供关于“开放数据”的浏览、下载量,以及大量的描述性文本信息。

此外,我们使用Socrata的API接口来获取和整合那些在Socrata平台上发布过公开数据集的地方政府信息。

由于时间和数据可获取性的限制,我们只分析了在Socrata平台上能够获取的数据。这项研究是中立的一项研究,不带有倾向性。

虽然Socrata不是唯一提供这种“开放数据”信息的平台,但它是最大并且被广泛使用的,因此,我们才会选择Socrata作为我们的数据源。

▍同样的数据集,地方政府却用了不同的文字描述

收集数据是一件容易的事,但很快我们便发现了问题:针对同一种数据集,不同的城市采用了不同的文字描述。

例如,有一个城市的政府将他们年度预算命名为“Fiscal Year 2017”(2017年度财务),另一个可能会叫它 “2017 Budget”(2017预算)。因此,我们需要找到一种方式来整合有着不同文字描述的相同主题类型。

我们的解决方法是通过机器学习算法,将意义相近的词语整合成一组,一组即一个主题。

通过这种方法,我们获得了52个主题 。每个主题都包含了许多密切相关的词语,例如“火灾”,“警察”,“紧急事件”,或是“许可”,“建筑”,“建造”等。

我们还能够利用机器学习的算法,根据某个数据集的文字描述来确定这个数据集属于哪一类主题。最终我们将所有(超过2.1万份)数据集整合进了这52类主题中。

▍大城市的“开放数据”自带“流量包”,须剔除干扰因素

一旦我们将数据整合进了各个主题类型中,归好了类,我们便希望了解哪些数据最受人们关注。

然而,如果仅仅是根据用户对于某主题类型数据的总下载量和浏览次数来确定某一主题的热门程度,那些比其他城市拥有更多交通总量的交通枢纽城市——例如纽约、洛杉矶,自然会拥有过高的数据浏览和下载热度。此时,最终的分析结果会受到影响。

为了减少大城市过高的“热度”对于整体分析结果带来的偏差,我们首先计算了数据集某一主题类型的数据被浏览以及下载的总次数,然后通过计算这个总次数的自然对数来“抑制”这些大城市的热度。据此,最终我们计算了所有城市各主题的数据,对其进行对数运算来消除大城市过高“热度”的影响,然后再进行比较,最终得出结论。

▍公共安全和交通数据最为热门

一旦我们知道了如何整合那些名称不同却涵盖相似内容的数据集,并且找到测量这些数据集热度的有效方法,我们便可以开始对各主题的热度进行比较了。具体的热度排名列表你可以在我们的github主页获得。(获取方式在文末)

由于我们的打分系统是人工的, 我们可以不用过多关注不同数据集热度评分间的微小差别。例如“建筑许可”(584分)并不一定就比“年度财务预算”(582分)或者“竞选活动”(572分)更加热门。

更确切地说,我们的评分排序系统更像是将各类数据主题类型按热度分为了不同组别,例如“犯罪报告”、“个人交通”以及“公共安全保障系统”都处于热门组当中。

即便如此,在尝试了多种不同的关于热度的算法后,我们还是会发现“公共安全”和“交通运输”数据集始终处于热门位置(DT君注:若对不同打分算法的细节感兴趣,文末可获取完整代码)。

▍结论的局限性

正如之前所说,我们只收集了Socrata平台上的数据,若将其他数据来源同时考虑,最后的分析结果可能会有所不同。

我们使用随机的概率算法来聚合拥有相似主题的数据集,因此我们的模型每次运行的结果,即产生的主题会有差异。为了此次研究的可复制性,我们需要将某一版本的模型过程进行存储。因此对于我们获得的评分结果,需要对照着我们2017年8月公布的数据主题类型列表来理解。当然,我们非常鼓励人们使用和完善我们的模型(DT君注:获取方式在文末)。

我们的匹配算法并不是完美的。同一个数据集通常会同时和多个主题相关。此外,有一些词汇在不相关的数据集中也经常同时出现,或者是在不同情境下含义大不相同。确实存在一些数据集被归入了错误主题的现象,但我们相信错误率已经达到最低。

我们使用的数据并非来自控制实验(理想的控制实验是:控制变量,随机抽取受试者样本并了解他们对各类数据集的感兴趣情况)。事实上,我们用来衡量各类数据集热度的下载、浏览量的数据,还会受到这些数据所在的网站的界面设计等很多因素的影响。

▍我们的评分结果对各级政府的启示

相关文档:

城市开放数据不好用,是你太笨还..

闲话互联网开放型数据价值挖掘..