数据收集是科研工作的一项重要内容,往往要耗费研究者的大量时间,那么面对如此庞大的数据集,如何方便快捷的获取呢?谷歌的Dataset Search为你解决了这个问题。
今年9月谷歌推出了Dataset Search,在过去的几个月我们一直在观察,和许多研究者一样,我们认为它是非常实用的,谷歌科学家Natasha Noy曾表示:谷歌帮助建立数据库搜索引擎的目标是统一数万个不同的在线数据库。
原理
谷歌 Dataset Search 高度依赖大大小小的数据集提供者,利用开放 schema.org/Dataset 标准在自己的站点上添加结构化的元数据。元数据指定了每个数据集的显著属性:名称和描述、空间和时间覆盖、出处信息等。Dataset Search 利用这一元信息,将其与谷歌上的其他可用资源连接,并为这个丰富的元数据语料库建立索引。建好索引之后就可以开始响应用户检索,并找出最符合检索的结果。
使用
与谷歌Scholar工作方式类似,不论数据集是托管、发布在哪个网站、数字图书馆或个人网站,都可以轻松的查找与访问。甚至作者信息、更新时间、内容介绍等信息都会一览无余,且支持多种语言。
例如,如果你想分析每天的天气记录,你可以在数据集搜索中尝试输入daily weather:
是不是很赞,赶快试试吧!