|
|
里有一个包含独角兽的存档页面。收藏集–作为最早无需专业知识即可创建网页的平台之一降低了新一代网站创建者的准入门槛。在年被雅虎关闭之前上至少展示了万个页面。此数据集集合包含多个独立数据集其中包括域名数量图像图和网页图数据以及各种文件格式例如音频视频文本和图像文件的二进制文件信息。此外还提供一个用于域名图的文件。
数据集集合:–是一个早期且广泛使用的社交媒体网站用户可以在该网站上与其他用 数据库到数据 户建立并维护多层级的联系。此数据集包含图文件可用于开展数据驱动型研究探索中特定页面之间的链接关系。此外它还包含一个数据集提供存档集合中各个文件的基本元数据。数据集集合:早期网络语言数据集–年这两个相关数据集均源自互联网档案馆的全球网络档案库。第一个数据集“早期网络平行语言记录-”提供了一个多语言记录数据集即同一文本以多种语言呈现的网站。

这些来自网站的多语言文本是构建平行语言语料库的丰富资源在机器翻译中具有重要价值。第二个数据集“早期网络语言标注-”是另一个元数据数据集它使用紧凑型语言检测器对超过四百万个网站的语言进行了标注。早期网络语言数据集:档案库释放计划现正接受对网络存档数据计算分析感兴趣的研究团队的申请。我们将遴选五个研究团队每个团队最多五名成员参与该项目项目时间为年月至年月。
|
|