维基媒体希望让你和人工智能开发者更便捷地搜索其数据 - AI News
维基媒体希望让你和人工智能开发者更便捷地搜索其数据

维基媒体希望让你和人工智能开发者更便捷地搜索其数据

2025-10-01

新闻要点

Wikimedia 旗下 Wikidata 将推新 AI 友好数据库。由 Wikimedia Deutschland 团队打造,耗时一年将 1900 万条目数据转为向量,降低 AI 开发门槛,利于反映小众话题。旨在助力小开发者,目前等待开发者反馈再更新 。

- Wikidata 推新数据库 方便 AI 开发

- 团队花一年将 1900 万条目数据转为向量

- 目标助力小开发者 反映小众话题

- 等待开发者反馈 再更新数据库

主要内容

英国已故作家道格拉斯·亚当斯以 1979 年出版的《银河系漫游指南》一书而闻名。但亚当斯的贡献远不止于维基百科条目所写。无论你是否需要知道他的星座是双鱼座,或世界各地的图书馆都以相同的数字串——13230702 来存储他的书籍,如果你前往维基媒体基金会中一个被忽视的角落——Wikidata,就可以了解到这些。在那里,与亚当斯相关的图像、文本、关键词和其他信息既存储在网页中,也以适合机器的 JSON 格式为我们这些“机器人”存储。

现在,Wikidata 正在获得一个新的对 AI 友好的数据库,这使得大型语言模型更易于获取信息。该数据库来自维基媒体基金会德国分部的维基百科嵌入项目,由 Wikidata 负责监管。柏林团队在过去一年中使用大型语言模型,将 Wikidata 中的 1900 万个条目从结构笨拙的数据转换为捕捉 Wikidata 条目上下文和含义的向量。

Wikidata 组合负责人莉迪娅·平彻告诉 The Verge,在这种向量格式中,信息最好被想象成一个有点和相互连接的线的图——亚当斯将与“人类”以及他的书籍标题相连接。项目负责人表示,虽然前端用户体验将保持不变——不,维基百科不会变成聊天机器人,但后端将更易于 AI 开发者在构建自己的聊天机器人等应用时访问。

平彻表示,该项目的目标是为大型科技公司核心之外的 AI 开发者提供公平的竞争环境。像 OpenAI 和 Anthropic 这样的公司有资源将 Wikidata 向量化,就像平彻和她的团队所做的那样。较小的公司最受益于对存储在 Wikidata 保险库中的精选数据的新访问权限。

她以 Govdirectory 为例,该项目利用志愿者精心策划的 Wikidata 大量数据来做好事。该平台允许用户找到世界各地公职人员的社交媒体账号和电子邮件。大多数 AI 聊天机器人优先考虑互联网上的流行词汇和主题。平彻说,除了给小科技公司一个优势外,团队还希望更容易访问 Wikidata 将导致 AI 系统更好地反映互联网上未广泛代表的小众主题。

Wikidata AI 项目经理菲利普·萨阿德告诉 The Verge,实际上,这些向量将使 AI 系统除了信息本身之外,还能更好地访问信息周围的上下文。该团队使用 AI 公司 Jina AI 的模型将截至 2024 年 9 月 18 日捕获的 Wikidata 结构化数据转换为向量。IBM 公司 DataStax 目前免费为该项目提供存储向量数据库的基础设施。该团队在根据过去一年添加的信息更新数据库之前,正在等待使用该数据库的开发者的反馈。萨阿德表示,虽然当前数据库不包括去年添加的全新信息,但对现有 Wikidata 的小编辑或调整不会降低数据库的实用性。“归根结底,我们计算的向量就像一个项目的总体概念,所以如果在 Wikidata 上进行了一些小编辑,它不会太相关,”他说。