热搜词: 马頔爷们儿要脸

新项目助力人工智能更便捷获取维基百科数据

10月1日(周三),德国维基媒体协会(WikimediaDeutschland)宣布推出一个新数据库,该数据库将让人工智能模型能更便捷地获取维基百科的海量知识资源。

这个项目名为“维基数据嵌入项目”(WikidataEmbeddingProject),其核心是对维基百科及其姊妹平台上的现有数据(包含近1.2亿条条目)应用基于向量的语义搜索技术——这种技术可帮助计算机理解词汇的含义及词汇间的关联。

该项目还新增了对“模型上下文协议”(ModelContextProtocol,简称MCP)的支持。MCP是一套帮助人工智能系统与数据源进行交互的标准,结合这一标准后,大型语言模型(LLMs)可通过自然语言查询更轻松地获取相关数据。

此次项目由维基媒体德国分部牵头,联合神经搜索公司Jina.AI与IBM旗下实时训练数据公司DataStax共同开展。

多年来,维基数据(Wikidata)一直为维基媒体旗下平台提供机器可读数据,但此前的工具仅支持关键词搜索和SPARQL查询(一种专业查询语言)。而新系统将与“检索增强生成”(Retrieval-AugmentedGeneration,简称RAG)系统更好地兼容——RAG系统能让人工智能模型调取外部信息,这为开发者提供了机会,使其模型可基于经维基百科编辑审核验证的知识构建。

此外,新数据库对数据的结构化处理还能提供关键的语义上下文。例如,在数据库中查询“科学家”(scientist)一词,不仅会生成著名核科学家名单及曾任职于贝尔实验室(BellLabs)的科学家名单,还会包含“科学家”一词的多语言翻译、经维基媒体审核通过的科学家工作场景图片,以及对“研究者”(researcher)、“学者”(scholar)等相关概念的延伸关联。

目前,该数据库可在Toolforge平台上公开访问。维基数据还计划于10月9日为感兴趣的开发者举办一场线上研讨会。

当下,人工智能开发者正迫切寻找可用于模型微调的高质量数据源,此次新项目的推出恰逢其时。尽管训练系统本身已变得更加复杂(通常是复杂的训练环境,而非简单数据集),但它们仍需经过严格筛选的优质数据才能高效运行。对于要求高准确性的应用场景,对可靠数据的需求尤为迫切:尽管有些人可能对维基百科持轻视态度,但相较于“通用网络爬虫”(CommonCrawl,一种从互联网上大规模抓取网页的数据集)这类包罗万象的数据集,维基百科的数据具有更强的事实导向性。

在某些情况下,对高质量数据的追求可能会给人工智能实验室带来高昂成本。今年8月,人工智能公司Anthropic就提出与一群作者达成诉讼和解——这些作者的作品被Anthropic用作训练材料,Anthropic同意支付15亿美元以了结所有侵权索赔。

维基数据人工智能项目经理菲利普・萨德(PhilippeSaadé)在接受媒体采访时强调,该项目独立于主流人工智能实验室及大型科技公司。萨德对记者表示:“此次‘嵌入项目’的推出表明,强大的人工智能技术未必只能由少数几家公司掌控。它可以是开放的、协作式的,其构建目的应是服务于所有人。”