作者:迈克尔·古森鲍尔
借助大语言模型(LLM)的搜索工具正在改变研究人员查找学术信息的方式。一个名为 scite Assistant 的工具利用 GPT-3.5 从数百万篇科学论文的数据库中生成答案。另一个工具 Elicit,使用 LLM 来编写对学术数据库中文章的搜索答案。Consensus 可以查找并综合论文中的研究主张,而 SciSpace 自诩为一个“AI 研究助手”,能够解释科学论文中的数学或文本内容。这些工具都能为自然语言查询提供自然语言答案。
针对学术数据库的搜索工具,可以利用 LLM 提供识别、排序和访问论文的替代方式。此外,研究人员还可以使用像 Bing 这样的通用人工智能(AI)辅助搜索系统,通过只查询学术数据库(如 CORE、PubMed 和 Crossref)来进行搜索。
所有搜索系统都会影响科学家获取知识的途径,并且影响研究的方式。每种工具都有其独特的能力和局限性。我通过开发 Search Smart 工具对此有深入了解,该工具允许研究人员比较包括 Google Scholar 和 PubMed 在内的 93 种传统搜索工具的功能。AI 辅助的自然语言搜索工具无疑会对研究产生影响。问题是:如何产生影响?
在 LLM 在学术搜索中的广泛应用之前,剩余的时间应该用来理解这些工具的机会和局限性。对这些工具的独立审查对于确保未来知识获取至关重要。
所有由 LLM 辅助的搜索工具都有局限性。LLM 可能会“幻觉”:编造不存在的论文,或通过编造事实来不准确地总结内容。尽管专门的学术 LLM 辅助搜索系统由于查询的是已设定的科学数据库,因此较少发生幻觉现象,但它们的局限性仍不明确。而且,由于 AI 辅助搜索系统,甚至是开源系统,都是“黑箱”——它们的术语匹配、结果排序和问题解答机制不透明——因此需要进行系统的分析,才能了解它们是否遗漏了重要的结果,或是系统性地偏向某些类型的论文。例如,根据我的个人经验,Bing、scite Assistant 和 SciSpace 在搜索重复时通常会产生不同的结果,从而导致不可重复性。缺乏透明度意味着可能还有许多局限性尚未被发现。
目前,Twitter帖子和病毒式传播的 YouTube 视频已经承诺 AI 辅助搜索可以加速系统评审,或促进头脑风暴和知识总结。如果研究人员未能意识到这些系统的局限性和偏见,研究结果可能会恶化。
目前,针对 LLM 的法规已经存在,其中一些与研究社区有关。例如,出版商和大学已经制定政策,以防止 LLM 启动的研究不端行为,如错误归属、抄袭或伪造同行评审。像美国食品和药物管理局这样的机构会对 AI 进行评估和批准,欧洲委员会也在提出自己的 AI 法律框架。但针对 LLM 辅助搜索的更为具体的政策仍然是必要的。
在开发 Search Smart 的过程中,我开发了一种系统、透明地评估数据库及其搜索系统功能的方法。我常常发现一些功能或局限性在搜索工具的常见问题中被遗漏或描述不准确。在我们的研究中,Google Scholar 是研究人员使用最广泛的搜索引擎。但我们发现,它在解读布尔搜索查询(例如涉及 OR 和 AND 的查询)时,不仅能力不足,而且没有准确报告这一点。基于这些发现,我们建议在系统评审和元分析中的主要搜索任务中不要依赖 Google Scholar(M. Gusenbauer & N. R. Haddaway,Res. Synth. Methods 11,181–217;2020)。
即使搜索 AI 是“黑箱”,也可以通过“形变测试”来评估其表现。这有点像汽车碰撞测试:只关注乘客在不同碰撞场景下是否存活,而不需要知道汽车内部如何运作。同样,AI 测试应优先评估其在特定任务中的表现。
LLM 的开发者不应被依赖于进行这些测试。相反,第三方应进行对这些系统功能的系统审计。那些已经进行证据合成并倡导基于证据的实践的组织,如 Cochrane 或 Campbell Collaboration,是理想的审计候选人。他们可以自己进行审计,或与其他机构共同进行。第三方审计员可能需要与图书馆员合作,后者可能在教授 AI 辅助搜索的信息素养方面发挥重要作用。
这些独立审计的目的是不是决定是否使用 LLM,而是提供清晰、实用的指南,以确保 AI 辅助搜索仅用于它们能够胜任的任务。例如,审计可能会发现某个工具可以用于帮助界定项目范围的搜索,但由于幻觉问题,它不能可靠地识别与该主题相关的论文。
在研究人员无意中大规模引入偏见结果之前,必须对 AI 辅助搜索系统进行测试。对这些系统能做什么、不能做什么有清晰的理解,只会提高科学严谨性。
Nature 617, 439 (2023)
doi: https://doi.org/10.1038/d41586-023-01613-w