字节跳动推出 PaSa:基于大语言模型的智能学术论文搜索代理

近日,字节跳动研究院与北京大学的研究人员联合推出了一款名为 PaSa 的智能学术论文搜索代理。该系统基于大语言模型(LLM),结合强化学习技术,能够自主执行复杂的学术查询任务,显著提升了学术文献检索的效率和准确性。
PaSa 的核心由两个 LLM 代理组成:爬虫(Crawler)和选择器(Selector)。爬虫负责分析用户查询,生成多样化的搜索关键词,并通过多次搜索收集相关论文。选择器则对爬虫找到的论文进行精读,评估其是否符合用户需求,从而提高搜索结果的精确性。
字节跳动推出 Pasa:基于大语言模型的智能学术论文搜索代理
为了优化 PaSa 的性能,研究团队构建了 AutoScholarQuery 数据集,包含 35,000 个细粒度的学术查询及其对应的相关论文。此外,团队还开发了 RealScholarQuery 数据集,用于评估 PaSa 在真实场景中的表现。
实验结果显示,PaSa-7b 在多个基准测试中表现优越。在 AutoScholarQuery 测试集上,PaSa-7b 的召回率相比 PaSa-GPT-4o 提高了 9.64%;在面对基于谷歌的基准时,召回率提升幅度在 33.80% 到 42.64% 之间。在更具挑战性的 RealScholarQuery 场景中,PaSa-7b 的召回率提升了 30.36%,精确度提升了 4.25%。
字节跳动推出 Pasa:基于大语言模型的智能学术论文搜索代理
PaSa 的推出标志着学术论文搜索技术的重要进步。它不仅能够模仿人类研究者的行为模式,还能在短时间内完成复杂的学术调研任务。例如,PaSa 可以在两分钟内完成一次详尽的学术调研,显著减少了研究人员在文献综述中花费的时间和精力。
PaSa 的应用场景广泛,包括学术研究中的文献调研、高校科研与教学支持、知识产权分析以及多任务学习与数据挖掘等。目前,PaSa 的代码和模型已开源,用户可以通过其官方网站或 GitHub 仓库获取更多信息。

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐