字节跳动推出 PaSa：基于大语言模型的智能学术论文搜索代理

近日，字节跳动研究院与北京大学的研究人员联合推出了一款名为 PaSa 的智能学术论文搜索代理。该系统基于大语言模型（LLM），结合强化学习技术，能够自主执行复杂的学术查询任务，显著提升了学术文献检索的效率和准确性。
PaSa 的核心由两个 LLM 代理组成：爬虫（Crawler）和选择器（Selector）。爬虫负责分析用户查询，生成多样化的搜索关键词，并通过多次搜索收集相关论文。选择器则对爬虫找到的论文进行精读，评估其是否符合用户需求，从而提高搜索结果的精确性。

为了优化 PaSa 的性能，研究团队构建了 AutoScholarQuery 数据集，包含 35,000 个细粒度的学术查询及其对应的相关论文。此外，团队还开发了 RealScholarQuery 数据集，用于评估 PaSa 在真实场景中的表现。
实验结果显示，PaSa-7b 在多个基准测试中表现优越。在 AutoScholarQuery 测试集上，PaSa-7b 的召回率相比 PaSa-GPT-4o 提高了 9.64%；在面对基于谷歌的基准时，召回率提升幅度在 33.80% 到 42.64% 之间。在更具挑战性的 RealScholarQuery 场景中，PaSa-7b 的召回率提升了 30.36%，精确度提升了 4.25%。

PaSa 的推出标志着学术论文搜索技术的重要进步。它不仅能够模仿人类研究者的行为模式，还能在短时间内完成复杂的学术调研任务。例如，PaSa 可以在两分钟内完成一次详尽的学术调研，显著减少了研究人员在文献综述中花费的时间和精力。
PaSa 的应用场景广泛，包括学术研究中的文献调研、高校科研与教学支持、知识产权分析以及多任务学习与数据挖掘等。目前，PaSa 的代码和模型已开源，用户可以通过其官方网站或 GitHub 仓库获取更多信息。

AD：精心整理了2000+好用的AI工具！点此获取

字节跳动推出 PaSa：基于大语言模型的智能学术论文搜索代理

豆包 MarsCode：AI 编程助手的创新探索附地址

火出圈！DeepSeek-R1 发布，性能对标 OpenAI o1 正式版附地址

玉米AI助手

字节跳动推出 PaSa：基于大语言模型的智能学术论文搜索代理

豆包 MarsCode：AI 编程助手的创新探索 附地址

火出圈！DeepSeek-R1 发布，性能对标 OpenAI o1 正式版 附地址

相关推荐

玉米AI助手

搜索

字节跳动推出 PaSa：基于大语言模型的智能学术论文搜索代理

字节跳动推出 PaSa：基于大语言模型的智能学术论文搜索代理

豆包 MarsCode：AI 编程助手的创新探索附地址

火出圈！DeepSeek-R1 发布，性能对标 OpenAI o1 正式版附地址