5月8日,百度DuMate(搭子)登顶全球智能体评测基准PinchBench与DeepResearch双榜单,在23个真实工作场景147个任务中分别以93.3%和93.2%的成功率包揽前两名,超越Anthropic和OpenAI同类模型,成为全球执行力最强的桌面AI智能体。

一、双榜登顶:执行力超越国际巨头
PinchBench是当前智能体赛道最能反映真实工作能力的评测基准,重点考察多步推理、工具调用和任务闭环能力,从成功率、速度、成本三个维度综合排名。DuMate以93.3%和93.2%的成绩包揽前两名,而Anthropic和OpenAI的同类模型分别仅获89.0%和91.6%。在另一项DeepResearch深度研究榜单中,DuMate以58.03的综合分位列榜首,其自研Skills体系中的DeepSearch与DeepResearch双引擎协同发力,前者负责跨平台语义检索与高价值信息定位,后者叠加多轮推理与因果分析,将碎片信息提炼为结构化研究成果。
更值得关注的是,DuMate在前五名中占据三席,展现出模型框架对执行效果的显著提升能力。支撑这一成绩的核心是DuMate的端云协同Harness架构——任务到达时自动进行意图识别与敏感度判断,隐私相关操作留在本地执行,复杂推理上云完成,无需用户手动切换。
二、增速第一:AI智能体赛道跑出国产黑马
最新一期AI产品榜单显示,DuMate以114.72%的月访问量增速登顶AI智能体增速榜,同时以116万月访问量跻身总榜第三。同期智能体赛道整体增长放缓,增速榜前十中仅DuMate与悟空实现正增长,DuMate更是唯一实现三位数增长的产品,其余八款访问量均下跌,跌幅集中在-40%至-80%区间。
DuMate的高速增长源于将AI智能体从开发者工具推向大众市场。一键安装、开箱即用,不懂代码的运营、行政、销售人员打开就能上手;预置Skills库覆盖高频场景,支持根据业务需求自动生成新技能;文件夹级权限控制、风险操作二次确认、数据不出设备,解决了非技术用户对安全性的顾虑。同时,DuMate已通过信通院两项安全测评且均获最高等级,保持一天一版的更新节奏,持续快速迭代。
三、安全破局:让企业敢用、让用户放心
当前智能体赛道最大的痛点是安全风险。DuMate通过预装安全沙箱实现与本机设备环境隔离,代码、任务、文件闭环执行,不影响本地环境、不扩散风险、不泄露数据。对文件删除、系统修改、数据外发等高风险操作,系统强制用户明确授权后才执行,并提供文件夹级权限管控与操作全程可审计等企业级能力。
这种"零信任"架构下的本地部署方案,极大地降低了企业的决策风险和合规成本,让金融、政务、制造等数据敏感行业也能放心使用。百度副总裁阮瑜此前公开表示,数据安全监管日趋规范,大厂将以强技术手段保障用户数据安全。DuMate的安全架构正是这一理念的落地,从根源上解决了用户对智能体"失控"的担忧,打通了智能体走向大众和企业场景的"最后一公里"。


