MiniMax 发布 OctoCodingBench 基准测试,编程智能体的新标准！

AI开放平台

OctoCodingBench 是 MiniMax 开源的首个面向编程智能体（Coding Agent）的系统性基准测试，聚焦代码仓库场景下智能体对多源指令的遵循能力，填补了现有评测仅关注任务完成度、忽略规则合规性的空白。

链接直达手机查看

下面从主要功能、技术原理、应用场景、使用方法、适用人群、优缺点等方面进行详细介绍。

一、主要功能

多源指令遵循评估

覆盖 7 类异质指令来源，包括系统提示（System Prompt）、系统提醒（System Reminder）、用户需求（User Query）、项目级约束（如 CLAUDE.md/AGENTS.md）、技能调用规范（Skill）、上下文记忆（Memory）、工具调用 schema（Tool Schema），全面检验智能体对不同权威级别规则的合规性。
任务与合规性解耦评估

区别于传统评测仅关注 “是否完成代码任务”，首次将 “任务完成度” 与 “规则遵循度” 拆分为独立维度，可精准识别 “任务做对但违规” 的智能体行为（如代码正确但违反项目编码规范、工具调用顺序错误等）。
二元化清单评分体系

内置 2422 项可客观判定的二元检查项（通过 / 不通过），平均每个测试实例包含 33.6 项检查，避免主观评分偏差，确保评估结果的一致性和可复现性。
多脚手架环境支持

适配 3 类主流生产级编程智能体脚手架，包括 Anthropic 的 Claude Code（2.0.69 版本，54 个测试实例）、开源 VS Code 插件 Kilo（0.10.2 版本，11 个测试实例）、Factory.ai 的 Droid（0.42.2 版本，7 个测试实例），覆盖不同技术栈的实际应用场景。
容器化环境保障

提供 34 个独立的 Docker 环境镜像（托管于 Docker Hub 的 minimaxai/feedfeed 仓库），每个测试实例对应固定的可执行环境，消除环境差异对评测结果的干扰，支持开发者直接拉取镜像复现测试过程。

二、技术原理

指令来源分层模型

基于编程智能体在实际生产中的交互逻辑，将指令划分为 “系统级约束”“项目级规范”“任务级需求”“工具级规则” 4 个层级，每个层级对应不同的合规优先级（如系统安全规则优先级高于项目编码风格），确保评测场景与真实开发流程一致。
二元检查项设计逻辑

每个检查项均遵循 “明确主体 + 可验证行为 + 判定标准” 三要素，例如 “SP_no_emoji” 检查项明确 “主体为智能体输出内容，行为为是否使用 emoji，判定标准为无 emoji 即通过”，通过结构化设计实现机器或人工的快速、客观判定。
评测流水线架构

采用 “环境准备 - 轨迹采集 - 评分判定” 三步流水线：第一步通过 Docker 拉取对应环境镜像，构建隔离的测试容器；第二步向被测智能体发送系统提示与用户需求，采集完整交互轨迹（含工具调用、代码输出、文本回复）；第三步基于预设检查清单，通过 “LLM-as-Judge” 或人工对轨迹进行逐项评分，最终输出实例成功率（ISR）和检查项成功率（CSR）。
冲突指令测试机制

部分测试实例包含矛盾指令（如系统提示要求 “用中文回复” 但项目文档要求 “用英文注释”），用于评估智能体的指令冲突 resolution 能力，检验其对不同权威指令的优先级判断逻辑。

三、应用场景

编程智能体模型研发

开发者可基于该基准测试优化模型的指令遵循能力，例如针对 “工具调用顺序错误”“项目规范违反” 等高频失败项，调整模型的工具使用逻辑或项目文档理解模块。
企业级智能体选型

企业在引入编程智能体工具（如 Claude Code、Kilo）时，可通过该基准测试对比不同工具的合规性表现，选择更符合内部开发规范（如代码风格、安全规则）的产品，降低 “代码合规风险”。
编程智能体教育与训练

教育场景中，可利用基准测试的检查清单，向学习者（或初级智能体）明确 “合规编程” 的具体标准，例如 “Read 工具必须在 Edit 前调用”“TypeScript 需用单引号” 等，辅助规范编程习惯。
开源社区标准共建

作为首个开源的编程智能体合规性评测集，可成为开源社区的通用评估基准，推动不同团队研发的智能体在 “指令遵循” 维度形成统一的优化目标，加速行业标准化。

四、使用方法

环境准备
- 安装依赖：确保本地环境已安装 Python、datasets 库、Docker，执行命令 pip install datasets 安装数据集加载工具。
- 拉取 Docker 镜像：根据测试实例的 image 字段，执行 docker pull minimaxai/feedfeed:<tag>（如 docker pull minimaxai/feedfeed:md-course-builder），获取对应任务的隔离环境。

加载数据集

通过 Hugging Face Datasets 库加载完整数据集，代码示例：

python

运行

from datasets import load_dataset
# 加载 OctoCodingBench 数据集
dataset = load_dataset("MiniMaxAI/OctoCodingBench")
# 筛选特定类型的测试实例（如 Claude Code 脚手架相关任务）
claudecode_tasks = [d for d in dataset["train"] if d["scaffold"]["name"] == "claudecode"]

执行评测
- 启动 Docker 容器：运行 docker run -it --rm minimaxai/feedfeed:<tag> /bin/bash，进入任务 workspace。
- 采集交互轨迹：向被测智能体发送当前实例的 system_prompt 和 user_query，记录智能体的所有输出（含代码、工具调用、文本回复）。
- 评分判定：对照实例的 checklist 字段，逐项检查轨迹是否符合要求（可手动判定或调用 LLM-as-Judge 自动化评分），统计 ISR（所有检查项通过则为 1，否则为 0）和 CSR（通过检查项数 / 总检查项数）。
结果分析
- 查看单实例评分：针对每个测试实例，分析失败的检查项类型（如 “工具调用顺序错误”“项目规范违反”），定位智能体的薄弱环节。
- 对比多模型表现：汇总不同智能体在相同实例上的 ISR/CSR，生成对比报告，辅助选型或模型优化。

五、适用人群

编程智能体研发工程师：用于模型迭代优化，定位指令遵循能力的短板。
企业技术负责人：在引入智能编程工具时，评估工具的合规性与内部规范的匹配度。
开源社区贡献者：参与基准测试的扩展（如新增测试实例、补充检查项），推动行业标准完善。
AI 评测研究人员：作为研究 “指令遵循”“多源约束理解” 等课题的实验数据集，探索智能体合规性的优化方法。
编程教育工作者：用于教学场景，向学习者传递 “合规编程” 的具体标准，辅助规范开发行为。

六、优点

填补合规性评测空白：首次系统性关注编程智能体的 “规则遵循能力”，解决传统评测仅看 “任务结果” 的局限性，更贴合企业生产场景需求。
评估结果客观可复现：基于二元检查清单，避免主观评分偏差，不同团队使用相同实例可得到一致的评分结果。
生产级环境适配：支持 3 类主流脚手架和 34 个容器化环境，测试场景与实际开发环境高度一致，评测结果的落地参考价值高。
开源可扩展：数据集完全开源，支持开发者新增测试实例、补充检查项，或适配新的编程智能体脚手架，灵活性强。
多维度深度评估：覆盖 7 类指令来源和 2422 项检查项，可从 “系统规则”“项目规范”“工具使用” 等多个维度定位智能体问题，优化方向更明确。

七、缺点

评测成本较高：每个实例需启动独立 Docker 容器，且部分检查项（如 “代码风格合规性”）需人工或复杂 LLM 判定，耗时较长，难以支持大规模快速评测。
测试实例数量有限：当前仅包含 72 个实例，虽覆盖主要场景，但针对某些细分领域（如嵌入式编程、前端框架特定规范）的测试案例不足，评测覆盖广度有待提升。
自动化评分待完善：现有评测需手动对照检查清单评分，官方自动化评分脚本（LLM-as-Judge 逻辑）尚未开源，开发者需自行实现自动化判定逻辑，增加使用门槛。
对新手不友好：使用过程需熟悉 Docker、Hugging Face Datasets、编程智能体脚手架等工具，新手需额外投入时间学习环境配置和评测流程。

分类标签推荐：编程智能体评测工具、代码合规性基准、开源数据集、多源指令遵循评估、容器化测试环境、企业级 AI 标准工具

相关导航