MiniMax

2天前发布 3 0 0

发布 OctoCodingBench 基准测试,编程智能体的新标准! OctoCodingBench 是 MiniMax 开源的首个面向编程智能体(Coding Agent)的系统性基准测试,聚焦代码仓库场景下智能体对多源指令的遵循能力,填补了现有评测仅关注任务完成度、忽略规则合规性的空白。

收录时间:
2026-02-14

发布 OctoCodingBench 基准测试,编程智能体的新标准! OctoCodingBench 是 MiniMax 开源的首个面向编程智能体(Coding Agent)的系统性基准测试,聚焦代码仓库场景下智能体对多源指令的遵循能力,填补了现有评测仅关注任务完成度、忽略规则合规性的空白。

数据统计

相关导航

暂无评论

none
暂无评论...