MiniMax 发布 OctoCodingBench 基准测试,编程智能体的新标准! OctoCodingBench 是 MiniMax 开源的首个面向编程智能体(Coding Agent)的系统性基准测试,聚焦代码仓库场景下智能体对多源指令的遵循能力,填补了现有评测仅关注任务完成度、忽略规则合规性的空白。
Agent2Agent A2A 开启智能代理协作新时代 谷歌提出的一种开放协议,旨在实现不同框架和供应商构建的自主、不透明代理之间的有效通信与协作,同时支持代理与用户的互动,填补了当前代理互操作性的空白。
Kimi K2.5 Moonshot AI(月之暗面) Kimi K2.5 是 Moonshot AI 推出的升级款 AI 模型,凭借视觉能力与工具调用功能的双重优化,大幅提升了模型的实用价值,向代理式智能更进一步。
阿里 Qwen3.5 开源大模型 Qwen3.5 是阿里巴巴即将推出的新一代开源基座大模型,采用全新混合注意力机制,大概率为原生视觉理解 VLM 模型,计划春节期间开源并推出多规格模型版本,目前已完成多个主流 AI 开发框架的适配开发。
中科院SpikingBrain 用2%数据实现百倍速度突破的国产类脑大模型 SpikingBrain 是中国科学院推出的非 Transformer 类脑脉冲大模型,以极低数据与能耗实现超长序列任务百倍速推理。