Meta SAM Audio 全球首个多模态音频分离模型 SAM Audio 是 Meta 发布的全球首个支持 “点击分离声音” 的多模态音频基础模型,能够通过文本、视觉或时间片段提示,从复杂音频混合物中一键提取目标声音。
Stability AI Stable Audio 2.5 专业级AI音频生成工具 Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型,可在几秒内生成高质量、多段落结构的音乐,支持文本转音频、音频修复等多种创作方式。
阿里通义 Fun-Audio-Chat-8B 开源语音交互大模型 Fun-Audio-Chat-8B 是阿里巴巴通义实验室开源的新一代端到端语音交互大模型,以双分辨率语音表征架构实现超低延迟与近 50% GPU 资源节省,兼具情感感知、语音指令执行、全双工交互等核心能力,性能逼近 GPT-4o Audio 与 Gemini 2.5 Pro,推动开源语音 AI 进入实用化新阶段。