阿里通义 Fun-Audio-Chat-8B 开源语音交互大模型 Fun-Audio-Chat-8B 是阿里巴巴通义实验室开源的新一代端到端语音交互大模型,以双分辨率语音表征架构实现超低延迟与近 50% GPU 资源节省,兼具情感感知、语音指令执行、全双工交互等核心能力,性能逼近 GPT-4o Audio 与 Gemini 2.5 Pro,推动开源语音 AI 进入实用化新阶段。
Stability AI Stable Audio 2.5 专业级AI音频生成工具 Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型,可在几秒内生成高质量、多段落结构的音乐,支持文本转音频、音频修复等多种创作方式。
阿里 Qwen3-TTS 登场 49 种音色 + 10 语言 9 方言,WER 碾压主流商用模型 Qwen3-TTS 是阿里巴巴推出的零样本多角色跨语言语音合成引擎,一句话就能克隆任意音色并流畅朗读多语种文本。