热门

智谱 AI 输入法

3个月前发布 48 0 0

桌面端语音转写翻译一站式神器在 PC 上“动嘴不动手”，即可把语音实时转成文字、翻译、改写，并同步开源 GLM-ASR 模型供开发者二次定制。

收录时间：

2026-02-14

打开网站手机查看

语音大模型

智谱 AI 输入法

智谱 AI 输入法

桌面端语音转写翻译一站式神器在 PC 上“动嘴不动手”，即可把语音实时转成文字、翻译、改写，并同步开源 GLM-ASR 模型供开发者二次定制。

数据统计

相关导航

Stability AI Stable Audio 2.5

Stability AI Stable Audio 2.5

专业级AI音频生成工具 Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型，可在几秒内生成高质量、多段落结构的音乐，支持文本转音频、音频修复等多种创作方式。

Copilot Audio

微软推出的个性化AI语音生成工具 Copilot Audio 是微软基于自研 MAI-Voice-1 模型推出的全新音频模式，支持情感、故事、脚本三种语音风格，带来更具表现力和沉浸感的语音交互体验。

Hume AI Voice Conversion

Hume AI Voice Conversion

一次录音即可把“声音灵魂”完整移植到任意目标声线 Hume AI Voice Conversion：一次录音即可把“声音灵魂”完整移植到任意目标声线，实现带情感的跨语言、跨性别、跨风格语音转换。

Maya1

实时、富有表现力的文本转语音开源模型 Maya1 是一款 30 亿参数的开源实时文本转语音模型，可仅凭单张 GPU 生成高表现力、多情感的自然语音。

腾讯ARC团队的AudioStory模型

腾讯ARC团队的AudioStory模型

开启AI音频生成新时代腾讯ARC团队推出的AudioStory模型，能够根据文字描述生成高质量的音频内容，具有强大的叙事能力。

SoulX-Podcast语音模型

SoulX-Podcast语音模型

SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎，可一键产出90分钟无中断、媲美真人录音的播客节目。

阿里 Qwen3-TTS 登场

阿里 Qwen3-TTS 登场

49 种音色 + 10 语言 9 方言，WER 碾压主流商用模型 Qwen3-TTS 是阿里巴巴推出的零样本多角色跨语言语音合成引擎，一句话就能克隆任意音色并流畅朗读多语种文本。

Xiaomi-MiMo-Audio

Xiaomi-MiMo-Audio

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio 是小米开源的首个原生端到端语音大模型，基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化。

暂无评论

none

暂无评论...