热门

Xiaomi-MiMo-Audio

3个月前发布 51 0 0

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio 是小米开源的首个原生端到端语音大模型，基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化。

收录时间：

2026-02-14

打开网站手机查看

语音大模型

Xiaomi-MiMo-Audio

Xiaomi-MiMo-Audio

小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio 是小米开源的首个原生端到端语音大模型，基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL 的少样本泛化。

数据统计

相关导航

科大讯飞星火同传语音大模型

国内首个具备端到端语音同传能力的大模型，其同传速度与精度直逼人类专家。

西湖心辰Lingo

Lingo语音大模型是西湖心辰推出的具备实时打断和控制能力的超拟人化语音交互系统，旨在重塑沟通的艺术。

Maya1

实时、富有表现力的文本转语音开源模型 Maya1 是一款 30 亿参数的开源实时文本转语音模型，可仅凭单张 GPU 生成高表现力、多情感的自然语音。

Infinite Talk

无限长度语音视频生成模型 Infinite Talk 是一个由 MeiGen-ai 研发小组开源的数字人项目，能够生成无限长度的视频，具有准确的口型同步和一致的身份保留。

智谱 AI 输入法

桌面端语音转写翻译一站式神器在 PC 上“动嘴不动手”，即可把语音实时转成文字、翻译、改写，并同步开源 GLM-ASR 模型供开发者二次定制。

SoulX-Podcast语音模型

SoulX-Podcast语音模型

SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎，可一键产出90分钟无中断、媲美真人录音的播客节目。

Finevoice AI

轻松创建您想象中的声音 FineVoice是由Fineshare推出的多功能AI语音工具，集成了实时变声、语音克隆、文本转语音、语音转文本及AI音效生成等功能，支持149种语言和1000多种AI声音模型，让用户无需专业设备即可创作出专业级配音内容。

Meta SAM Audio

全球首个多模态音频分离模型 SAM Audio 是 Meta 发布的全球首个支持 “点击分离声音” 的多模态音频基础模型，能够通过文本、视觉或时间片段提示，从复杂音频混合物中一键提取目标声音。

暂无评论

none

暂无评论...