热门

Step-Audio

3个月前发布 71 0 0

阶跃开源的130B语音模型一款强大的开源语音交互模型，能够实现语音识别、对话生成、情感克隆和多语言支持，为用户提供高质量的实时语音交互体验。

收录时间：

2026-02-14

打开网站手机查看

AI开源项目变声克隆文字转语音（配音播报）语音转文字（语音识别）

Step-Audio

Step-Audio

阶跃开源的130B语音模型一款强大的开源语音交互模型，能够实现语音识别、对话生成、情感克隆和多语言支持，为用户提供高质量的实时语音交互体验。

数据统计

相关导航

Whisper-Medusa Whisper-Medusa

Whisper-Medusa Whisper-Medusa

一款基于Whisper模型的优化版语音识别工具，通过多解码头技术显著提升处理速度

Hume AI OCTAVE

文本转语音一款革命性的语音语言模型，能够将文本迅速转换为具有真人声和克隆人格特征的语音。

腾讯开源翻译模型

Hunyuan-MT-7B Hunyuan-MT-7B 是腾讯开源的一款轻量级翻译模型，支持 33 种语言互译，在国际机器翻译比赛中拿下 30 个第一名。

Mistral Voxtral

Mistral Voxtral

开源音频模型的新突破 Voxtral 是 Mistral 推出的首个开源音频模型，旨在为企业和开发者提供高性价比的语音智能解决方案。

RaskAI

AI驱动的视频本地化与配音工具 RaskAI 是一款基于人工智能的视频本地化和配音工具，专为需要快速、高效地将视频内容翻译和配音成多种语言的创作者和企业提供服务。

NiuTrans.LMT

打破语言壁垒的多语种翻译开源大模型 NiuTrans.LMT 是东北大学开源的多语言翻译大模型，凭借双中心架构与三层语言覆盖设计，支持 60 种语言、234 个翻译方向，在低资源语言翻译领域实现重大突破，兼顾翻译效率与准确性，为跨文化交互提供高效开源解决方案。

MiniMax Audio

创建逼真语音的智能工具专注于创建逼真语音的音频生成工具，通过先进的语音合成技术，为用户提供高质量的语音输出，广泛应用于多种场景。

Sketch2Sound

AI音频工具哼唱和模仿创建音效一个可控音频生成模型，能够根据一组可解释的时变控制信号（响度、亮度、音高）和文本提示来创造高质量的声音。

暂无评论

none

暂无评论...