语音大模型

共 19 篇网址

测试用网址目录常用工具提示词 AI热门工具人声分离创作与影视编曲制作音乐生成音乐素材变声克隆文字转语音（配音播报）语音大模型多模态大模型 AI搜索工具学生教师文本生成编程代码图像生成 AI 小助手 AI 翻译总结摘要文档论文聊天对话辅助写作 AI开源项目生物医药科研视频生成 AI游戏娱乐休闲 API 超市对口型模特生成编辑转换 AI 会议 AI 办公 Excel PPT 公文写作思维导图 AI应用开发 AI开放平台网站开发语音转文字（语音识别）智能体创建 AI插件与浏览器 Logo设计室内装饰平面设计建筑设计服装设计超级智能体医疗健康 3D与动画 AI 陪伴虚拟数字人数据分析游戏开发海报插画电商广告 AI 学堂文献资料检测查重企业客服金融法律 AI 课程字幕水印 AI社区协作 AI短剧翻译配音简历|招聘|面试 AI艺术设计图像编辑 AI 抠图图片修复图片压缩图片放大音频编辑直播图片素材素材模板视频素材面部重构头像生成视频下载流量 AI视频工具 AI音频工具虚拟歌手伪造检测 MCP资源平台出行旅游 AI 机器人 AI 自动驾驶体育运动音乐发行 AI音乐平台世界模型 AI算力平台 AI数据集提示词 Prompt 脑机接口 ✂️ AI图像编辑 ✍️ AI写作辅助

排序

发布更新浏览点赞

科大讯飞星火同传语音大模型

国内首个具备端到端语音同传能力的大模型，其同传速度与精度直逼人类专家。

0870

AI 会议 AI 办公 # 人工智能 # 翻译工具 # 自然语言处理

Finevoice AI

轻松创建您想象中的声音 FineVoice是由Fineshare推出的多功能AI语音工具，集成了实时变声、语音克隆、文本转语音、语音转文本及AI音效生成等功能，支持149种语言和1000多种AI声音模型，让用户无需专业设备即可创作出专业级配音内容。

0700

AI热门工具创作与影视

阶跃星辰Step-Audio2mini

阶跃星辰Step-Audio2mini

最强开源端到端语音大模型阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型，能够实现语音理解、音频推理与生成的统一建模。

0650

AI开源项目文字转语音（配音播报）

Stability AI Stable Audio 2.5

Stability AI Stable Audio 2.5

专业级AI音频生成工具 Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型，可在几秒内生成高质量、多段落结构的音乐，支持文本转音频、音频修复等多种创作方式。

0650

文字转语音（配音播报）电商广告

Infinite Talk

无限长度语音视频生成模型 Infinite Talk 是一个由 MeiGen-ai 研发小组开源的数字人项目，能够生成无限长度的视频，具有准确的口型同步和一致的身份保留。

0640

虚拟数字人视频生成

腾讯ARC团队的AudioStory模型

腾讯ARC团队的AudioStory模型

开启AI音频生成新时代腾讯ARC团队推出的AudioStory模型，能够根据文字描述生成高质量的音频内容，具有强大的叙事能力。

0620

AI开源项目文字转语音（配音播报）

Copilot Audio

微软推出的个性化AI语音生成工具 Copilot Audio 是微软基于自研 MAI-Voice-1 模型推出的全新音频模式，支持情感、故事、脚本三种语音风格，带来更具表现力和沉浸感的语音交互体验。

0610

文字转语音（配音播报）语音大模型

Meta SAM Audio

全球首个多模态音频分离模型 SAM Audio 是 Meta 发布的全球首个支持 “点击分离声音” 的多模态音频基础模型，能够通过文本、视觉或时间片段提示，从复杂音频混合物中一键提取目标声音。

0590

人声分离语音大模型 # AI 基础模型 # 内容创作辅助工具 # 多模态 AI 模型

小红书FireRedTTS-2

小红书FireRedTTS-2

新一代对话合成模型 FireRedTTS-2 是小红书智创音频技术团队推出的新一代对话合成模型，可实现灵活的逐句生成和高质量的语音合成。

0590

文字转语音（配音播报）语音大模型 # ：语音合成 # 人工智能 # 内容创作

SoulX-Podcast语音模型

SoulX-Podcast语音模型

SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎，可一键产出90分钟无中断、媲美真人录音的播客节目。

0580

AI开源项目文字转语音（配音播报）# AI语音合成 # 企业营销 # 内容创作工具

Maya1

实时、富有表现力的文本转语音开源模型 Maya1 是一款 30 亿参数的开源实时文本转语音模型，可仅凭单张 GPU 生成高表现力、多情感的自然语音。

0580

文字转语音（配音播报）语音大模型

西湖心辰Lingo

Lingo语音大模型是西湖心辰推出的具备实时打断和控制能力的超拟人化语音交互系统，旨在重塑沟通的艺术。

0560

聊天对话语音大模型

豆包语音识别模型2.0（Doubao-Seed-ASR-2.0）

豆包语音识别模型2.0（Doubao-Seed-ASR-2.0）

火山引擎推出的新一代多语种语音识别引擎，在复杂场景下实现更高精度与更强推理能力。

0560

多模态大模型语音大模型

Hume AI Voice Conversion

Hume AI Voice Conversion

一次录音即可把“声音灵魂”完整移植到任意目标声线 Hume AI Voice Conversion：一次录音即可把“声音灵魂”完整移植到任意目标声线，实现带情感的跨语言、跨性别、跨风格语音转换。

0540

变声克隆文字转语音（配音播报）

阿里通义

Fun-Audio-Chat-8B 开源语音交互大模型 Fun-Audio-Chat-8B 是阿里巴巴通义实验室开源的新一代端到端语音交互大模型，以双分辨率语音表征架构实现超低延迟与近 50% GPU 资源节省，兼具情感感知、语音指令执行、全双工交互等核心能力，性能逼近 GPT-4o Audio 与 Gemini 2.5 Pro，推动开源语音 AI 进入实用化新阶段。

0530

语音大模型