新腾讯ARC实验室AudioStory技术 开启音频生成新纪元 AudioStory是腾讯ARC实验室推出的一种能够根据文字描述生成高质量音频内容的技术,具有强大的叙事能力。 060 文字转语音(配音播报)
新商汤如影 让每个人都可以轻松创作令人惊艳的数字人短视频。通过数字人形象定制、声音克隆技术,能够生成出比拟真实人物的外貌、表情、动作和声音,并且通过AI文案功能快速生成企业宣传、网络营销文案,使创作效率得到更进一步的提升。 040 创作与影视变声克隆
新Mistral Voxtral 开源音频模型的新突破 Voxtral 是 Mistral 推出的首个开源音频模型,旨在为企业和开发者提供高性价比的语音智能解决方案。 040 客服文字转语音(配音播报)# 人工智能# 开源模型# 自然语言处理
新DingTalk A1 钉钉首款 AI 录音硬件,一句话搞定职场记录与分析 DingTalk A1 是钉钉推出的 3.8 mm 超薄 AI 录音笔,通过蓝牙与钉钉 App 连接,即可在 8 米内高清收音并实时完成 97% 准确率的语音转写、多语言翻译和智能总结,为职场沟通与学习场景提供一站式语音记录与分析服务。 040 AI 会议AI 办公
新DICE-Talk 基于扩散模型的情感化动态头像生成工具 基于扩散模型的情感化动态头像生成方法,能够为说话的肖像生成生动且多样化的情感表达。 030 AI开源项目头像生成# 人工智能# 动态头像生成# 多模态学习
新GPT-Realtime 开启语音交互新时代 GPT-Realtime是OpenAI推出的一款强大的语音到语音模型,采用端到端Speech-to-Speech架构,能够直接生成并处理语音,省去常规的文本转换步骤,广泛应用于多种语音交互场景。 030 文字转语音(配音播报)语音转文字(语音识别)
新小红书FireRedTTS-2 新一代对话合成模型 FireRedTTS-2 是小红书智创音频技术团队推出的新一代对话合成模型,可实现灵活的逐句生成和高质量的语音合成。 030 文字转语音(配音播报)语音大模型# :语音合成# 人工智能# 内容创作
新IndexTTS-2.0 B站开源的情感与时长可控文本转语音模型 IndexTTS-2.0 是哔哩哔哩开源的全球首个支持情感与时长双重控制的自回归零样本文本转语音系统,专为高质量AI配音与跨语言内容本地化打造。 030 文字转语音(配音播报)
新Stability AI Stable Audio 2.5 专业级AI音频生成工具 Stable Audio 2.5 是 Stability AI 推出的最新音频生成模型,可在几秒内生成高质量、多段落结构的音乐,支持文本转音频、音频修复等多种创作方式。 030 文字转语音(配音播报)电商广告
新Copilot Audio 微软推出的个性化AI语音生成工具 Copilot Audio 是微软基于自研 MAI-Voice-1 模型推出的全新音频模式,支持情感、故事、脚本三种语音风格,带来更具表现力和沉浸感的语音交互体验。 030 文字转语音(配音播报)语音大模型
新腾讯ARC团队的AudioStory模型 开启AI音频生成新时代 腾讯ARC团队推出的AudioStory模型,能够根据文字描述生成高质量的音频内容,具有强大的叙事能力。 030 AI开源项目文字转语音(配音播报)
新SoulX-Podcast语音模型 SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎,可一键产出90分钟无中断、媲美真人录音的播客节目。 030 AI开源项目文字转语音(配音播报)# AI语音合成# 企业营销# 内容创作工具
新Maya1 实时、富有表现力的文本转语音开源模型 Maya1 是一款 30 亿参数的开源实时文本转语音模型,可仅凭单张 GPU 生成高表现力、多情感的自然语音。 030 文字转语音(配音播报)语音大模型