Qwen2-VL Qwen2-VL是一个基于自然语言处理(NLP)技术的语音到文本(Voice-to-Text)和文本到语音(Text-to-Speech, TTS)转换工具,旨在提供高质量的语音转换服务。 0300 AI开源项目多模态大模型
阶跃星辰Step-Audio2mini 最强开源端到端语音大模型 阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型,能够实现语音理解、音频推理与生成的统一建模。 0310 AI开源项目文字转语音(配音播报)
腾讯ARC团队的AudioStory模型 开启AI音频生成新时代 腾讯ARC团队推出的AudioStory模型,能够根据文字描述生成高质量的音频内容,具有强大的叙事能力。 0270 AI开源项目文字转语音(配音播报)
SoulX-Podcast语音模型 SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎,可一键产出90分钟无中断、媲美真人录音的播客节目。 0270 AI开源项目文字转语音(配音播报)# AI语音合成# 企业营销# 内容创作工具
MaskGCT 零样本语音合成的创新突破 趣丸科技与香港中文大学(深圳)联合研发的开源文本转语音(TTS)模型,能够实现零样本语音合成,无需显式对齐信息和音素级时长预测,支持多种语言和情感控制。 0270 AI开源项目AI短剧
无偏水印(Unbiased Watermark) 该研究介绍了针对大型语言模型的无偏水印技术,表明可以添加水印而不影响生成文本的质量。研究提供了一个无偏水印的理论框架,确保输出不受水印的影响。这种方法为负责任的人工智能开发讨论提供了一个追踪和归因模型输出的方法,而不会牺牲质量。 0280 AI开源项目字幕水印
Follow-Your-Emoji Follow-Your-Emoji是一个基于扩散模型的人像动画框架,能够将目标表情序列动画化到参考人像上,同时保持人像身份的一致性、表情的传递、时间的连贯性和保真度。它通过采用表情感知标志和面部细粒度损失技术,显著提升了模型在控制自由风格人像表情方面的表现,包括真实人物、卡通、雕塑甚至动物。此外,它还通过简单有效的逐步生成策略,扩展到稳定的长期动画,增加了其潜在的应用价值。 0270 AI开源项目图像编辑