新MaskGCT 零样本语音合成的创新突破 趣丸科技与香港中文大学(深圳)联合研发的开源文本转语音(TTS)模型,能够实现零样本语音合成,无需显式对齐信息和音素级时长预测,支持多种语言和情感控制。 030 AI开源项目AI短剧
新无偏水印(Unbiased Watermark) 该研究介绍了针对大型语言模型的无偏水印技术,表明可以添加水印而不影响生成文本的质量。研究提供了一个无偏水印的理论框架,确保输出不受水印的影响。这种方法为负责任的人工智能开发讨论提供了一个追踪和归因模型输出的方法,而不会牺牲质量。 030 AI开源项目字幕水印
新Follow-Your-Emoji Follow-Your-Emoji是一个基于扩散模型的人像动画框架,能够将目标表情序列动画化到参考人像上,同时保持人像身份的一致性、表情的传递、时间的连贯性和保真度。它通过采用表情感知标志和面部细粒度损失技术,显著提升了模型在控制自由风格人像表情方面的表现,包括真实人物、卡通、雕塑甚至动物。此外,它还通过简单有效的逐步生成策略,扩展到稳定的长期动画,增加了其潜在的应用价值。 030 AI开源项目图像编辑
新AI对口型项目EchoMimic EchoMimic是一款由蚂蚁集团研究团队推出的创新技术,能够根据音频内容和角色照片生成生动对口型视频。该技术突破了传统方法的局限性,实现了更逼真和动态的人像生成。 030 AI开源项目对口型
新AI换头技术CHANGER CHANGER是一种新型头部融合管道,旨在为数字内容创作提供高保真的头部合成解决方案,特别适用于视觉效果(VFX)、数字人物创建和虚拟头像等领域。 030 AI开源项目头像生成
新VideoPainter 视频局部编辑技术 香港中文大学、腾讯ARC Lab、东京大学和澳门大学等机构联合推出的开源视频修复和编辑工具,能够通过文字指令实现对任意长度视频的高效修复和编辑。 030 AI开源项目编辑转换
新AuraSR高清修复放大 AuraSR 是基于 GAN 的 Super-Resolution 模型,通过图像条件化增强技术,提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现,并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量,适用于图像处理领域。 040 AI开源项目图像编辑
新InvSR AI图片高清修复工具 一个用于图像超分辨率的开源工具,它通过先进的算法来增强图像的分辨率,使低分辨率图像变得更加清晰。 030 AI开源项目图片修复# 医学成像# 图像处理# 图像超分辨率