AI对口型项目EchoMimic EchoMimic是一款由蚂蚁集团研究团队推出的创新技术,能够根据音频内容和角色照片生成生动对口型视频。该技术突破了传统方法的局限性,实现了更逼真和动态的人像生成。 0270 AI开源项目对口型
AI换头技术CHANGER CHANGER是一种新型头部融合管道,旨在为数字内容创作提供高保真的头部合成解决方案,特别适用于视觉效果(VFX)、数字人物创建和虚拟头像等领域。 0280 AI开源项目头像生成
VideoPainter 视频局部编辑技术 香港中文大学、腾讯ARC Lab、东京大学和澳门大学等机构联合推出的开源视频修复和编辑工具,能够通过文字指令实现对任意长度视频的高效修复和编辑。 0290 AI开源项目编辑转换
AuraSR高清修复放大 AuraSR 是基于 GAN 的 Super-Resolution 模型,通过图像条件化增强技术,提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现,并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量,适用于图像处理领域。 0300 AI开源项目图像编辑
DLoRAL 一键实现视频超分辨率的开源框架 DLoRAL是由香港理工大学与OPPO研究院联合推出的一款开源视频超分辨率框架,基于扩散模型实现一步生成高清视频,为视频超分辨率领域带来了革命性突破。 0250 AI开源项目图片放大# 人工智能# 开源工具# 视频处理
InvSR AI图片高清修复工具 一个用于图像超分辨率的开源工具,它通过先进的算法来增强图像的分辨率,使低分辨率图像变得更加清晰。 0270 AI开源项目图片修复# 医学成像# 图像处理# 图像超分辨率
蚂蚁集团 Ming-flash-omni 2.0 全模态大模型 Ming-flash-omni 2.0 是蚂蚁集团开源的新一代全模态大模型,基于 Ling-2.0 MoE 架构打造,实现视觉语言理解、图像生成编辑、语音 / 音效 / 音乐统一生成三大能力全面升级,部分指标超越 Gemini 2.5 Pro,为多模态应用开发提供高效统一入口。 0240 AI开源项目图像生成
阿里Qwen-Image-Layered 分层图像编辑模型 Qwen-Image-Layered 是阿里通义千问开源的 AI 模型,可把单张照片一键拆成带透明通道的独立图层,让“零 PS 基础”的用户也能像专业设计师一样精准改图。 0290 AI开源项目图像编辑# AI 抠图# 图像编辑# 图层分离