AI开源项目

共 101 篇网址

测试用网址目录常用工具提示词 AI热门工具人声分离创作与影视编曲制作音乐生成音乐素材变声克隆文字转语音（配音播报）语音大模型多模态大模型 AI搜索工具学生教师文本生成编程代码图像生成 AI 小助手 AI 翻译总结摘要文档论文聊天对话辅助写作 AI开源项目生物医药科研视频生成 AI游戏娱乐休闲 API 超市对口型模特生成编辑转换 AI 会议 AI 办公 Excel PPT 公文写作思维导图 AI应用开发 AI开放平台网站开发语音转文字（语音识别）智能体创建 AI插件与浏览器 Logo设计室内装饰平面设计建筑设计服装设计超级智能体医疗健康 3D与动画 AI 陪伴虚拟数字人数据分析游戏开发海报插画电商广告 AI 学堂文献资料检测查重企业客服金融法律 AI 课程字幕水印 AI社区协作 AI短剧翻译配音简历|招聘|面试 AI艺术设计图像编辑 AI 抠图图片修复图片压缩图片放大音频编辑直播图片素材素材模板视频素材面部重构头像生成视频下载流量 AI视频工具 AI音频工具虚拟歌手伪造检测 MCP资源平台出行旅游 AI 机器人 AI 自动驾驶体育运动音乐发行 AI音乐平台世界模型 AI算力平台 AI数据集提示词 Prompt 脑机接口 ✂️ AI图像编辑 ✍️ AI写作辅助

排序

发布更新浏览点赞

SadTalker SadTalker

SadTalker SadTalker

学习现实的3D运动系数风格化音频驱动的单图像说话的脸动画。

0650

3D与动画 AI开源项目

Deep-Live-Cam

Deep-Live-Cam是一个开源的实时面部交换和一键式视频深度伪造工具，它允许用户仅使用单张图片即可生成深度伪造视频。

0540

AI开源项目面部重构

AI对口型项目EchoMimic

AI对口型项目EchoMimic

EchoMimic是一款由蚂蚁集团研究团队推出的创新技术，能够根据音频内容和角色照片生成生动对口型视频。该技术突破了传统方法的局限性，实现了更逼真和动态的人像生成。

0600

AI开源项目对口型

字节跳动

LatentSync 端到端唇同步技术一种基于音频条件的潜在扩散模型的端到端唇同步框架，能够直接建模复杂的音视频关联.

0590

3D与动画 AI开源项目 # 人工智能 # 唇同步 # 娱乐技术

AI换头技术CHANGER

CHANGER是一种新型头部融合管道，旨在为数字内容创作提供高保真的头部合成解决方案，特别适用于视觉效果(VFX)、数字人物创建和虚拟头像等领域。

0620

AI开源项目头像生成

ComfyUI-AdvancedLivePortrait

ComfyUI-AdvancedLivePortrait

一个开源的实时人像美化和背景替换工具，基于深度学习技术，为视频通话、直播和虚拟背景应用提供高级视觉效果。

0560

AI开源项目面部重构

VideoPainter

视频局部编辑技术香港中文大学、腾讯ARC Lab、东京大学和澳门大学等机构联合推出的开源视频修复和编辑工具，能够通过文字指令实现对任意长度视频的高效修复和编辑。

0610

AI开源项目编辑转换

IntrinsicAnything

IntrinsicAnything

一种通过生成模型学习材料，规范优化过程的方法，以提高在未知静态照明条件下拍摄的姿势图像中恢复物体材质的准确性。

0610

AI开源项目图像生成

AuraSR高清修复放大

AuraSR 是基于 GAN 的 Super-Resolution 模型，通过图像条件化增强技术，提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现，并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量，适用于图像处理领域。

0640

AI开源项目图像编辑

InvSR

AI图片高清修复工具一个用于图像超分辨率的开源工具，它通过先进的算法来增强图像的分辨率，使低分辨率图像变得更加清晰。

0590

AI开源项目图片修复 # 医学成像 # 图像处理 # 图像超分辨率

DLoRAL

一键实现视频超分辨率的开源框架 DLoRAL是由香港理工大学与OPPO研究院联合推出的一款开源视频超分辨率框架，基于扩散模型实现一步生成高清视频，为视频超分辨率领域带来了革命性突破。

0630

AI开源项目图片放大 # 人工智能 # 开源工具 # 视频处理

Thera

无混叠任意尺度超分辨率工具基于神经热场的无混叠任意尺度超分辨率方法，能够实现高质量的图像放大，同时避免常见的混叠问题。

0580

AI开源项目图像编辑

蚂蚁集团

Ming-flash-omni 2.0 全模态大模型 Ming-flash-omni 2.0 是蚂蚁集团开源的新一代全模态大模型，基于 Ling-2.0 MoE 架构打造，实现视觉语言理解、图像生成编辑、语音 / 音效 / 音乐统一生成三大能力全面升级，部分指标超越 Gemini 2.5 Pro，为多模态应用开发提供高效统一入口。

0600

AI开源项目图像生成

阿里Qwen-Image-Layered

阿里Qwen-Image-Layered

分层图像编辑模型 Qwen-Image-Layered 是阿里通义千问开源的 AI 模型，可把单张照片一键拆成带透明通道的独立图层，让“零 PS 基础”的用户也能像专业设计师一样精准改图。

0580

AI开源项目图像编辑 # AI 抠图 # 图像编辑 # 图层分离

EasyControl_Ghibli

EasyControl_Ghibli

一键生成吉卜力风格图像的AI工具专注于生成吉卜力风格的图像，用户可以通过简单的操作将普通图像转换为具有吉卜力动画特色的艺术作品。

0600

AI开源项目图像生成