DLoRAL 一键实现视频超分辨率的开源框架 DLoRAL是由香港理工大学与OPPO研究院联合推出的一款开源视频超分辨率框架,基于扩散模型实现一步生成高清视频,为视频超分辨率领域带来了革命性突破。 0630 AI开源项目图片放大# 人工智能# 开源工具# 视频处理
宇树UnifoLM-VLA-0 为人形机器人注入“物理常识”的通用大脑 宇树开源的UnifoLM-VLA-0是一个专为通用人形机器人设计的视觉-语言-动作基础模型,它通过在真实机器人操作数据上进行预训练,使模型获得了对物理世界交互规律的基本理解,标志着机器人大脑从“图文理解”迈向具备“物理常识”的具身智能。 0620 AI 机器人AI开源项目
Revisit-Anything 视觉位置识别技术 Revisit-Anything 可以帮助用户高效地管理和回顾各种内容。它能够对文本、图像、代码等多种类型的文件进行分类和标记,方便用户快速找到所需内容。同时,该工具还支持搜索功能,用户可以通过关键词快速定位到特定的文件或信息。 0620 AI开源项目AI数据集
MoCha 电影级对话角色合成工具 MoCha 是一款能够仅通过语音和文本生成电影级对话角色的合成工具,支持情感控制、动作控制以及多角色对话等功能。 0620 3D与动画AI应用开发# 动画制作工具# 影视制作工具# 游戏开发工具
Stable Virtual Camera 让2D图像秒变3D视频 Stability AI 推出的一款 AI 模型,能够将二维图像转换为具有真实深度和透视感的沉浸式三维视频。 0620 3D与动画AI开源项目# 人工智能# 内容创作# 创意工具
腾讯ARC团队的AudioStory模型 开启AI音频生成新时代 腾讯ARC团队推出的AudioStory模型,能够根据文字描述生成高质量的音频内容,具有强大的叙事能力。 0620 AI开源项目文字转语音(配音播报)
Follow-Your-Emoji Follow-Your-Emoji是一个基于扩散模型的人像动画框架,能够将目标表情序列动画化到参考人像上,同时保持人像身份的一致性、表情的传递、时间的连贯性和保真度。它通过采用表情感知标志和面部细粒度损失技术,显著提升了模型在控制自由风格人像表情方面的表现,包括真实人物、卡通、雕塑甚至动物。此外,它还通过简单有效的逐步生成策略,扩展到稳定的长期动画,增加了其潜在的应用价值。 0620 AI开源项目图像编辑
AI换头技术CHANGER CHANGER是一种新型头部融合管道,旨在为数字内容创作提供高保真的头部合成解决方案,特别适用于视觉效果(VFX)、数字人物创建和虚拟头像等领域。 0620 AI开源项目头像生成
昆仑万维 SkyReels - V3 昆仑万维 SkyReels - V3 是一款由 Skywork AI 开源的多模态视频生成模型,在单一建模架构中实现参考图像转视频、视频延长和音频驱动虚拟形象三大核心能力,达成高保真多模态视频生成的行业领先水平。 0610 AI开源项目视频生成
MobileAgent 移动设备的智能操作助手 MobileAgent 是一款强大的移动设备操作辅助工具,通过多智能体协作实现复杂任务的自动化操作,提升移动设备的使用效率和便捷性。 0610 AI应用开发AI开源项目
VideoPainter 视频局部编辑技术 香港中文大学、腾讯ARC Lab、东京大学和澳门大学等机构联合推出的开源视频修复和编辑工具,能够通过文字指令实现对任意长度视频的高效修复和编辑。 0610 AI开源项目编辑转换