SoulX-Podcast语音模型 SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎,可一键产出90分钟无中断、媲美真人录音的播客节目。 0270 AI开源项目文字转语音(配音播报)# AI语音合成# 企业营销# 内容创作工具
MaskGCT 零样本语音合成的创新突破 趣丸科技与香港中文大学(深圳)联合研发的开源文本转语音(TTS)模型,能够实现零样本语音合成,无需显式对齐信息和音素级时长预测,支持多种语言和情感控制。 0270 AI开源项目AI短剧
Follow-Your-Emoji Follow-Your-Emoji是一个基于扩散模型的人像动画框架,能够将目标表情序列动画化到参考人像上,同时保持人像身份的一致性、表情的传递、时间的连贯性和保真度。它通过采用表情感知标志和面部细粒度损失技术,显著提升了模型在控制自由风格人像表情方面的表现,包括真实人物、卡通、雕塑甚至动物。此外,它还通过简单有效的逐步生成策略,扩展到稳定的长期动画,增加了其潜在的应用价值。 0270 AI开源项目图像编辑
AI对口型项目EchoMimic EchoMimic是一款由蚂蚁集团研究团队推出的创新技术,能够根据音频内容和角色照片生成生动对口型视频。该技术突破了传统方法的局限性,实现了更逼真和动态的人像生成。 0270 AI开源项目对口型
InvSR AI图片高清修复工具 一个用于图像超分辨率的开源工具,它通过先进的算法来增强图像的分辨率,使低分辨率图像变得更加清晰。 0270 AI开源项目图片修复# 医学成像# 图像处理# 图像超分辨率
OminiControl Art AI艺术创作的高效工具 基于OminiControl框架开发的AI艺术创作工具,它将OpenAI的GPT-4o艺术风格与FLUX.1模型相结合,能够高效生成高质量的艺术图像。 0270 AI开源项目图像生成# AI工具# 图像生成# 数字艺术
TabPedia 表格理解大模型 TabPedia是一个新型的大型视觉-语言模型,由中国科学技术大学和字节跳动公司联合开发。该模型通过概念协同机制,能够无缝集成多种视觉表格理解(VTU)任务,如表格检测、表格结构识别、表格查询和表格问题回答。 0270 AI开源项目Excel
蚂蚁集团LingBot-VLA 开启双臂机器人“大模型操控”新时代 正 LingBot-VLA是蚂蚁集团推出的一个专注于现实世界复杂操控任务的视觉-语言-动作基础模型,它通过海量真实机器人数据进行训练,实现了用自然语言指令直接操控多种不同形态的双臂机器人。 0260 AI 机器人AI开源项目
Qwen3 阿里巴巴新一代混合推理大模型 阿里巴巴推出的最新一代混合推理大模型,支持119种语言,具备强大的推理、编码和智能体能力,广泛应用于自然语言理解、复杂推理、代码生成等场景。 0260 AI开源项目AI热门工具
Anthropic Agent Skills 开源知识库 Anthropic Agent Skills 是 Anthropic 推出的开源知识库,为 Claude 模型提供可动态加载的示范性技能与最佳实践,涵盖多领域实用技能集,支持开发者直接使用或按规范自定义技能,通过按需加载指令集降低 Token 消耗、提升特定任务处理效率。 0260 AI开源项目AI数据集
MobileAgent 移动设备的智能操作助手 MobileAgent 是一款强大的移动设备操作辅助工具,通过多智能体协作实现复杂任务的自动化操作,提升移动设备的使用效率和便捷性。 0260 AI应用开发AI开源项目
LingBot-World 蚂蚁灵波开源世界模型 LingBot-World 是蚂蚁灵波科技开源的一款顶尖世界模型,它以可扩展数据引擎为驱动,能提供高保真、高动态且可实时交互的模拟环境,在视频质量、长时序一致性等多方面表现突出,适配多领域应用。 0260 3D与动画AI开源项目