新TRELLIS.2-4B 微软开源的高精度图像到 3D 生成工具 TRELLIS.2-4B 是微软开源的一款基于流匹配 Transformer 的大型 3D 生成模型,能够以单张图片为输入,快速生成具备高保真度、复杂拓扑结构和 PBR 材质的 3D 资产,适用于多种高精度 3D 建模场景。 030 3D与动画AI开源项目# AI 生成工具# PBR 材质生成工具# 图像到 3D 转换工具
新FLUX.1-dev LoRA 服装生成器 FLUX.1-dev LoRA 服装生成器利用先进的人工智能技术,为用户带来前所未有的时尚设计体验,让设计小白也能秒出服装效果图。 030 AI开源项目服装设计
新昆仑万维开源SkyReels-V2 无限时长电影生成模型 昆仑万维SkyReels团队推出的一款无限时长电影生成模型,基于扩散强迫框架结合多模态大语言模型等技术,能够生成高质量、无限时长的视频内容。 030 3D与动画AI开源项目
新🔥医疗AI黑科技!Google Med-Gemma 你的私人健康数据科学家 Google 推出的 MedGemma 是目前最强大的开源医疗 AI 模型之一,专为医疗健康领域的 AI 开发而设计。 030 AI开源项目医疗健康# 临床支持# 医学图像分析# 医学研究
新Step-DeepResearch 高性价比端到端深度研究代理模型 Step-DeepResearch 是阶跃星辰推出的一款高性价比、端到端深度研究代理模型,专为开放式研究场景中的自主信息探索和专业报告生成设计,能通过动态循环的推理、行动与反思,高效完成复杂研究任务。 030 AI开源项目多模态大模型# AI 代理模型# 产品调研工具# 信息检索整合工具
新腾讯ARC团队的AudioStory模型 开启AI音频生成新时代 腾讯ARC团队推出的AudioStory模型,能够根据文字描述生成高质量的音频内容,具有强大的叙事能力。 030 AI开源项目文字转语音(配音播报)
新SoulX-Podcast语音模型 SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎,可一键产出90分钟无中断、媲美真人录音的播客节目。 030 AI开源项目文字转语音(配音播报)# AI语音合成# 企业营销# 内容创作工具
新MaskGCT 零样本语音合成的创新突破 趣丸科技与香港中文大学(深圳)联合研发的开源文本转语音(TTS)模型,能够实现零样本语音合成,无需显式对齐信息和音素级时长预测,支持多种语言和情感控制。 030 AI开源项目AI短剧
新无偏水印(Unbiased Watermark) 该研究介绍了针对大型语言模型的无偏水印技术,表明可以添加水印而不影响生成文本的质量。研究提供了一个无偏水印的理论框架,确保输出不受水印的影响。这种方法为负责任的人工智能开发讨论提供了一个追踪和归因模型输出的方法,而不会牺牲质量。 030 AI开源项目字幕水印
新Follow-Your-Emoji Follow-Your-Emoji是一个基于扩散模型的人像动画框架,能够将目标表情序列动画化到参考人像上,同时保持人像身份的一致性、表情的传递、时间的连贯性和保真度。它通过采用表情感知标志和面部细粒度损失技术,显著提升了模型在控制自由风格人像表情方面的表现,包括真实人物、卡通、雕塑甚至动物。此外,它还通过简单有效的逐步生成策略,扩展到稳定的长期动画,增加了其潜在的应用价值。 030 AI开源项目图像编辑
新AI对口型项目EchoMimic EchoMimic是一款由蚂蚁集团研究团队推出的创新技术,能够根据音频内容和角色照片生成生动对口型视频。该技术突破了传统方法的局限性,实现了更逼真和动态的人像生成。 030 AI开源项目对口型