dots.ocr 多语言文档布局解析工具 dots.ocr 是一款强大的多语言文档解析工具,它通过单一视觉 - 语言模型实现布局检测和内容识别的统一,同时保持良好的阅读顺序,具有出色的性能和高效的处理速度。 0610 AI 办公AI开源项目# :文档解析# 多语言支持# 数据提取
TRELLIS.2-4B 微软开源的高精度图像到 3D 生成工具 TRELLIS.2-4B 是微软开源的一款基于流匹配 Transformer 的大型 3D 生成模型,能够以单张图片为输入,快速生成具备高保真度、复杂拓扑结构和 PBR 材质的 3D 资产,适用于多种高精度 3D 建模场景。 0600 3D与动画AI开源项目# AI 生成工具# PBR 材质生成工具# 图像到 3D 转换工具
昆仑万维开源SkyReels-V2 无限时长电影生成模型 昆仑万维SkyReels团队推出的一款无限时长电影生成模型,基于扩散强迫框架结合多模态大语言模型等技术,能够生成高质量、无限时长的视频内容。 0600 3D与动画AI开源项目
AI对口型项目EchoMimic EchoMimic是一款由蚂蚁集团研究团队推出的创新技术,能够根据音频内容和角色照片生成生动对口型视频。该技术突破了传统方法的局限性,实现了更逼真和动态的人像生成。 0600 AI开源项目对口型
蚂蚁集团 Ming-flash-omni 2.0 全模态大模型 Ming-flash-omni 2.0 是蚂蚁集团开源的新一代全模态大模型,基于 Ling-2.0 MoE 架构打造,实现视觉语言理解、图像生成编辑、语音 / 音效 / 音乐统一生成三大能力全面升级,部分指标超越 Gemini 2.5 Pro,为多模态应用开发提供高效统一入口。 0600 AI开源项目图像生成
OminiControl Art AI艺术创作的高效工具 基于OminiControl框架开发的AI艺术创作工具,它将OpenAI的GPT-4o艺术风格与FLUX.1模型相结合,能够高效生成高质量的艺术图像。 0600 AI开源项目图像生成# AI工具# 图像生成# 数字艺术
Meta Video Seal AI视频水印工具 Meta 公司推出的开源 AI 视频水印工具,旨在通过在 AI 生成的视频中加入不可察觉的水印来打击深度伪造和保护原创内容。 0590 AI开源项目伪造检测
蚂蚁集团LingBot-VLA 开启双臂机器人“大模型操控”新时代 正 LingBot-VLA是蚂蚁集团推出的一个专注于现实世界复杂操控任务的视觉-语言-动作基础模型,它通过海量真实机器人数据进行训练,实现了用自然语言指令直接操控多种不同形态的双臂机器人。 0590 AI 机器人AI开源项目
FLUX.1-dev LoRA 服装生成器 FLUX.1-dev LoRA 服装生成器利用先进的人工智能技术,为用户带来前所未有的时尚设计体验,让设计小白也能秒出服装效果图。 0590 AI开源项目服装设计
InvSR AI图片高清修复工具 一个用于图像超分辨率的开源工具,它通过先进的算法来增强图像的分辨率,使低分辨率图像变得更加清晰。 0590 AI开源项目图片修复# 医学成像# 图像处理# 图像超分辨率