TRELLIS.2-4B 微软开源的高精度图像到 3D 生成工具 TRELLIS.2-4B 是微软开源的一款基于流匹配 Transformer 的大型 3D 生成模型,能够以单张图片为输入,快速生成具备高保真度、复杂拓扑结构和 PBR 材质的 3D 资产,适用于多种高精度 3D 建模场景。
百度PaddleOCR-VL文档解析模型 PaddleOCR-VL 是百度 2025 年 10 月开源的全球最强文档解析模型,仅用 0.9B 参数即可在复杂版面、手写、表格、公式、图表等全场景实现 SOTA 级“看懂+读懂”。
宇树UnifoLM-VLA-0 为人形机器人注入“物理常识”的通用大脑 宇树开源的UnifoLM-VLA-0是一个专为通用人形机器人设计的视觉-语言-动作基础模型,它通过在真实机器人操作数据上进行预训练,使模型获得了对物理世界交互规律的基本理解,标志着机器人大脑从“图文理解”迈向具备“物理常识”的具身智能。