HunyuanWorld-Voyager 从一张照片走进3D世界 HunyuanWorld-Voyager是由腾讯混元团队开源的3D生成工具,能通过单张照片或文字描述快速生成360°沉浸式3D场景,为用户带来全新的视觉体验。
百度PaddleOCR-VL文档解析模型 PaddleOCR-VL 是百度 2025 年 10 月开源的全球最强文档解析模型,仅用 0.9B 参数即可在复杂版面、手写、表格、公式、图表等全场景实现 SOTA 级“看懂+读懂”。
Runway Gen-3 Alpha RunwayML推出了Gen-3 Alpha,这是一款用于高保真、可控视频生成的新型模型。它是Runway基于为大规模多模态训练而构建的新基础设施训练的首批模型之一,与Gen-2相比,在保真度、一致性和动作上都有显著提升,是构建通用世界模型的重要一步。