字节OmniHuman-1.5 AI视频生成领域的新突破 OmniHuman-1.5是字节跳动推出的多模态数字人方案,通过单张图像与音频输入生成高度逼真的动态视频,广泛应用于影视制作、虚拟主播、教育培训等领域。
HunyuanWorld-Voyager 从一张照片走进3D世界 HunyuanWorld-Voyager是由腾讯混元团队开源的3D生成工具,能通过单张照片或文字描述快速生成360°沉浸式3D场景,为用户带来全新的视觉体验。
百度PaddleOCR-VL文档解析模型 PaddleOCR-VL 是百度 2025 年 10 月开源的全球最强文档解析模型,仅用 0.9B 参数即可在复杂版面、手写、表格、公式、图表等全场景实现 SOTA 级“看懂+读懂”。
Vidu Q2 开启 AI 视频生成的“演技时代” Vidu Q2 是生数科技推出的新一代图生视频大模型,它通过突破细微表情生成技术,实现了从“视频生成”到“演技生成”的跨越,为内容创作、影视产业、广告营销等领域带来了全新升级。