热门

宇树UnifoLM-VLA-0

3个月前发布 62 0 0

为人形机器人注入“物理常识”的通用大脑宇树开源的UnifoLM-VLA-0是一个专为通用人形机器人设计的视觉-语言-动作基础模型，它通过在真实机器人操作数据上进行预训练，使模型获得了对物理世界交互规律的基本理解，标志着机器人大脑从“图文理解”迈向具备“物理常识”的具身智能。

收录时间：

2026-02-14

打开网站手机查看

AI 机器人 AI开源项目

宇树UnifoLM-VLA-0

宇树UnifoLM-VLA-0

为人形机器人注入“物理常识”的通用大脑宇树开源的UnifoLM-VLA-0是一个专为通用人形机器人设计的视觉-语言-动作基础模型，它通过在真实机器人操作数据上进行预训练，使模型获得了对物理世界交互规律的基本理解，标志着机器人大脑从“图文理解”迈向具备“物理常识”的具身智能。

数据统计

相关导航

EX-4D

极端视角4D视频合成工具 EX-4D是一种先进的4D视频合成工具，能够将单目视频转化为可在极端视角下自由控制的4D视频体验，生成高质量且物理一致的结果。

Zonos-TTS

高保真多语言文本到语音模型一款高保真多语言文本到语音（TTS）模型，支持实时语音克隆和多语言情感控制，能够生成自然、富有表现力的语音。

VideoPainter

视频局部编辑技术香港中文大学、腾讯ARC Lab、东京大学和澳门大学等机构联合推出的开源视频修复和编辑工具，能够通过文字指令实现对任意长度视频的高效修复和编辑。

DisPose

可控人像动画技术 DisPose 是一种可控制的人体图像动画方法，它通过运动场引导和关键点对应来提高视频生成的质量。

NiuTrans.LMT

打破语言壁垒的多语种翻译开源大模型 NiuTrans.LMT 是东北大学开源的多语言翻译大模型，凭借双中心架构与三层语言覆盖设计，支持 60 种语言、234 个翻译方向，在低资源语言翻译领域实现重大突破，兼顾翻译效率与准确性，为跨文化交互提供高效开源解决方案。

百度PaddleOCR-VL文档解析模型

百度PaddleOCR-VL文档解析模型

PaddleOCR-VL 是百度 2025 年 10 月开源的全球最强文档解析模型，仅用 0.9B 参数即可在复杂版面、手写、表格、公式、图表等全场景实现 SOTA 级“看懂+读懂”。

Moonshine自动语音识别（ASR）工具

Moonshine自动语音识别（ASR）工具

Moonshine是一个为边缘设备提供快速且准确的自动语音识别（ASR）的工具。

LeKiwi

低成本移动操作机器人低成本移动操作机器人，旨在为机器人爱好者和研究人员提供一个易于组装和使用的平台。

暂无评论

none

暂无评论...