宇树UnifoLM-VLA-0 为人形机器人注入“物理常识”的通用大脑 宇树开源的UnifoLM-VLA-0是一个专为通用人形机器人设计的视觉-语言-动作基础模型,它通过在真实机器人操作数据上进行预训练,使模型获得了对物理世界交互规律的基本理解,标志着机器人大脑从“图文理解”迈向具备“物理常识”的具身智能。
TabPedia 表格理解大模型 TabPedia是一个新型的大型视觉-语言模型,由中国科学技术大学和字节跳动公司联合开发。该模型通过概念协同机制,能够无缝集成多种视觉表格理解(VTU)任务,如表格检测、表格结构识别、表格查询和表格问题回答。
AuraSR高清修复放大 AuraSR 是基于 GAN 的 Super-Resolution 模型,通过图像条件化增强技术,提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现,并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量,适用于图像处理领域。
Office-PowerPoint-MCP-Server 高效管理 PPT 的智能工具 基于 Model Context Protocol(MCP)的服务器工具,使用 python-pptx 操作 PowerPoint 演示文稿,支持通过 MCP 协议创建、编辑和操作 PowerPoint 文件。