新TabPedia 表格理解大模型 TabPedia是一个新型的大型视觉-语言模型,由中国科学技术大学和字节跳动公司联合开发。该模型通过概念协同机制,能够无缝集成多种视觉表格理解(VTU)任务,如表格检测、表格结构识别、表格查询和表格问题回答。
新阿里Qwen-Image-Layered 分层图像编辑模型 Qwen-Image-Layered 是阿里通义千问开源的 AI 模型,可把单张照片一键拆成带透明通道的独立图层,让“零 PS 基础”的用户也能像专业设计师一样精准改图。
新HunyuanWorld-Voyager 从一张照片走进3D世界 HunyuanWorld-Voyager是由腾讯混元团队开源的3D生成工具,能通过单张照片或文字描述快速生成360°沉浸式3D场景,为用户带来全新的视觉体验。
新GPT-Realtime 开启语音交互新时代 GPT-Realtime是OpenAI推出的一款强大的语音到语音模型,采用端到端Speech-to-Speech架构,能够直接生成并处理语音,省去常规的文本转换步骤,广泛应用于多种语音交互场景。
新OminiControl Art AI艺术创作的高效工具 基于OminiControl框架开发的AI艺术创作工具,它将OpenAI的GPT-4o艺术风格与FLUX.1模型相结合,能够高效生成高质量的艺术图像。