热门

Whisper-Medusa Whisper-Medusa

3个月前发布 65 0 0

一款基于Whisper模型的优化版语音识别工具，通过多解码头技术显著提升处理速度

收录时间：

2026-02-14

打开网站手机查看

AI开源项目语音转文字（语音识别）

Whisper-Medusa Whisper-Medusa

Whisper-Medusa Whisper-Medusa

一款基于Whisper模型的优化版语音识别工具，通过多解码头技术显著提升处理速度

数据统计

相关导航

宇树UnifoLM-VLA-0

宇树UnifoLM-VLA-0

为人形机器人注入“物理常识”的通用大脑宇树开源的UnifoLM-VLA-0是一个专为通用人形机器人设计的视觉-语言-动作基础模型，它通过在真实机器人操作数据上进行预训练，使模型获得了对物理世界交互规律的基本理解，标志着机器人大脑从“图文理解”迈向具备“物理常识”的具身智能。

GPT-Realtime

开启语音交互新时代 GPT-Realtime是OpenAI推出的一款强大的语音到语音模型，采用端到端Speech-to-Speech架构，能够直接生成并处理语音，省去常规的文本转换步骤，广泛应用于多种语音交互场景。

OminiControl Art

OminiControl Art

AI艺术创作的高效工具基于OminiControl框架开发的AI艺术创作工具，它将OpenAI的GPT-4o艺术风格与FLUX.1模型相结合，能够高效生成高质量的艺术图像。

MobileAgent

移动设备的智能操作助手 MobileAgent 是一款强大的移动设备操作辅助工具，通过多智能体协作实现复杂任务的自动化操作，提升移动设备的使用效率和便捷性。

昆仑万维

SkyReels - V3 昆仑万维 SkyReels - V3 是一款由 Skywork AI 开源的多模态视频生成模型，在单一建模架构中实现参考图像转视频、视频延长和音频驱动虚拟形象三大核心能力，达成高保真多模态视频生成的行业领先水平。

Deep-Live-Cam

Deep-Live-Cam是一个开源的实时面部交换和一键式视频深度伪造工具，它允许用户仅使用单张图片即可生成深度伪造视频。

TeleChat3

国产千亿MoE开源大模型 TeleChat3 是中国电信 TeleAI 开源的国产千亿参数 MoE 大模型，支持“思考模式”并在全国产算力上完成 15T tokens 训练，可对标国际顶尖水平。

Thera

无混叠任意尺度超分辨率工具基于神经热场的无混叠任意尺度超分辨率方法，能够实现高质量的图像放大，同时避免常见的混叠问题。

暂无评论

none

暂无评论...