语音转文字（语音识别）

共 23 篇网址

测试用网址目录常用工具提示词 AI热门工具人声分离创作与影视编曲制作音乐生成音乐素材变声克隆文字转语音（配音播报）语音大模型多模态大模型 AI搜索工具学生教师文本生成编程代码图像生成 AI 小助手 AI 翻译总结摘要文档论文聊天对话辅助写作 AI开源项目生物医药科研视频生成 AI游戏娱乐休闲 API 超市对口型模特生成编辑转换 AI 会议 AI 办公 Excel PPT 公文写作思维导图 AI应用开发 AI开放平台网站开发语音转文字（语音识别）智能体创建 AI插件与浏览器 Logo设计室内装饰平面设计建筑设计服装设计超级智能体医疗健康 3D与动画 AI 陪伴虚拟数字人数据分析游戏开发海报插画电商广告 AI 学堂文献资料检测查重企业客服金融法律 AI 课程字幕水印 AI社区协作 AI短剧翻译配音简历|招聘|面试 AI艺术设计图像编辑 AI 抠图图片修复图片压缩图片放大音频编辑直播图片素材素材模板视频素材面部重构头像生成视频下载流量 AI视频工具 AI音频工具虚拟歌手伪造检测 MCP资源平台出行旅游 AI 机器人 AI 自动驾驶体育运动音乐发行 AI音乐平台世界模型 AI算力平台 AI数据集提示词 Prompt 脑机接口 ✂️ AI图像编辑 ✍️ AI写作辅助

排序

发布更新浏览点赞

Deepgram

语音 AI 一个提供语音到文本、文本到语音以及语言理解 API 的语音 AI 平台。它被全球顶尖企业、对话式 AI 领导者和初创公司所信赖，适用于医疗转录到自主代理等多种场景。

0760

API 超市文字转语音（配音播报）

Qwen2-VL

Qwen2-VL是一个基于自然语言处理（NLP）技术的语音到文本（Voice-to-Text）和文本到语音（Text-to-Speech, TTS）转换工具，旨在提供高质量的语音转换服务。

0680

AI开源项目多模态大模型

Whisper-Medusa Whisper-Medusa

Whisper-Medusa Whisper-Medusa

一款基于Whisper模型的优化版语音识别工具，通过多解码头技术显著提升处理速度

0650

AI开源项目语音转文字（语音识别）

BibiGPT

AI 音视频助理插件 BibiGPT是一款基于人工智能的视频总结工具，具有广泛的应用范围和强大的功能。支持多种平台，包括哔哩哔哩、YouTube、抖音等，广泛应用于学习助手和内容创作领域。

0860

AI插件与浏览器语音转文字（语音识别）

Moonshine自动语音识别（ASR）工具

Moonshine自动语音识别（ASR）工具

Moonshine是一个为边缘设备提供快速且准确的自动语音识别（ASR）的工具。

0630

AI开源项目语音转文字（语音识别）

谷歌NotebookLM

Google推出的一款AI笔记应用，能够将文档内容转化为音频播客，帮助用户更高效地学习和获取信息。

0680

总结摘要文字转语音（配音播报）

Kimi-Audio

开源音频基础模型开源的音频基础模型，擅长音频理解、生成和对话，适用于多种音频处理任务。

0750

AI开源项目文字转语音（配音播报）# 对话系统 # 开源工具 # 语音识别

OpenAI.fm

探索文本到语音的新境界为开发者提供的交互式演示平台，用于体验 OpenAI API 中的新型文本到语音模型，助力开发者快速构建相关应用。

0700

AI开放平台语音转文字（语音识别）

Step-Audio

阶跃开源的130B语音模型一款强大的开源语音交互模型，能够实现语音识别、对话生成、情感克隆和多语言支持，为用户提供高质量的实时语音交互体验。

0710

AI开源项目变声克隆

GPT-Realtime

开启语音交互新时代 GPT-Realtime是OpenAI推出的一款强大的语音到语音模型，采用端到端Speech-to-Speech架构，能够直接生成并处理语音，省去常规的文本转换步骤，广泛应用于多种语音交互场景。

0600

文字转语音（配音播报）语音转文字（语音识别）

Fun-ASR

钉钉与通义实验室联合发布的语音识别大模型 Fun-ASR是由钉钉与通义实验室联合发布的新一代语音识别大模型，旨在为企业提供更强大、灵活的语音转写能力。

0700

语音转文字（语音识别）# 个性化定制 # 人工智能 # 企业协作

腾讯ARC团队的AudioStory模型

腾讯ARC团队的AudioStory模型

开启AI音频生成新时代腾讯ARC团队推出的AudioStory模型，能够根据文字描述生成高质量的音频内容，具有强大的叙事能力。

0620

AI开源项目文字转语音（配音播报）

HitPaw

HitPaw 是一个提供强大视频、音频和图片解决方案的平台，由一系列多媒体工具组成，旨在帮助用户在各种媒体内容上进行创作、编辑和转换。

0650

AI 抠图变声克隆

Twelve

Labs 多模态AI视频理解平台一个多模态人工智能平台，它能够像人类一样理解视频内容，帮助用户在任何应用中实现视频内容的深度分析和利用。

0670

AI开放平台 API 超市

D-ID

Video Translate D-ID Video Translate是一款利用人工智能技术，能够将视频翻译成多种语言的在线服务工具。

0890

AI 翻译字幕水印