新Qwen2-VL Qwen2-VL是一个基于自然语言处理(NLP)技术的语音到文本(Voice-to-Text)和文本到语音(Text-to-Speech, TTS)转换工具,旨在提供高质量的语音转换服务。 060 AI开源项目多模态大模型
新BibiGPT AI 音视频助理插件 BibiGPT是一款基于人工智能的视频总结工具,具有广泛的应用范围和强大的功能。支持多种平台,包括哔哩哔哩、YouTube、抖音等,广泛应用于学习助手和内容创作领域。 060 AI插件与浏览器语音转文字(语音识别)
新Deepgram 语音 AI 一个提供语音到文本、文本到语音以及语言理解 API 的语音 AI 平台。它被全球顶尖企业、对话式 AI 领导者和初创公司所信赖,适用于医疗转录到自主代理等多种场景。 060 API 超市文字转语音(配音播报)
新OpenAI.fm 探索文本到语音的新境界 为开发者提供的交互式演示平台,用于体验 OpenAI API 中的新型文本到语音模型,助力开发者快速构建相关应用。 060 AI开放平台语音转文字(语音识别)
新谷歌 Gemini 多模态 AI 模型的革新者 谷歌 Gemini 是谷歌推出的新一代多模态 AI 模型,凭借其强大的性能和广泛的应用场景备受关注。 050 AI应用开发AI开放平台# 人工智能# 多模态处理# 数据分析
新Voicenotes 智能笔记 Voicenotes 是一款以录音为核心的智能笔记应用程序,它通过先进的人工智能技术,为用户提供了一个方便快捷的记录和搜索语音笔记的平台。 040 AI 会议AI 翻译
新GPT-Realtime 开启语音交互新时代 GPT-Realtime是OpenAI推出的一款强大的语音到语音模型,采用端到端Speech-to-Speech架构,能够直接生成并处理语音,省去常规的文本转换步骤,广泛应用于多种语音交互场景。 030 文字转语音(配音播报)语音转文字(语音识别)
新Fun-ASR 钉钉与通义实验室联合发布的语音识别大模型 Fun-ASR是由钉钉与通义实验室联合发布的新一代语音识别大模型,旨在为企业提供更强大、灵活的语音转写能力。 030 语音转文字(语音识别)# 个性化定制# 人工智能# 企业协作