谷歌 Gemini 多模态 AI 模型的革新者 谷歌 Gemini 是谷歌推出的新一代多模态 AI 模型,凭借其强大的性能和广泛的应用场景备受关注。 0310 AI应用开发AI开放平台# 人工智能# 多模态处理# 数据分析
Qwen2-VL Qwen2-VL是一个基于自然语言处理(NLP)技术的语音到文本(Voice-to-Text)和文本到语音(Text-to-Speech, TTS)转换工具,旨在提供高质量的语音转换服务。 0300 AI开源项目多模态大模型
GPT-Realtime 开启语音交互新时代 GPT-Realtime是OpenAI推出的一款强大的语音到语音模型,采用端到端Speech-to-Speech架构,能够直接生成并处理语音,省去常规的文本转换步骤,广泛应用于多种语音交互场景。 0280 文字转语音(配音播报)语音转文字(语音识别)
腾讯ARC团队的AudioStory模型 开启AI音频生成新时代 腾讯ARC团队推出的AudioStory模型,能够根据文字描述生成高质量的音频内容,具有强大的叙事能力。 0270 AI开源项目文字转语音(配音播报)