AI开源项目

共 101 篇网址

测试用网址目录常用工具提示词 AI热门工具人声分离创作与影视编曲制作音乐生成音乐素材变声克隆文字转语音（配音播报）语音大模型多模态大模型 AI搜索工具学生教师文本生成编程代码图像生成 AI 小助手 AI 翻译总结摘要文档论文聊天对话辅助写作 AI开源项目生物医药科研视频生成 AI游戏娱乐休闲 API 超市对口型模特生成编辑转换 AI 会议 AI 办公 Excel PPT 公文写作思维导图 AI应用开发 AI开放平台网站开发语音转文字（语音识别）智能体创建 AI插件与浏览器 Logo设计室内装饰平面设计建筑设计服装设计超级智能体医疗健康 3D与动画 AI 陪伴虚拟数字人数据分析游戏开发海报插画电商广告 AI 学堂文献资料检测查重企业客服金融法律 AI 课程字幕水印 AI社区协作 AI短剧翻译配音简历|招聘|面试 AI艺术设计图像编辑 AI 抠图图片修复图片压缩图片放大音频编辑直播图片素材素材模板视频素材面部重构头像生成视频下载流量 AI视频工具 AI音频工具虚拟歌手伪造检测 MCP资源平台出行旅游 AI 机器人 AI 自动驾驶体育运动音乐发行 AI音乐平台世界模型 AI算力平台 AI数据集提示词 Prompt 脑机接口 ✂️ AI图像编辑 ✍️ AI写作辅助

排序

发布更新浏览点赞

Zonos-TTS

高保真多语言文本到语音模型一款高保真多语言文本到语音（TTS）模型，支持实时语音克隆和多语言情感控制，能够生成自然、富有表现力的语音。

0630

AI开源项目变声克隆

Kokoro语音合成模型

Kokoro是一款新发布的语音合成模型，具有8200万参数，以其轻量级设计和高效性能在TTS领域表现卓越。

0570

AI开源项目变声克隆

字节MegaTTS3

轻量化语音合成模型 MegaTTS3 是由字节跳动与浙江大学合作开发的一款轻量级文本转语音（TTS）模型，以高效、轻量化和高质量语音合成为特点。

0610

AI开源项目变声克隆

Moonshine自动语音识别（ASR）工具

Moonshine自动语音识别（ASR）工具

Moonshine是一个为边缘设备提供快速且准确的自动语音识别（ASR）的工具。

0630

AI开源项目语音转文字（语音识别）

Qwen2-VL

Qwen2-VL是一个基于自然语言处理（NLP）技术的语音到文本（Voice-to-Text）和文本到语音（Text-to-Speech, TTS）转换工具，旨在提供高质量的语音转换服务。

0680

AI开源项目多模态大模型

Whisper-Medusa Whisper-Medusa

Whisper-Medusa Whisper-Medusa

一款基于Whisper模型的优化版语音识别工具，通过多解码头技术显著提升处理速度

0650

AI开源项目语音转文字（语音识别）

Kimi-Audio

开源音频基础模型开源的音频基础模型，擅长音频理解、生成和对话，适用于多种音频处理任务。

0750

AI开源项目文字转语音（配音播报）# 对话系统 # 开源工具 # 语音识别

Step-Audio

阶跃开源的130B语音模型一款强大的开源语音交互模型，能够实现语音识别、对话生成、情感克隆和多语言支持，为用户提供高质量的实时语音交互体验。

0710

AI开源项目变声克隆

阶跃星辰Step-Audio2mini

阶跃星辰Step-Audio2mini

最强开源端到端语音大模型阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型，能够实现语音理解、音频推理与生成的统一建模。

0650

AI开源项目文字转语音（配音播报）

腾讯ARC团队的AudioStory模型

腾讯ARC团队的AudioStory模型

开启AI音频生成新时代腾讯ARC团队推出的AudioStory模型，能够根据文字描述生成高质量的音频内容，具有强大的叙事能力。

0620

AI开源项目文字转语音（配音播报）

SoulX-Podcast语音模型

SoulX-Podcast语音模型

SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎，可一键产出90分钟无中断、媲美真人录音的播客节目。

0580

AI开源项目文字转语音（配音播报）# AI语音合成 # 企业营销 # 内容创作工具

MaskGCT

零样本语音合成的创新突破趣丸科技与香港中文大学（深圳）联合研发的开源文本转语音（TTS）模型，能够实现零样本语音合成，无需显式对齐信息和音素级时长预测，支持多种语言和情感控制。

0670

AI开源项目 AI短剧

ScreenPipe开源AI屏幕录制工具

ScreenPipe开源AI屏幕录制工具

一款24/7本地AI屏幕与麦克风录制工具，旨在帮助用户构建拥有完整上下文的AI应用。

0590

AI开源项目字幕水印

无偏水印（Unbiased

Watermark）该研究介绍了针对大型语言模型的无偏水印技术，表明可以添加水印而不影响生成文本的质量。研究提供了一个无偏水印的理论框架，确保输出不受水印的影响。这种方法为负责任的人工智能开发讨论提供了一个追踪和归因模型输出的方法，而不会牺牲质量。

0640

AI开源项目字幕水印

Follow-Your-Emoji

Follow-Your-Emoji

Follow-Your-Emoji是一个基于扩散模型的人像动画框架，能够将目标表情序列动画化到参考人像上，同时保持人像身份的一致性、表情的传递、时间的连贯性和保真度。它通过采用表情感知标志和面部细粒度损失技术，显著提升了模型在控制自由风格人像表情方面的表现，包括真实人物、卡通、雕塑甚至动物。此外，它还通过简单有效的逐步生成策略，扩展到稳定的长期动画，增加了其潜在的应用价值。

0620

AI开源项目图像编辑