新Qwen2-VL Qwen2-VL是一个基于自然语言处理(NLP)技术的语音到文本(Voice-to-Text)和文本到语音(Text-to-Speech, TTS)转换工具,旨在提供高质量的语音转换服务。 060 AI开源项目多模态大模型
新阶跃星辰Step-Audio2mini 最强开源端到端语音大模型 阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型,能够实现语音理解、音频推理与生成的统一建模。 060 AI开源项目文字转语音(配音播报)
新PramaLLC背景消除网络BEN2 高效精准的图像与视频背景移除工具 一款深度学习模型,专门用于从图像和视频中快速移除背景并提取前景。 060 AI 抠图AI开源项目# 人工智能# 前景分割# 图像处理
新WebAgent 自主搜索AI智能体 WebAgent是由阿里云通义实验室开源的自主搜索AI智能体项目,旨在模拟人类在网络环境中的感知、决策和行动循环,通过自主搜索和多步推理处理复杂、模糊的网络任务。 040 AI开源项目AI搜索工具# :人工智能# 信息检索# 商业分析
新字节推文生图框架 InfiniteYou 个性化图像生成新体验 一款创新的图像生成工具,能够根据用户的文字描述生成高质量的个性化图像,并且在更换场景和内容时精准保留用户的身份特征。 040 AI应用开发AI开源项目
新DisPose 可控人像动画技术 DisPose 是一种可控制的人体图像动画方法,它通过运动场引导和关键点对应来提高视频生成的质量。 040 3D与动画AI开源项目# 人体图像动画# 动作模拟# 增强现实