AI开源项目 | 网址分类目录 | AI工具箱

AI开源项目

Wan2.1：开源先进的大规模视频生成模型

Wan2.1 是一个开源的、先进的大规模视频生成模型套件，能够在多种视频生成任务中提供卓越的性能和效果。

Flow-GRPO：基于在线强化学习训练流匹配模型的官方实现

Flow-GRPO 是一种通过在线强化学习训练流匹配模型的工具，能够显著提升图像生成质量和模型性能。

AgentCPM-GUI：智能操作安卓应用的GUI代理工具

清华大学自然语言处理实验室（THUNLP）和ModelBest联合开发的开源设备端GUI代理工具，能够操作中文和英文安卓应用，并通过强化微调提升推理能力，高效执行任务。

Seed1.5-VL：字节跳动推出的视觉语言基础模型

字节跳动推出的视觉语言基础模型，旨在推进通用多模态理解和推理能力，并在多个公共基准测试中取得了优异的成绩。

ZeroSearch：无需真实搜索引擎的强化学习框架

创新的强化学习框架，通过利用大型语言模型（LLM）模拟搜索引擎，从而无需依赖真实的搜索引擎即可实现高效的搜索与优化。

TencentARC：腾讯 PCG 的人工智能与机器学习实验室

腾讯 PCG 的人工智能与机器学习实验室，专注于计算机视觉、语音和自然语言处理等领域，致力于在语音/视频生成、增强、检索、理解以及 AutoML 等技术上进行探索、创新和突破。

Excel MCP Server：无需安装 Excel 即可操作 Excel 文件的服务器工具

能够让您在无需安装 Microsoft Excel 的情况下，通过 AI 代理对 Excel 文件进行创建、读取、修改、格式化、生成图表和透视表等操作。

CameraBench：视频中相机运动理解的基准工具

理解和评估视频中相机运动的基准工具，旨在通过结合几何和语义信息，提升对视频中相机运动的理解和分析能力。

Paper2Code：机器学习论文代码生成利器

开源的自动化机器学习论文代码生成器，能够将机器学习领域的学术论文自动转化为高质量且可运行的代码库。

Qwen3：阿里巴巴新一代混合推理大模型

阿里巴巴推出的最新一代混合推理大模型，支持119种语言，具备强大的推理、编码和智能体能力，广泛应用于自然语言理解、复杂推理、代码生成等场景。

Step1X-Edit：开源图像编辑模型，开启智能创作新时代

Stepfun AI 团队推出的开源图像编辑模型，能够通过人工智能技术实现高效、智能的图像编辑与创作。

Nari Labs开源文本转语音模型Dia：生成自然对话与非语言提示

开源文本转语音（TTS）模型，能够生成高度逼真的对话语音，并支持情感语调、非语言提示（如笑声、咳嗽）以及声音克隆功能。

Suna：Kortix-AI 推出的开源通用 AI 智能体平台

Kortix-AI 推出的一款开源通用 AI 智能体平台，旨在成为 Manus 的替代品，通过自然语言对话实现复杂任务的自动化处理。

Intel AI Playground：基于 Intel® Arc™ GPU 的 AI 创作工具

开源的 AI 创作工具，专为搭载 Intel® Arc™ GPU 的 PC 设计，支持图像生成、图像风格化和聊天机器人等功能。

昆仑万维开源SkyReels-V2：无限时长电影生成模型

昆仑万维SkyReels团队推出的一款无限时长电影生成模型，基于扩散强迫框架结合多模态大语言模型等技术，能够生成高质量、无限时长的视频内容。

InstantCharacter：快速生成角色描述的工具

腾讯混元团队正式开源了InstantCharacter框架，这一基于扩散变换器的角色个性化工具，具备高一致性和灵活性，能够从单张图像生成多样化的角色定制，适用于多种艺术风格。

阿里通义万相Wan2.1：开源视频生成模型

Wan2.1 是一个开源的大规模视频生成模型工具，致力于通过先进的技术架构和优化策略，提供高性能、低资源消耗的视频生成解决方案，支持多种生成任务和多语言文本生成。

Seed-Thinking-v1.5：强化学习驱动的卓越推理模型

字节跳动推出的先进推理模型，通过强化学习提升推理能力，在数学、编程和科学等多个领域表现出色。

SpatialLM：让三维空间理解更智能

专注于三维空间理解的大语言模型，能够将三维点云数据转化为结构化的三维场景理解输出，广泛应用于机器人导航、建筑设计等领域。

Pusa-VidGen：千步视频扩散模型

创新的视频扩散模型，通过帧级别的噪声控制和向量化时间步，实现了高效率的视频生成，支持多种任务，如文本到视频、图像到视频等。

字节UNO：多主体驱动的高一致性生成模型

多图像条件下的主体到图像生成模型，通过渐进式跨模态对齐和通用旋转位置嵌入，实现了高一致性和可控性的多主体生成。

OminiControl Art：AI艺术创作的高效工具

基于OminiControl框架开发的AI艺术创作工具，它将OpenAI的GPT-4o艺术风格与FLUX.1模型相结合，能够高效生成高质量的艺术图像。

HiDream-I1：开源的高性能图像生成模型

开源的图像生成基础模型，拥有 170 亿参数，能够在短时间内生成高质量的图像，达到行业领先的图像生成水平。

DreamActor-M1：基于混合引导的人像动画生成工具

通过混合引导实现精细的整体可控性、多尺度适应性和长期时间连贯性，能够生成高质量的人像动画。

AnimeGamer：开启无限动漫生活模拟的AI工具

能够通过自然语言指令生成动态的动漫游戏世界，并预测下一游戏状态，为用户带来沉浸式的动漫角色交互体验。

微软WHAMM模型：实时生成可玩游戏的人工智能模型

创新的人工智能模型，能够完全在AI模型内部生成并运行经典游戏，实时呈现可供玩家操作的游戏版本。

字节MegaTTS3：轻量化语音合成模型

MegaTTS3 是由字节跳动与浙江大学合作开发的一款轻量级文本转语音（TTS）模型，以高效、轻量化和高质量语音合成为特点。

MoCha：电影级对话角色合成工具

MoCha 是一款能够仅通过语音和文本生成电影级对话角色的合成工具，支持情感控制、动作控制以及多角色对话等功能。

EasyControl_Ghibli：一键生成吉卜力风格图像的AI工具

专注于生成吉卜力风格的图像，用户可以通过简单的操作将普通图像转换为具有吉卜力动画特色的艺术作品。

ComfyUI-Copilot：为 ComfyUI 提供智能辅助的定制节点

基于 ComfyUI 框架开发的 AI 驱动的定制节点工具，旨在通过自然语言交互简化和增强 AI 算法调试与部署流程，为用户提供智能的节点推荐、工作流构建辅助和模型查询服务。

AccVideo：高效视频生成与加速的创新工具

视频生成技术，通过高效的蒸馏方法和合成数据集，显著提升了视频扩散模型的生成速度，同时保持了高质量的视频输出。

YuE：开源AI音乐生成模型，将歌词转化为完整歌曲

香港科技大学与Multimodal Art Projection（多模态艺术投影）团队联合开发的开源AI音乐生成模型，能够将歌词转化为完整的歌曲，支持多种音乐风格和语言。

DeepSeek-V3-0324：高效推理与多领域应用的开源大模型

DeepSeek 团队发布的高性能开源大模型，具有强大的编程能力、数学推理能力以及高效的推理效率，广泛适用于多种应用场景。

阿里通义实验室LHM技术：单图像可动画化三维人体重建模型

从单张图像重建可动画化三维人体的技术，能够快速生成高保真度的三维人体模型，并在秒级时间内生成具有精细纹理和姿态的虚拟角色。

字节推文生图框架 InfiniteYou：个性化图像生成新体验

一款创新的图像生成工具，能够根据用户的文字描述生成高质量的个性化图像，并且在更换场景和内容时精准保留用户的身份特征。

昆仑万维Skywork R1V：全球首个开源多模态推理模型

全球首个开源的工业界多模态推理模型，具备强大的视觉链式推理能力，能够高效处理复杂的视觉和文本任务。

Chirp3：谷歌云高清语音模型，支持248种声音

谷歌推出的新一代文本转语音工具，基于先进的LLM模型，能够生成逼真且富有情感的语音，广泛应用于多种场景，为用户提供高质量的语音合成解决方案。

腾讯混元Hunyuan3D 2.0：高分辨率 3D 资产生成工具

一款用于生成高分辨率纹理化 3D 资产的大型 3D 合成系统，能够高效地创建高质量的 3D 模型和纹理。

Cangjie Magic：为应用赋予智能与创造力的工具

一个基于 Cangjie 平台开发的工具，旨在通过集成大语言模型和其他智能技术，为应用程序开发提供强大的智能支持和创造力增强功能。

VideoPainter：视频局部编辑技术

香港中文大学、腾讯ARC Lab、东京大学和澳门大学等机构联合推出的开源视频修复和编辑工具，能够通过文字指令实现对任意长度视频的高效修复和编辑。

1 2 3 4 5 … 7