AI开源项目 | 网址分类目录 | AI工具箱

AI开源项目

nanochat：小型聊天AI系统开源项目

nanochat 是 Andrej Karpathy 用纯 C 语言训练与推理 GPT-2 的“玩具级”教学项目，可在笔记本电脑上一分钟内完成文本生成，帮助开发者彻底理解大模型原理。

快手KAT-Dev-72B-Exp 编程助手

快手开源的 72B 参数代码大模型，以 74.6% 的 SWE-Bench Verified 准确率刷新开源纪录，让“国产 AI 编程助手”第一次站上全球第一梯队。

DeepSeek-V3.2-Exp：高效长文本处理的大模型实验版

DeepSeek-V3.2-Exp 是 DeepSeek 推出的实验性大语言模型，采用稀疏注意力机制，在保持模型性能的同时大幅提升长文本处理效率并降低成本。

苹果 Manzano：首个端侧“图像理解+图像生成”统一架构的多模态大模型

苹果 Manzano 是首个在端侧实现“图像理解+图像生成”统一架构的多模态大模型，用一套参数同时完成“看懂图”和“画出图”。

百度千帆视觉理解大模型 Qianfan-VL

Qianfan-VL 是百度开源的多尺寸、多模态视觉理解大模型，集 OCR、文档解析、数学推理与图表分析于一身，可在国产昆仑芯上高效运行。

DeepSeek-V3.1-Terminus：新一代开源大模型工具

DeepSeek-V3.1-Terminus 是 DeepSeek 于 2025 年推出的开源大语言模型，基于混合专家架构，支持思考与非思考双模式，具备强大的代码生成、搜索代理与多语言处理能力。

IBM Granite-Docling-258M：轻量级视觉语言AI模型

IBM Granite-Docling-258M 是一款专为端到端文档转换设计的开源轻量级视觉语言模型，能高精度提取文档中的表格、公式、代码等内容并保留原始布局。

Qwen3-Omni ：阿里云开源的端到端全模态大模型

Qwen3-Omni 是阿里云开源的端到端全模态大模型，能同时听懂、看懂、说清 119 种语言，实时输出文本与自然语音。

阿里Wan-Animate

上传一张图、一段参考视频，就能让角色“活”起来或把原片人物换成新角色，同时保持表情、动作、光影一致的开源 AI 视频神器。

DeepMCPAgent：一键建神级AI代理的开源工具

DeepMCPAgent是一个开源的MCP驱动代理框架，具备动态MCP工具发现机制和模型无关设计架构，主要应用于AI代理开发场景。

MobiAgent：开启移动端智能体新时代

MobiAgent 是上海交通大学 IPADS 实验室团队推出的一款移动端智能体工具链，支持用户从零构建专属 AI 助手，涵盖数据收集、模型训练到手机端部署的全流程。

腾讯混元图像2.1：高清生图与复杂语义理解的突破

腾讯混元图像2.1（HunyuanImage 2.1）是腾讯最新发布的开源文生图大模型，支持原生2K高清生图，具备强大的复杂语义理解能力。

微软rStar2-Agent模型：以小搏大的数学推理利器

rStar2-Agent是由微软研究院开源的一个140亿参数的数学推理模型，通过创新的训练算法和基础设施，实现了媲美6710亿参数模型的推理能力。

OmniGen：新一代统一图像生成模型

OmniGen是由北京智源人工智能研究院开发的新一代统一图像生成模型，能够处理多种图像生成任务，包括文本到图像生成、图像编辑等。

腾讯ARC团队的AudioStory模型：开启AI音频生成新时代

腾讯ARC团队推出的AudioStory模型，能够根据文字描述生成高质量的音频内容，具有强大的叙事能力。

书生·万象 InternVL3.5：多模态大模型的全新突破

书生·万象 InternVL3.5 是上海 AI 实验室开源的多模态大模型，通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构，实现推理能力、部署效率与通用能力的全面升级。

阶跃星辰Step-Audio2mini：最强开源端到端语音大模型

阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型，能够实现语音理解、音频推理与生成的统一建模。

CoMPaSS-FLUX.1模型：提升文本到图像生成的空间理解能力

CoMPaSS-FLUX.1是一种基于FLUX.1文本到图像扩散模型的LoRA适配器，可显著提升生成图像时对物体空间关系的理解能力。

HunyuanWorld-Voyager：从一张照片走进3D世界

HunyuanWorld-Voyager是由腾讯混元团队开源的3D生成工具，能通过单张照片或文字描述快速生成360°沉浸式3D场景，为用户带来全新的视觉体验。

微软开源音频模型 VibeVoice-1.5B 全解析

VibeVoice-1.5B 是微软开源的文本转语音（TTS）大模型，可一次性生成 90 分钟高保真、多人轮替的长篇语音，并达到 3200 倍超高音频压缩率。

MiniCPM-V4.5：高效多模态端侧大语言模型

MiniCPM-V4.5是由面壁智能与清华大学NLP实验室联合推出的一款多模态端侧大语言模型，它支持单图、多图及视频理解，并在高分辨率图像处理、OCR以及多语言支持等方面表现出色。

MobileAgent：移动设备的智能操作助手

MobileAgent 是一款强大的移动设备操作辅助工具，通过多智能体协作实现复杂任务的自动化操作，提升移动设备的使用效率和便捷性。

快手 Klear-Reasoner 模型：推理领域的创新突破

快手 Klear-Reasoner 是一款基于 Qwen3-8B-Base 架构的开源推理模型，专注于提升数学和代码推理能力，通过创新的训练方法和算法在多个基准测试中取得了卓越成绩。

Nvidia Nemotron-Nano-9B-v2：高效小型语言模型

Nvidia Nemotron-Nano-9B-v2 是一款专为单张 A10 GPU 优化的高效小型语言模型，支持多语言和灵活的推理控制功能。

Skywork UniPic 2.0：昆仑万维开源的统一多模态生成与编辑模型

Skywork UniPic 2.0 是昆仑万维开源的高效多模态生成与编辑模型，集图像理解、生成和编辑能力于一体，旨在实现高效、高质、统一的多模态建模。

谷歌 DeepMind Gemma3270M 开源 AI 模型

Gemma3270M 是谷歌 DeepMind 发布的一款强大的开源人工智能模型，旨在为研究人员和开发者提供高效、灵活的 AI 开发工具。

OpenCUA框架：打造专属电脑智能体的开源利器

OpenCUA是由香港大学XLANG实验室联合月之暗面、斯坦福大学等机构开源的全球首个覆盖数据采集、训练、部署全流程的智能体框架，旨在帮助用户低门槛地构建和扩展计算机使用智能体。

Hunyuan-GameCraft：高动态互动游戏视频生成工具

Hunyuan-GameCraft 是一款由腾讯 Hunyuan 团队开发的高动态互动游戏视频生成工具，旨在通过混合历史条件和先进的技术原理，为沉浸式互动游戏体验提供高质量和时间连贯性的视频合成。

昆仑万维开源 Matrix-3D 大模型：从单张图片或文本提示生成大规模可探索的 3D 场景

Matrix-3D 是一个开源工具，能够从单张图片或文本提示生成大规模可探索的 3D 场景，支持全景视频生成和 3D 场景重建，具有高可控性和强大的泛化能力。

昆仑万维 Matrix-Game 2.0：开启开源世界模型新纪元

Matrix - Game 2.0 是昆仑万维发布的开源世界模型，旨在推动人工智能在复杂环境中的决策能力，为研究人员和开发者提供强大的工具和平台，助力人工智能技术的创新与发展。

智谱 GLM-4.5V：开源大语言模型的创新探索

智谱 GLM-4.5V 是一款开源发布的大语言模型，致力于为开发者和研究人员提供强大的语言理解和生成能力，推动人工智能技术的创新与应用。

MiniCPM-V-4：在手机上运行的 GPT-4V 级多模态语言模型

MiniCPM-V-4 是一款高效且功能强大的多模态语言模型，能够在手机等终端设备上流畅运行，具备领先的视觉理解和多模态交互能力。

Baichuan-M2-32B：医疗领域的人工智能推理模型

Baichuan-M2-32B 是一款由 Baichuan AI 开发的医疗增强型推理模型，专为医学推理任务设计，具备强大的医疗知识、推理能力和患者交互能力。

SkyReels-A3：超长音频驱动视频生成框架

SkyReels-A3 是一款基于多模态输入的端到端框架，能够合成高保真且时间连贯的人类视频，支持通过音频等多模态输入生成高质量的长视频内容。

dots.ocr：多语言文档布局解析工具

dots.ocr 是一款强大的多语言文档解析工具，它通过单一视觉 - 语言模型实现布局检测和内容识别的统一，同时保持良好的阅读顺序，具有出色的性能和高效的处理速度。

Zread.ai：开源项目的智能解读助手

Zread.ai 是一款由智谱 AI 开发的开源项目解读工具，旨在通过 AI 技术帮助开发者快速理解和分析 GitHub 上的开源项目。

Qwen-Image：智能图像生成与编辑的创新工具

Qwen-Image 是一款强大的图像生成与编辑基础模型，能够实现复杂的文字渲染和精准的图像编辑，尤其在中文文字渲染方面表现出色，适用于多种艺术风格和应用场景。

WebAgent：自主搜索AI智能体

WebAgent是由阿里云通义实验室开源的自主搜索AI智能体项目，旨在模拟人类在网络环境中的感知、决策和行动循环，通过自主搜索和多步推理处理复杂、模糊的网络任务。

Fogsight：一键生成动画的AI引擎

Fogsight是一款基于大型语言模型（LLM）的AI动画引擎，能够将用户输入的抽象概念或关键词快速转化为高质量的叙事动画。

Qwen3-Coder：通义千问的高效代码生成与辅助工具

Qwen3-Coder 是阿里巴巴通义千问团队发布的最新代码模型，具备卓越的代码生成和智能代理能力，能够大幅提升开发效率。

GenAI Processors库：谷歌DeepMind开源神器，一键构建实时AI工作流

谷歌DeepMind开源的GenAI Processors库，是一个轻量级、高效的Python工具，能帮开发者快速构建异步、可组合的生成式AI工作流，特别适合实时处理音频、视频和文本等多模态数据。

🔥医疗AI黑科技！Google Med-Gemma：你的私人健康数据科学家

Google 推出的 MedGemma 是目前最强大的开源医疗 AI 模型之一，专为医疗健康领域的 AI 开发而设计。

Hugging Face Reachy Mini，桌面级AI机器人新宠！

Reachy Mini 是 Hugging Face 推出的开源桌面机器人，专为 AI 开发者设计，支持 Python 编程，接入 Hugging Face Hub，轻松玩转 170 万+ AI 模型。

阿里HumanOmniV2：多模态AI新王者

阿里HumanOmniV2是由阿里巴巴通义实验室开发的一款多模态AI系统，能够通过分析视频、音频、文字等多种信息，像人类一样理解复杂的社交情境和人类意图。

PaddleOCR：GitHub Star 全球第一的开源 OCR 工具

PaddleOCR 3.1 是一款基于飞桨深度学习框架开发的开源光学字符识别（OCR）工具，凭借其高精度、多语言支持和强大的文档解析能力，广泛应用于文档处理、信息提取等场景。

DLoRAL：一键实现视频超分辨率的开源框架

DLoRAL是由香港理工大学与OPPO研究院联合推出的一款开源视频超分辨率框架，基于扩散模型实现一步生成高清视频，为视频超分辨率领域带来了革命性突破。

Glass：开源AI桌面助手，成为你的“数字大脑扩展”

Pickle 团队开发的开源 AI 桌面助手，旨在成为用户的“数字大脑扩展”，通过实时捕捉屏幕和音频活动，将零散信息转化为结构化知识，提升工作效率。

LongAnimation：动态全局局部记忆的长动画生成工具

LongAnimation 是一款专注于生成长动画的工具，通过动态全局局部记忆机制实现理想的长期色彩一致性，解决了传统方法在长动画生成中色彩不一致的问题。

Stable Audio Open Small：移动设备上的高效音频生成工具

Stable Audio Open Small 是一款由 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型，专为移动设备优化，能够在本地快速生成高质量音频。

DeepSWE：基于 Qwen3-32B 的开源 AI Agent 系统

DeepSWE 是一款基于 Qwen3-32B 模型，完全通过强化学习训练而成的开源 AI Agent 系统，旨在提升软件工程任务的自动化和效率。

1 2 3 4 … 7