AI开源项目 | 网址分类目录 | AI工具箱

AI开源项目

Z-Image-Turbo-Fun-Controlnet-Union：6B 参数精准图像生成控制引擎

阿里通义开源的 6B 参数级 ControlNet 统一模型，用消费级显卡就能对图像生成进行像素级精准控制。

DeepSeek-V3.2：创新稀疏注意力架构大模型

DeepSeek-V3.2 是由中国深度求索 (DeepSeek AI) 开发的新一代大语言模型，通过创新的稀疏注意力机制 (DSA) 大幅提升长文本处理效率，降低 API 成本 50%，性能达到 GPT-5 水平，同时推出高算力版本 V3.2-Speciale 在复杂推理任务中表现超越 GPT-5。

阿里巴巴开源 Z-Image 图像模型支持中英双语渲染且轻量化高效

阿里巴巴通义实验室开源的 6B 参数 Z-Image 图像生成模型，采用单流 DiT 架构，支持中英双语文字渲染，显存占用低至 16GB，适用于消费级设备。

腾讯混元 HunyuanOCR：10 亿参数轻量型 SOTA 级 OCR 模型

腾讯混元开源的 HunyuanOCR 是一款仅 10 亿参数的轻量级 OCR 模型，依托混元原生多模态架构，在多项权威测评中斩获 SOTA 成绩，支持多语种处理与多场景应用。

昆仑万维 Skywork R1V4-Lite：集成视觉推理与工具调用的轻量级多模态智能体

Skywork R1V4-Lite 是昆仑万维（Skywork AI）推出的轻量级多模态智能体，聚焦视觉 - 语言推理，具备图像理解、工具调用、多步推理与深度研究能力，无需复杂提示词即可通过图像输入自动完成任务。

NiuTrans.LMT：打破语言壁垒的多语种翻译开源大模型

NiuTrans.LMT 是东北大学开源的多语言翻译大模型，凭借双中心架构与三层语言覆盖设计，支持 60 种语言、234 个翻译方向，在低资源语言翻译领域实现重大突破，兼顾翻译效率与准确性，为跨文化交互提供高效开源解决方案。

Kosong：月之暗面开源的异步编排 AI 代理框架

Kosong 是 Moonshot AI 开源的 Python 框架，用异步编排+插件化设计，让开发者 5 分钟拼出可切换任意大模型的智能体。

Kimi Linear 架构

Kimi Linear 是月之暗面推出的全新注意力架构，用 KDA 技术把 KV 缓存砍掉 75%、推理速度直接翻 6 倍，让长文本大模型“既省内存又飙车”。

MoGA：混合分组注意力工具

MoGA 是一种基于“混合分组注意力（Mixture-of-Groups Attention）”机制的高效 Transformer 变体，通过将输入序列动态划分为若干可学习的子组并并行计算组内-组间注意力，显著降低长序列推理成本，同时保持甚至提升下游任务精度。

LLaVA-OneVision-1.5-8B-Instruct

LLaVA-OneVision-1.5-8B-Instruct 是 lmms-lab 开源的多模态大模型，可同时理解图像与文本，并通过自然语言指令完成视觉问答、描述、推理等任务。

百度PaddleOCR-VL文档解析模型

PaddleOCR-VL 是百度 2025 年 10 月开源的全球最强文档解析模型，仅用 0.9B 参数即可在复杂版面、手写、表格、公式、图表等全场景实现 SOTA 级“看懂+读懂”。

FaceCLIP：字节跳动开源的人脸表征利器

FaceCLIP 是字节跳动开源在 Hugging Face 的 CLIP-风格人脸表征模型，用图文对比学习让机器“看得懂”人脸与文本的对应关系。

nanochat：小型聊天AI系统开源项目

nanochat 是 Andrej Karpathy 用纯 C 语言训练与推理 GPT-2 的“玩具级”教学项目，可在笔记本电脑上一分钟内完成文本生成，帮助开发者彻底理解大模型原理。

快手KAT-Dev-72B-Exp 编程助手

快手开源的 72B 参数代码大模型，以 74.6% 的 SWE-Bench Verified 准确率刷新开源纪录，让“国产 AI 编程助手”第一次站上全球第一梯队。

DeepSeek-V3.2-Exp：高效长文本处理的大模型实验版

DeepSeek-V3.2-Exp 是 DeepSeek 推出的实验性大语言模型，采用稀疏注意力机制，在保持模型性能的同时大幅提升长文本处理效率并降低成本。

苹果 Manzano：首个端侧“图像理解+图像生成”统一架构的多模态大模型

苹果 Manzano 是首个在端侧实现“图像理解+图像生成”统一架构的多模态大模型，用一套参数同时完成“看懂图”和“画出图”。

百度千帆视觉理解大模型 Qianfan-VL

Qianfan-VL 是百度开源的多尺寸、多模态视觉理解大模型，集 OCR、文档解析、数学推理与图表分析于一身，可在国产昆仑芯上高效运行。

DeepSeek-V3.1-Terminus：新一代开源大模型工具

DeepSeek-V3.1-Terminus 是 DeepSeek 于 2025 年推出的开源大语言模型，基于混合专家架构，支持思考与非思考双模式，具备强大的代码生成、搜索代理与多语言处理能力。

IBM Granite-Docling-258M：轻量级视觉语言AI模型

IBM Granite-Docling-258M 是一款专为端到端文档转换设计的开源轻量级视觉语言模型，能高精度提取文档中的表格、公式、代码等内容并保留原始布局。

Qwen3-Omni ：阿里云开源的端到端全模态大模型

Qwen3-Omni 是阿里云开源的端到端全模态大模型，能同时听懂、看懂、说清 119 种语言，实时输出文本与自然语音。

阿里Wan-Animate

上传一张图、一段参考视频，就能让角色“活”起来或把原片人物换成新角色，同时保持表情、动作、光影一致的开源 AI 视频神器。

DeepMCPAgent：一键建神级AI代理的开源工具

DeepMCPAgent是一个开源的MCP驱动代理框架，具备动态MCP工具发现机制和模型无关设计架构，主要应用于AI代理开发场景。

MobiAgent：开启移动端智能体新时代

MobiAgent 是上海交通大学 IPADS 实验室团队推出的一款移动端智能体工具链，支持用户从零构建专属 AI 助手，涵盖数据收集、模型训练到手机端部署的全流程。

腾讯混元图像2.1：高清生图与复杂语义理解的突破

腾讯混元图像2.1（HunyuanImage 2.1）是腾讯最新发布的开源文生图大模型，支持原生2K高清生图，具备强大的复杂语义理解能力。

微软rStar2-Agent模型：以小搏大的数学推理利器

rStar2-Agent是由微软研究院开源的一个140亿参数的数学推理模型，通过创新的训练算法和基础设施，实现了媲美6710亿参数模型的推理能力。

OmniGen：新一代统一图像生成模型

OmniGen是由北京智源人工智能研究院开发的新一代统一图像生成模型，能够处理多种图像生成任务，包括文本到图像生成、图像编辑等。

腾讯ARC团队的AudioStory模型：开启AI音频生成新时代

腾讯ARC团队推出的AudioStory模型，能够根据文字描述生成高质量的音频内容，具有强大的叙事能力。

书生·万象 InternVL3.5：多模态大模型的全新突破

书生·万象 InternVL3.5 是上海 AI 实验室开源的多模态大模型，通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构，实现推理能力、部署效率与通用能力的全面升级。

阶跃星辰Step-Audio2mini：最强开源端到端语音大模型

阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型，能够实现语音理解、音频推理与生成的统一建模。

CoMPaSS-FLUX.1模型：提升文本到图像生成的空间理解能力

CoMPaSS-FLUX.1是一种基于FLUX.1文本到图像扩散模型的LoRA适配器，可显著提升生成图像时对物体空间关系的理解能力。

HunyuanWorld-Voyager：从一张照片走进3D世界

HunyuanWorld-Voyager是由腾讯混元团队开源的3D生成工具，能通过单张照片或文字描述快速生成360°沉浸式3D场景，为用户带来全新的视觉体验。

微软开源音频模型 VibeVoice-1.5B 全解析

VibeVoice-1.5B 是微软开源的文本转语音（TTS）大模型，可一次性生成 90 分钟高保真、多人轮替的长篇语音，并达到 3200 倍超高音频压缩率。

MiniCPM-V4.5：高效多模态端侧大语言模型

MiniCPM-V4.5是由面壁智能与清华大学NLP实验室联合推出的一款多模态端侧大语言模型，它支持单图、多图及视频理解，并在高分辨率图像处理、OCR以及多语言支持等方面表现出色。

MobileAgent：移动设备的智能操作助手

MobileAgent 是一款强大的移动设备操作辅助工具，通过多智能体协作实现复杂任务的自动化操作，提升移动设备的使用效率和便捷性。

快手 Klear-Reasoner 模型：推理领域的创新突破

快手 Klear-Reasoner 是一款基于 Qwen3-8B-Base 架构的开源推理模型，专注于提升数学和代码推理能力，通过创新的训练方法和算法在多个基准测试中取得了卓越成绩。

Nvidia Nemotron-Nano-9B-v2：高效小型语言模型

Nvidia Nemotron-Nano-9B-v2 是一款专为单张 A10 GPU 优化的高效小型语言模型，支持多语言和灵活的推理控制功能。

Skywork UniPic 2.0：昆仑万维开源的统一多模态生成与编辑模型

Skywork UniPic 2.0 是昆仑万维开源的高效多模态生成与编辑模型，集图像理解、生成和编辑能力于一体，旨在实现高效、高质、统一的多模态建模。

谷歌 DeepMind Gemma3270M 开源 AI 模型

Gemma3270M 是谷歌 DeepMind 发布的一款强大的开源人工智能模型，旨在为研究人员和开发者提供高效、灵活的 AI 开发工具。

OpenCUA框架：打造专属电脑智能体的开源利器

OpenCUA是由香港大学XLANG实验室联合月之暗面、斯坦福大学等机构开源的全球首个覆盖数据采集、训练、部署全流程的智能体框架，旨在帮助用户低门槛地构建和扩展计算机使用智能体。

Hunyuan-GameCraft：高动态互动游戏视频生成工具

Hunyuan-GameCraft 是一款由腾讯 Hunyuan 团队开发的高动态互动游戏视频生成工具，旨在通过混合历史条件和先进的技术原理，为沉浸式互动游戏体验提供高质量和时间连贯性的视频合成。

昆仑万维开源 Matrix-3D 大模型：从单张图片或文本提示生成大规模可探索的 3D 场景

Matrix-3D 是一个开源工具，能够从单张图片或文本提示生成大规模可探索的 3D 场景，支持全景视频生成和 3D 场景重建，具有高可控性和强大的泛化能力。

昆仑万维 Matrix-Game 2.0：开启开源世界模型新纪元

Matrix - Game 2.0 是昆仑万维发布的开源世界模型，旨在推动人工智能在复杂环境中的决策能力，为研究人员和开发者提供强大的工具和平台，助力人工智能技术的创新与发展。

智谱 GLM-4.5V：开源大语言模型的创新探索

智谱 GLM-4.5V 是一款开源发布的大语言模型，致力于为开发者和研究人员提供强大的语言理解和生成能力，推动人工智能技术的创新与应用。

MiniCPM-V-4：在手机上运行的 GPT-4V 级多模态语言模型

MiniCPM-V-4 是一款高效且功能强大的多模态语言模型，能够在手机等终端设备上流畅运行，具备领先的视觉理解和多模态交互能力。

Baichuan-M2-32B：医疗领域的人工智能推理模型

Baichuan-M2-32B 是一款由 Baichuan AI 开发的医疗增强型推理模型，专为医学推理任务设计，具备强大的医疗知识、推理能力和患者交互能力。

SkyReels-A3：超长音频驱动视频生成框架

SkyReels-A3 是一款基于多模态输入的端到端框架，能够合成高保真且时间连贯的人类视频，支持通过音频等多模态输入生成高质量的长视频内容。

dots.ocr：多语言文档布局解析工具

dots.ocr 是一款强大的多语言文档解析工具，它通过单一视觉 - 语言模型实现布局检测和内容识别的统一，同时保持良好的阅读顺序，具有出色的性能和高效的处理速度。

Zread.ai：开源项目的智能解读助手

Zread.ai 是一款由智谱 AI 开发的开源项目解读工具，旨在通过 AI 技术帮助开发者快速理解和分析 GitHub 上的开源项目。

Qwen-Image：智能图像生成与编辑的创新工具

Qwen-Image 是一款强大的图像生成与编辑基础模型，能够实现复杂的文字渲染和精准的图像编辑，尤其在中文文字渲染方面表现出色，适用于多种艺术风格和应用场景。

WebAgent：自主搜索AI智能体

WebAgent是由阿里云通义实验室开源的自主搜索AI智能体项目，旨在模拟人类在网络环境中的感知、决策和行动循环，通过自主搜索和多步推理处理复杂、模糊的网络任务。

Fogsight：一键生成动画的AI引擎

Fogsight是一款基于大型语言模型（LLM）的AI动画引擎，能够将用户输入的抽象概念或关键词快速转化为高质量的叙事动画。

Qwen3-Coder：通义千问的高效代码生成与辅助工具

Qwen3-Coder 是阿里巴巴通义千问团队发布的最新代码模型，具备卓越的代码生成和智能代理能力，能够大幅提升开发效率。

1 2 3 … 6