AI大模型 | 网址分类目录 | AI工具箱

AI大模型

昆仑万维 Matrix-Game 2.0：开启开源世界模型新纪元

Matrix - Game 2.0 是昆仑万维发布的开源世界模型，旨在推动人工智能在复杂环境中的决策能力，为研究人员和开发者提供强大的工具和平台，助力人工智能技术的创新与发展。

智谱 GLM-4.5V：开源大语言模型的创新探索

智谱 GLM-4.5V 是一款开源发布的大语言模型，致力于为开发者和研究人员提供强大的语言理解和生成能力，推动人工智能技术的创新与应用。

Minimax 国内版/中文版

Minimax 国内版是一款先进的智能对话工具，能够提供高质量的文本生成、对话交互以及多场景应用支持，满足用户在不同场景下的多样化需求。

MiniCPM-V-4：在手机上运行的 GPT-4V 级多模态语言模型

MiniCPM-V-4 是一款高效且功能强大的多模态语言模型，能够在手机等终端设备上流畅运行，具备领先的视觉理解和多模态交互能力。

Baichuan-M2-32B：医疗领域的人工智能推理模型

Baichuan-M2-32B 是一款由 Baichuan AI 开发的医疗增强型推理模型，专为医学推理任务设计，具备强大的医疗知识、推理能力和患者交互能力。

SkyReels-A3：超长音频驱动视频生成框架

SkyReels-A3 是一款基于多模态输入的端到端框架，能够合成高保真且时间连贯的人类视频，支持通过音频等多模态输入生成高质量的长视频内容。

Amazon Bedrock：企业级生成式 AI 基础设施

Amazon Bedrock 是亚马逊云科技推出的全托管生成式 AI 服务，旨在降低企业 AI 部署门槛，提供安全、高效且灵活的生成式 AI 应用开发平台。

dots.ocr：多语言文档布局解析工具

dots.ocr 是一款强大的多语言文档解析工具，它通过单一视觉 - 语言模型实现布局检测和内容识别的统一，同时保持良好的阅读顺序，具有出色的性能和高效的处理速度。

Claude Opus 4.1：强大的AI编程与任务处理工具

Claude Opus 4.1 是 Anthropic 推出的最新旗舰 AI 模型，专门针对复杂编程、自主任务和高级推理进行优化，能够显著提升编程效率和任务处理能力。

AlphaEarth：开启地球观测与分析的新时代

AlphaEarth Foundations 是由 Google DeepMind 于 2025 年 7 月发布的一款 AI 地球观测系统，旨在通过高效整合海量卫星数据，构建全球陆地和沿海水域的统一数字模型，支持气候变化、生态保护等关键决策。

OpenMind：人工智能驱动的思维与开发工具

OpenMind 是一个基于人工智能的多功能工具，涵盖思维导图、多模态 AI 代理开发等功能，旨在帮助用户高效组织思维和开发智能应用。

Zread.ai：开源项目的智能解读助手

Zread.ai 是一款由智谱 AI 开发的开源项目解读工具，旨在通过 AI 技术帮助开发者快速理解和分析 GitHub 上的开源项目。

Qwen-Image：智能图像生成与编辑的创新工具

Qwen-Image 是一款强大的图像生成与编辑基础模型，能够实现复杂的文字渲染和精准的图像编辑，尤其在中文文字渲染方面表现出色，适用于多种艺术风格和应用场景。

WebAgent：自主搜索AI智能体

WebAgent是由阿里云通义实验室开源的自主搜索AI智能体项目，旨在模拟人类在网络环境中的感知、决策和行动循环，通过自主搜索和多步推理处理复杂、模糊的网络任务。

通义千问3：阿里巴巴达摩院的超大规模语言模型

通义千问3是阿里巴巴达摩院通义实验室发布的最新版本语言模型，具有强大的自然语言处理能力，支持多语言理解和生成，广泛应用于对话、文本生成、代码生成等场景。

Fogsight：一键生成动画的AI引擎

Fogsight是一款基于大型语言模型（LLM）的AI动画引擎，能够将用户输入的抽象概念或关键词快速转化为高质量的叙事动画。

Qwen3-Coder：通义千问的高效代码生成与辅助工具

Qwen3-Coder 是阿里巴巴通义千问团队发布的最新代码模型，具备卓越的代码生成和智能代理能力，能够大幅提升开发效率。

讯飞星火X1深度推理大模型：国产AI的创新突破

讯飞星火X1深度推理大模型是科大讯飞推出的一款基于全国产算力训练的深度推理大模型，旨在为教育、医疗、企业应用等多个领域提供高效、自主可控的AI解决方案。

GPT5：下一代人工智能助手

GPT-5是OpenAI推出的下一代大型语言模型，具有更强的自然语言理解和生成能力，能够进行多语言文本生成、对话理解、代码编写、逻辑推理等。

ChatGPT Agent：人工智能的自主任务执行工具

OpenAI 推出的一款强大的人工智能工具，它能够自主完成复杂的多步骤任务，将自然语言处理与任务自动化相结合，极大地提升了工作效率。

StreamDiT：面向实时高分辨率图像生成的流式扩散Transformer引擎

StreamDiT 通过“分块-缓存-并行”流式架构，让消费级显卡也能实时生成 2K+ 图像，同时保持扩散模型的高保真细节。

GenAI Processors库：谷歌DeepMind开源神器，一键构建实时AI工作流

谷歌DeepMind开源的GenAI Processors库，是一个轻量级、高效的Python工具，能帮开发者快速构建异步、可组合的生成式AI工作流，特别适合实时处理音频、视频和文本等多模态数据。

🔥医疗AI黑科技！Google Med-Gemma：你的私人健康数据科学家

Google 推出的 MedGemma 是目前最强大的开源医疗 AI 模型之一，专为医疗健康领域的 AI 开发而设计。

Hugging Face Reachy Mini，桌面级AI机器人新宠！

Reachy Mini 是 Hugging Face 推出的开源桌面机器人，专为 AI 开发者设计，支持 Python 编程，接入 Hugging Face Hub，轻松玩转 170 万+ AI 模型。

阿里HumanOmniV2：多模态AI新王者

阿里HumanOmniV2是由阿里巴巴通义实验室开发的一款多模态AI系统，能够通过分析视频、音频、文字等多种信息，像人类一样理解复杂的社交情境和人类意图。

PaddleOCR：GitHub Star 全球第一的开源 OCR 工具

PaddleOCR 3.1 是一款基于飞桨深度学习框架开发的开源光学字符识别（OCR）工具，凭借其高精度、多语言支持和强大的文档解析能力，广泛应用于文档处理、信息提取等场景。

Grok4：xAI新一代大模型

Grok4是由xAI开发的新一代大模型，具备多模态输入、强大推理能力和优化后的上下文窗口，旨在为用户提供更高效、更智能的自然语言处理和任务执行能力。

DLoRAL：一键实现视频超分辨率的开源框架

DLoRAL是由香港理工大学与OPPO研究院联合推出的一款开源视频超分辨率框架，基于扩散模型实现一步生成高清视频，为视频超分辨率领域带来了革命性突破。

CoreWeave：AI云计算的高效解决方案

CoreWeave是一家专注于为人工智能和GPU密集型工作负载提供云计算服务的公司，其平台专为大规模AI模型训练、推理以及计算密集型任务而设计。

值得买集团AI能力：助力消费决策的智能平台

值得买集团AI能力平台通过大模型、商品库与内容库以及AI引擎等技术，为用户提供精准的消费意图理解、商品推荐和内容生成服务，提升消费决策效率。

值得买集团MCP开放平台：赋能AI与消费生态的智能服务工具

值得买集团MCP开放平台是一个结合了AI技术与消费生态的工具，旨在通过提供消费信息服务和交易支持服务，助力用户做出更明智的购物决策并提升交易效率。

OpenAI GPT-5：下一代人工智能模型

GPT-5 是 OpenAI 推出的下一代人工智能模型，它集成了 GPT 系列与 o 系列模型的改进，具备多模态处理能力、强大的推理能力和更长的上下文窗口，能够广泛应用于多种场景。

Anthropic Claude Neptune v3：下一代人工智能模型

它在数学推理、代码生成、复杂推理和多模态处理能力上表现出色，有望为企业和开发者提供更高效的 AI 解决方案。

Glass：开源AI桌面助手，成为你的“数字大脑扩展”

Pickle 团队开发的开源 AI 桌面助手，旨在成为用户的“数字大脑扩展”，通过实时捕捉屏幕和音频活动，将零散信息转化为结构化知识，提升工作效率。

EarthMind：开源多模态大模型助力地球观测数据分析

EarthMind 是一个开源多模态大模型，专注于高效分析和理解复杂的地球观测数据，通过创新技术提升数据整合与分析能力。

腾讯元器MCP市场：智能体开发的高效工具平台

腾讯元器MCP市场是腾讯推出的一个基于MCP协议的智能体开发与集成平台，旨在通过标准化的工具调用和丰富的服务生态，帮助开发者高效构建和部署智能体应用。

LongAnimation：动态全局局部记忆的长动画生成工具

LongAnimation 是一款专注于生成长动画的工具，通过动态全局局部记忆机制实现理想的长期色彩一致性，解决了传统方法在长动画生成中色彩不一致的问题。

Stable Audio Open Small：移动设备上的高效音频生成工具

Stable Audio Open Small 是一款由 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型，专为移动设备优化，能够在本地快速生成高质量音频。

DeepSWE：基于 Qwen3-32B 的开源 AI Agent 系统

DeepSWE 是一款基于 Qwen3-32B 模型，完全通过强化学习训练而成的开源 AI Agent 系统，旨在提升软件工程任务的自动化和效率。

AniSora V3：Bilibili开源动漫视频生成模型，助力动漫创作新时代

一款专注于动漫视频生成的人工智能工具，旨在通过优化生成质量、动作流畅度和风格多样性，为动漫、漫画及VTuber内容创作者提供更强大的创作支持。

EX-4D：极端视角4D视频合成工具

EX-4D是一种先进的4D视频合成工具，能够将单目视频转化为可在极端视角下自由控制的4D视频体验，生成高质量且物理一致的结果。

华为开源盘古7B稠密模型

华为开源盘古7B稠密模型是一款由华为推出的开源人工智能预训练模型，旨在推动大模型技术的研究与创新发展，加速人工智能在各行业的应用。

Qwen VLo多模态大模型：从感知到生成的跨越

Ovis-U1是由阿里巴巴国际AI团队发布的多模态大模型，集多模态理解、文本到图像生成和图像编辑三种核心能力于一身，展现了强大的跨模态处理能力。

Qwen VLo多模态大模型：从感知到生成的跨越

Qwen VLo是由阿里云通义千问发布的多模态统一理解与生成模型，它不仅能够“看懂”世界，更能基于理解进行高质量的再创造，真正实现了从感知到生成的跨越。

文心大模型4.5系列开源模型：开启多模态AI新时代

文心大模型4.5系列开源模型是百度于2025年6月30日正式开源的新一代多模态大模型，涵盖多种参数规模的混合专家（MoE）模型和稠密型模型。

OceanGPT（沧渊）：海洋领域的开源大模型

中国首个海洋领域的开源大模型，由浙江大学海洋精准感知技术全国重点实验室牵头研发，具备海洋专业知识问答、多模态数据处理以及海洋机器人操控等能力。

谷歌开源端侧多模态大模型Gemma3n：低资源设备上的AI新突破

该模型专为低资源设备设计，能够在仅需2GB内存的手机、平板和笔记本电脑上流畅运行，并具备强大的多模态处理能力，支持图像、音频、视频和文本等多种输入。

FLUX.1 Kontext [dev]：开源图像编辑模型

Black Forest Labs 推出的开源图像编辑模型，支持通过自然语言对图像进行精准编辑，具备上下文感知能力，能够在多次迭代编辑中保持图像质量和风格一致性。

Hunyuan-A13B混合推理模型：高效推理与灵活应用的开源大语言模型

Hunyuan-A13B是由腾讯混元开源的首个混合推理MoE模型，总参数量达800亿，激活参数仅130亿，具有出色的推理速度和性价比。

Gemini CLI：将 Gemini 强大功能直接带入终端的开源 AI 工具

Gemini CLI 是一个开源的命令行 AI 工具，能够将 Gemini 的强大功能直接集成到终端中，帮助用户高效处理代码、自动化任务以及与各种工具集成。

Claudia：为 Claude Code 提供强大 GUI 的工具

Claudia 是一款为 Claude Code 设计的强大桌面应用程序，提供直观的图形用户界面，帮助用户管理 Claude Code 会话、创建自定义智能体、跟踪使用情况，并运行安全的后台智能体。

OmniGen2：VectorSpaceLab开源全能多模态模型

OmniGen2是由VectorSpaceLab团队开发的一款开源全能多模态模型，具备强大的视觉处理能力和多种生成任务的统一框架。

1 … 3 4 5 6 7 … 15