AI大模型 | 网址分类目录

火山引擎推出的新一代多语种语音识别引擎，在复杂场景下实现更高精度与更强推理能力。

Z-Image-Turbo-Fun-Controlnet-Union：6B 参数精准图像生成控制引擎

阿里通义开源的 6B 参数级 ControlNet 统一模型，用消费级显卡就能对图像生成进行像素级精准控制。

DeepSeek-V3.2 是由中国深度求索 (DeepSeek AI) 开发的新一代大语言模型，通过创新的稀疏注意力机制 (DSA) 大幅提升长文本处理效率，降低 API 成本 50%，性能达到 GPT-5 水平，同时推出高算力版本 V3.2-Speciale 在复杂推理任务中表现超越 GPT-5。

可灵O1：全球首个统一多模态视频大模型

可灵O1是可灵AI推出的全球首款统一多模态视频大模型，支持文字、图像、视频三种指令输入，实现一句话生成视频、图生视频、局部编辑及镜头延展等多任务处理。

阿里巴巴开源 Z-Image 图像模型支持中英双语渲染且轻量化高效

阿里巴巴通义实验室开源的 6B 参数 Z-Image 图像生成模型，采用单流 DiT 架构，支持中英双语文字渲染，显存占用低至 16GB，适用于消费级设备。

FLUX.2 系列图像生成与编辑模型

FLUX.2 是 Black Forest Labs 发布的包含 pro、flex、dev 和 klein 四个版本的图像生成与编辑模型系列，具备多图参考、4MP 分辨率编辑等核心能力，为不同需求用户提供从商用 API 到开源本地运行的多样化图像相关服务。

ZAYA1:全球首个纯 AMD 训练 MoE 大模型

ZAYA1 是 AMD 与 IBM 及 Zyphra 合作推出的全球首个全程基于 AMD 硬件训练的混合专家基础模型，预训练数据达 14 万亿 tokens，在数学和 STEM 推理领域表现出色，综合性能对标 Qwen3 系列。

Claude Opus4.5：Anthropic 旗下的高性能混合推理 AI 模型

Claude Opus4.5 是 Anthropic 推出的最新旗舰混合推理 AI 模型，在编码、推理和长期任务管理方面表现卓越，同时大幅提升了安全性、效率与资源使用灵活性，能显著提高多类场景的生产力。

腾讯混元 HunyuanOCR：10 亿参数轻量型 SOTA 级 OCR 模型

腾讯混元开源的 HunyuanOCR 是一款仅 10 亿参数的轻量级 OCR 模型，依托混元原生多模态架构，在多项权威测评中斩获 SOTA 成绩，支持多语种处理与多场景应用。

JetBrains DPAI Arena：开放式 AI 编码智能体基准测试平台

DPAI Arena 是 JetBrains 推出的业内首个开放式、多语言、多框架且支持多工作流的 AI 编码智能体基准测试平台，核心目标是客观评估 AI 工具在真实软件工程任务中的效能，实现不同 AI 编码智能体的公平、可复现对比。

昆仑万维 Skywork R1V4-Lite：集成视觉推理与工具调用的轻量级多模态智能体

Skywork R1V4-Lite 是昆仑万维（Skywork AI）推出的轻量级多模态智能体，聚焦视觉 - 语言推理，具备图像理解、工具调用、多步推理与深度研究能力，无需复杂提示词即可通过图像输入自动完成任务。

ElevenLabs：图像、视频、音乐一站式 AI 内容生成平台

ElevenLabs 是一款集成图像生成、视频生成、声音合成、音乐创作与音效设计的一站式 AI 内容生产平台，依托多模态模型矩阵，为用户提供高效、高质量的内容创作解决方案，适配商业与个人创作场景。

OceanBase seekdb数据集

OceanBase seekdb 是一款开源、轻量级、AI原生的混合搜索数据库，可在一个查询中融合向量、全文、标量与空间数据，实现毫秒级多模态搜索。

xAI Grok 4.1 全解析：免费可用的高情商多模态 AI 模型

Grok 4.1 是埃隆・马斯克旗下 xAI 推出的升级版大语言模型，包含 Grok 4.1 和 Grok 4.1 Thinking 两款型号，以免费开放、低幻觉率、高情商交互和多模态能力为核心亮点，在多项权威基准测试中表现突出。

蚂蚁灵光：全模态通用 AI 助手

蚂蚁灵光是蚂蚁集团发布的业内首个全代码生成多模态内容的通用 AI 助手，可在移动端实现自然语言 30 秒生成可编辑、可交互、可分享的小应用，支持多模态信息输出。

DPAI Arena：AI 编码智能体的全方位基准测试平台

DPAI Arena 是业内首个开放式、多语言、多框架和多工作流的基准测试平台，旨在衡量 AI 编码智能体在真实软件工程任务中的表现，提供公平可重复的评估方案。

千问 App下载地址：苹果端、安卓端

千问 App 是阿里巴巴基于全球第一开源模型通义千问 Qwen 打造的官方 AI 助手，是体验最新最强 Qwen 大模型的第一入口，致力于成为用户工作、学习、生活中的专属助手，还计划打造为未来的 AI 生活入口。

NiuTrans.LMT：打破语言壁垒的多语种翻译开源大模型

NiuTrans.LMT 是东北大学开源的多语言翻译大模型，凭借双中心架构与三层语言覆盖设计，支持 60 种语言、234 个翻译方向，在低资源语言翻译领域实现重大突破，兼顾翻译效率与准确性，为跨文化交互提供高效开源解决方案。

Kosong：月之暗面开源的异步编排 AI 代理框架

Kosong 是 Moonshot AI 开源的 Python 框架，用异步编排+插件化设计，让开发者 5 分钟拼出可切换任意大模型的智能体。

百度文心ERNIE-5.0-Preview-1022模型

ERNIE-5.0-Preview-1022 是百度最新发布的文心大模型预览版，在 LMArena 文本榜全球并列第二、国内第一，以创意写作、长文本理解与指令遵循三大能力为核心卖点。

谷歌 Magika 1.0：AI 文件检测工具的新标杆

Magika 1.0 是谷歌推出的基于 AI 的高性能文件类型检测工具，全面采用 Rust 重构，支持 200+ 文件格式，具备极高的识别速度与准确性。

Kimi K2 Thinking：能边想边干的超长推理开源大模型

Kimi K2 Thinking 是月之暗面开源的万亿级 MoE 模型，可在 300 轮内自主思考并调用工具，把复杂编码、写作、研究任务一步搞定。

Google Gemini 3 Pro 预览版（Vertex AI 版）概览

Google Gemini 3 Pro 预览版是谷歌在 Vertex AI 上放出的旗舰级多模态大模型，一次可读 100 万 token，号称“长文神器”。

Kimi Linear 架构

Kimi Linear 是月之暗面推出的全新注意力架构，用 KDA 技术把 KV 缓存砍掉 75%、推理速度直接翻 6 倍，让长文本大模型“既省内存又飙车”。

MoGA：混合分组注意力工具

MoGA 是一种基于“混合分组注意力（Mixture-of-Groups Attention）”机制的高效 Transformer 变体，通过将输入序列动态划分为若干可学习的子组并并行计算组内-组间注意力，显著降低长序列推理成本，同时保持甚至提升下游任务精度。

华为应用市场：HarmonyOS 官方应用分发与一站式管理平台

华为应用市场是华为终端官方应用商店，集应用/游戏下载、更新、安全检测、个性化推荐、开发者服务于一体的核心分发平台，为 HarmonyOS 生态提供全场景内容入口。

AIBase GEO排名查询工具：AI时代的品牌可见度监测利器

AIBase GEO排名查询工具是一款专为生成引擎优化（GEO）设计的AI搜索排名监测工具，可实时追踪品牌在多个主流AI平台中的曝光与推荐情况。

谷歌 Veo 3.1 视频生成模型：原生音频加持的精细化 AI 电影工具

Veo 3.1 是谷歌最新发布的视频生成模型，在 8 秒到 60 秒的可控时长内一次性输出 1080P 画面与同步音轨，并支持插入删除对象、首尾帧过渡、角色一致性等电影级精细编辑。

LLaVA-OneVision-1.5-8B-Instruct

LLaVA-OneVision-1.5-8B-Instruct 是 lmms-lab 开源的多模态大模型，可同时理解图像与文本，并通过自然语言指令完成视觉问答、描述、推理等任务。

百度PaddleOCR-VL文档解析模型

PaddleOCR-VL 是百度 2025 年 10 月开源的全球最强文档解析模型，仅用 0.9B 参数即可在复杂版面、手写、表格、公式、图表等全场景实现 SOTA 级“看懂+读懂”。

FaceCLIP：字节跳动开源的人脸表征利器

FaceCLIP 是字节跳动开源在 Hugging Face 的 CLIP-风格人脸表征模型，用图文对比学习让机器“看得懂”人脸与文本的对应关系。

Qwen3-VL 视觉语言模型：让 AI 真正“看懂”并“动手”的多模态工具

Qwen3-VL 是阿里开源的超长上下文视觉语言模型，能看图、读视频、写代码、操作界面，把“看得懂”升级为“做得到”。

nanochat：小型聊天AI系统开源项目

nanochat 是 Andrej Karpathy 用纯 C 语言训练与推理 GPT-2 的“玩具级”教学项目，可在笔记本电脑上一分钟内完成文本生成，帮助开发者彻底理解大模型原理。

Cherry Studio：多模型 AI 超级工具箱

Cherry Studio 是一款开源、可本地部署的“多模型 AI 超级工具箱”，用图形化方式把大语言模型、知识库、绘画、搜索等能力整合到一台电脑上。

LiblibAI 2.0：一站式多模态AI创作平台

LiblibAI 2.0 是中国最大的多模态模型社区推出的全新创作平台，集成图像、视频生成与模型训练于一体，支持免费算力与海量模型资源，旨在让创作者“零门槛”实现高质量AI创作。

快手KAT-Dev-72B-Exp 编程助手

快手开源的 72B 参数代码大模型，以 74.6% 的 SWE-Bench Verified 准确率刷新开源纪录，让“国产 AI 编程助手”第一次站上全球第一梯队。

OpenAI GPT-5 Pro in the API：迄今最强大、最聪明且可“深度思考”的企业级大模型

GPT-5 Pro通过可扩展并行推理与更长思维链，对高难度任务给出当前业界最优答案，同时把幻觉率再降一个量级。

LMArena：零门槛的AI模型对战与图像生成平台

LMArena 是一个无需注册即可免费体验全球顶尖AI图像模型、实时对比效果并参与社区投票的开放评测平台。

可灵2.5 Turbo：低成本打造高品质AI视频的利器

可灵2.5 Turbo 是一款集文本理解、动态生成与风格保持于一体的 AI 视频生成模型，以更低成本实现更出色的视频创作效果。

Claude Sonnet 4.5：全球领先的编程与推理模型

Claude Sonnet 4.5 是 Anthropic 最新发布的通用大语言模型，在编程、推理、长文本处理与智能体任务方面刷新行业标杆。

DeepSeek-V3.2-Exp：高效长文本处理的大模型实验版

DeepSeek-V3.2-Exp 是 DeepSeek 推出的实验性大语言模型，采用稀疏注意力机制，在保持模型性能的同时大幅提升长文本处理效率并降低成本。

Qwen3-Omni：阿里通义开源的原生端到端全模态大模型

Qwen3-Omni 是首个原生端到端全模态大模型，可同时处理文本、图像、音频、视频，并以文本或语音实时响应，支持119种语言，性能在36项基准中拿下22项SOTA。

蚂蚁百灵团队开源高性能思考模型 Ring-flash-2.0

Ring-flash-2.0 是蚂蚁百灵团队开源的百亿参数级高性能思考模型，专为低成本、高吞吐、长文本复杂推理任务设计。

苹果 Manzano：首个端侧“图像理解+图像生成”统一架构的多模态大模型

苹果 Manzano 是首个在端侧实现“图像理解+图像生成”统一架构的多模态大模型，用一套参数同时完成“看懂图”和“画出图”。

Meta Code World Model（CWM）：32B 参数的世界模型代码 AI

Meta Code World Model（CWM）是 Meta FAIR 推出的 32B 参数世界模型，专为“理解代码如何运行”而设计，能预测程序行为、自动修复 bug，并支持超长上下文推理。

百度千帆视觉理解大模型 Qianfan-VL

Qianfan-VL 是百度开源的多尺寸、多模态视觉理解大模型，集 OCR、文档解析、数学推理与图表分析于一身，可在国产昆仑芯上高效运行。

智元机器人GO-1：全球首个开源通用具身智能大模型

GO-1是智元机器人推出的全球首个开源通用具身智能基座大模型，基于ViLLA架构，让机器人“看得懂、想得通、做得准”。

DeepSeek-V3.1-Terminus：新一代开源大模型工具

DeepSeek-V3.1-Terminus 是 DeepSeek 于 2025 年推出的开源大语言模型，基于混合专家架构，支持思考与非思考双模式，具备强大的代码生成、搜索代理与多语言处理能力。

Qianfan-VL：百度智能云千帆推出的企业级多模态视觉理解大模型

Qianfan-VL 是百度智能云千帆团队推出的多尺寸、多模态视觉理解大模型，专为企业级文档识别、图表解析、数学推理等高频场景深度优化。

中科院SpikingBrain：用2%数据实现百倍速度突破的国产类脑大模型

SpikingBrain 是中国科学院推出的非 Transformer 类脑脉冲大模型，以极低数据与能耗实现超长序列任务百倍速推理。