AI大模型 | 网址分类目录

Gemini 3.2：谷歌原生支持 1000 万 token 超长上下文大模型

谷歌最新大模型，原生支持 1000 万 token 超长上下文，可一次性处理数十小时视频或数百页文档。

Kimi K2：月之暗面新一代 AI 智能助手，注意力残差技术突破

Kimi K2 是月之暗面 2026 年 3 月发布的新一代 AI 助手，采用注意力残差技术，在长文本理解和逻辑推理上实现突破。

百度文心 5.0：新一代大语言模型，中文理解与逻辑推理再升级

百度最新一代大语言模型，强化中文理解、逻辑推理和多模态处理能力，基于飞桨框架优化，适合企业级应用。

Claude 3.6 Sonnet：Anthropic 企业级 AI 模型，编程与自动化能力再升级

Anthropic 推出的企业级 AI 模型，强化编程与自动化能力，支持 200K 上下文，但因 OpenClaw 版权争议面临公关危机。

小米 MiMo-V2-TTS：方言情感歌声全支持的语音合成大模型

小米推出的语音合成大模型，支持情感表达、方言支持、歌声合成，为智能语音交互带来全新可能性。

HiClaw：阿里云原生多模态智能体框架全解析

HiClaw 是阿里巴巴开源的云原生多模态智能体框架，深度整合阿里云 AI 能力与 OpenClaw 生态，支持视觉 - 语言 - 动作全链路协同，主打企业级规模化部署与多场景自动化。

谷歌 Gemini Embedding 2：首款全多模态嵌入模型，打破模态壁垒

谷歌发布的首款全多模态嵌入模型，能够将文本、图片、视频、音频和文档映射到统一嵌入向量空间，支持跨模态检索与分类。

SongGeneration2：腾讯清华联合研发的 AI 音乐生成模型

腾讯与清华大学联合开源的 4B 参数音乐生成大模型，采用混合 LLM-扩散架构，歌词准确率达 8.55% PER，超越 Suno v5，支持本地部署

DeepSeek V4多模态大语言模型

DeepSeek V4是深度求索（DeepSeek）推出的新一代原生多模态大语言模型，作为国产AI在硬核工程领域的重大突破，该模型以“百万级上下文窗口+原生多模态融合+极致性价比”为核心亮点，在编程、长文本处理领域实现对国际同类模型的超越，深度适配国产芯片，兼顾企业级实用性与低成本部署需求，标志着国产AI模型在高性能、自主可控领域的核心竞争力提升。

谷歌Gemini 3.1 Pro

谷歌Gemini 3.1 Pro是谷歌DeepMind推出的新一代旗舰级多模态大语言模型，核心推理性能较前代提升逾两倍，在多项权威基准测试中超越GPT-5.2，具备强大的复杂问题解决能力、多模态处理能力和长文本处理能力，是一款覆盖个人、开发者、企业多场景的高性能AI工具。

智谱 GLM-5 大语言模型

智谱 GLM-5 是智谱 AI 推出的新一代旗舰大语言模型，复用 DeepSeek-V3 的 DSA 稀疏注意力架构，参数量达 745B，强化多模态能力，性能大幅提升，推动公司市值短期暴涨 200%。

蚂蚁集团 Ming-flash-omni 2.0 全模态大模型

Ming-flash-omni 2.0 是蚂蚁集团开源的新一代全模态大模型，基于 Ling-2.0 MoE 架构打造，实现视觉语言理解、图像生成编辑、语音 / 音效 / 音乐统一生成三大能力全面升级，部分指标超越 Gemini 2.5 Pro，为多模态应用开发提供高效统一入口。

XMAX AI 实时交互 AI 视频工具

XMAX AI 是一款打造全球领先实时交互 AI 视频模型的工具，依托虚实融合技术，通过摄像头和手势操作实现虚拟与现实的实时互动，让用户将想象落地到现实中，打造沉浸式的交互体验。

阿里 Qwen3.5 开源大模型

Qwen3.5 是阿里巴巴即将推出的新一代开源基座大模型，采用全新混合注意力机制，大概率为原生视觉理解 VLM 模型，计划春节期间开源并推出多规格模型版本，目前已完成多个主流 AI 开发框架的适配开发。

神秘 AI 模型 Pony Alpha 详细介绍

Pony Alpha 是 OpenRouter 平台于 2026 年 2 月 6 日上线的匿名高性能 AI 大模型，主打免费使用，在编程、推理等领域表现突出，疑似为智谱 AI GLM-5 的测试版本。

Seedance 2.0 多模态AI视频生成工具

Seedance 2.0 是一款由字节跳动推出的下一代AI视频生成平台，能够在数秒内将文本、图片、视频、音频等多种素材转化为电影级高质量视频，凭借直观的操作流程和强大的AI能力，彻底革新视频创作模式，降低专业视频制作门槛。

宇树UnifoLM-VLA-0：为人形机器人注入“物理常识”的通用大脑

宇树开源的UnifoLM-VLA-0是一个专为通用人形机器人设计的视觉-语言-动作基础模型，它通过在真实机器人操作数据上进行预训练，使模型获得了对物理世界交互规律的基本理解，标志着机器人大脑从“图文理解”迈向具备“物理常识”的具身智能。

蚂蚁集团LingBot-VLA：开启双臂机器人“大模型操控”新时代

正 LingBot-VLA是蚂蚁集团推出的一个专注于现实世界复杂操控任务的视觉-语言-动作基础模型，它通过海量真实机器人数据进行训练，实现了用自然语言指令直接操控多种不同形态的双臂机器人。

QoderWork：面向知识工作者的桌面级AI智能体助手

QoderWork是一款本地优先的桌面AI助手，能够理解自然语言指令并自主规划、执行和交付任务，将智能体能力从代码领域扩展到日常办公场景。

昆仑万维 SkyReels - V3

昆仑万维 SkyReels - V3 是一款由 Skywork AI 开源的多模态视频生成模型，在单一建模架构中实现参考图像转视频、视频延长和音频驱动虚拟形象三大核心能力，达成高保真多模态视频生成的行业领先水平。

LingBot-World：蚂蚁灵波开源世界模型

LingBot-World 是蚂蚁灵波科技开源的一款顶尖世界模型，它以可扩展数据引擎为驱动，能提供高保真、高动态且可实时交互的模拟环境，在视频质量、长时序一致性等多方面表现突出，适配多领域应用。

Mistral AI Vibe 2.0：Devstral2 驱动的 “子代理” 时代终端编程助手

Vibe 2.0 是 Mistral AI 推出的升级款终端编程助手，由全新 Devstral2 模型驱动，具备多文件协同、子代理模式及操作增强等核心升级，为开发者提供沉浸式自然语言编程体验，助力提升复杂项目开发效率与操作便捷性。

OpenClaw（原Clawdbot）：开源本地AI助手平台

OpenClaw：开源本地AI助手平台——一款可在个人设备上运行、并集成到常用聊天应用中的开源智能代理平台。

Kimi Code：月之暗面推出的多模态AI编程工具

Kimi Code 是月之暗面（Moonshot AI）推出的新一代 AI 编程助手，基于 Kimi K2.5 多模态大模型，支持终端运行与主流编辑器集成，可通过图片、视频输入辅助编程，实现从代码生成到调试测试的全流程开发支持。

阿里千问Qwen3-Max-Thinking

Qwen3-Max-Thinking 是阿里发布的万亿参数旗舰推理模型，在复杂推理、事实知识与智能体能力上实现跨越式升级，19 项权威测试对标 GPT-5.2 等国际顶流，成为国产推理模型新标杆。

Kimi K2.5 Moonshot AI（月之暗面）

Kimi K2.5 是 Moonshot AI 推出的升级款 AI 模型，凭借视觉能力与工具调用功能的双重优化，大幅提升了模型的实用价值，向代理式智能更进一步。

阿里呜哩：通义千问图像模型加持的一站式 AIGC 创意设计平台

呜哩是阿里低调推出的 AIGC 创意设计生产力平台，集成通义千问图像模型全家桶，为创作者提供高效多元的创意生成解决方案，已正式开启测试。

蚂蚁百灵 Ling Studio：官方大模型 Web 交互平台

蚂蚁百灵 Ling Studio 是蚂蚁集团推出的官方大模型 Web 交互平台，为开发者和 AI 爱好者提供一站式的模型体验、调试与开发环境。

爱诗科技 PixVerse R1 通用实时世界模型

爱诗科技 PixVerse R1 是全球首个通用实时世界模型，能以最高 1080P 画质实现虚拟世界的实时交互，推动虚拟世界从回放式形态转向实时演化的共创形态。

MiniMax 发布 OctoCodingBench 基准测试,编程智能体的新标准！

OctoCodingBench 是 MiniMax 开源的首个面向编程智能体（Coding Agent）的系统性基准测试，聚焦代码仓库场景下智能体对多源指令的遵循能力，填补了现有评测仅关注任务完成度、忽略规则合规性的空白。

火山方舟：一站式大模型服务平台

火山方舟是字节跳动旗下火山引擎推出的一站式大模型服务平台（MaaS），集成多家顶尖大模型，提供从模型体验、精调训练到推理落地的全生命周期服务，以安全互信架构保障数据隐私与知识产权，助力企业及开发者实现 AI 高效落地。

TeleChat3：国产千亿MoE开源大模型

TeleChat3 是中国电信 TeleAI 开源的国产千亿参数 MoE 大模型，支持“思考模式”并在全国产算力上完成 15T tokens 训练，可对标国际顶尖水平。

Step-DeepResearch：高性价比端到端深度研究代理模型

Step-DeepResearch 是阶跃星辰推出的一款高性价比、端到端深度研究代理模型，专为开放式研究场景中的自主信息探索和专业报告生成设计，能通过动态循环的推理、行动与反思，高效完成复杂研究任务。

智谱官网

智谱 AI（北京智谱华章科技）围绕 “让机器像人一样思考” 的愿景，构建了以官方主站为核心、开放平台为技术输出载体的线上服务体系，同时通过明确的 MaaS（Model as a Service）理念，为个人用户、开发者及企业提供全场景 AI 服务。

1min.AI 终身全能计划：一次买断，浏览器里搞定写作-图像-音视频全流程

1min.AI 把文本、图像、音视频等十几种主流生成式 AI 能力打包成“终身订阅”，一次性付费即可在浏览器内无限调用，彻底告别按月续费。

清华开源TurboDiffusion：AI视频生成速度暴增200倍，消费级显卡也能秒出大片！

TurboDiffusion是清华大学TSAIL实验室联合生数科技开源的高效AI视频扩散模型框架，可将视频生成速度提升100至200倍，同时保持高质量输出。

Anthropic Agent Skills 开源知识库

Anthropic Agent Skills 是 Anthropic 推出的开源知识库，为 Claude 模型提供可动态加载的示范性技能与最佳实践，涵盖多领域实用技能集，支持开发者直接使用或按规范自定义技能，通过按需加载指令集降低 Token 消耗、提升特定任务处理效率。

阿里Qwen-Image-Layered 分层图像编辑模型

Qwen-Image-Layered 是阿里通义千问开源的 AI 模型，可把单张照片一键拆成带透明通道的独立图层，让“零 PS 基础”的用户也能像专业设计师一样精准改图。

Google Gemini 应用视频检测功能（Google AI 生成内容识别）

Google Gemini 应用视频检测功能是谷歌推出的 AI 内容透明度工具升级项，依托 SynthID 水印技术与多模态 AI 能力，支持用户在 Gemini 应用内上传视频，检测其是否包含 Google AI 生成的音视频元素，且功能覆盖全球所有 Gemini 应用支持的语言与地区，无需额外订阅。