多模态大模型 | 网址分类目录

网易有道子曰4.0全模态开源大模型，27B参数达到视觉数学SOTA，支持3秒情感克隆TTS、14语言跨语言克隆、推理链压缩43.2%，完全开源免费。

Gemini Omni是譽歧DeepMind推出的全模态AI视频生成模型，属于Gemini系列最新成员。支持文本、图像、视频的跨模态理解与生成，2026年5月测漏后引发科技圈广泛讨论，善于生成包含数学公式、物理现象等高一致性内容。

Grok 3 Plus是xAI推出的AI视频生成工具，支持文本生成视频和图片生成视频两种模式。最长可生成30秒视频，支持真人照片上传，生成速度快，约5分钟完成一条视频。价格亲民，每条视频仅需0.3元，是目前性价比最高的AI视频生成工具之一。

Kimi K2.6：月之暗面通用大模型，Agent集群与代码能力全面升级

月之暗面发布的最新一代通用大模型，支持Agent集群协同、12个AI专家并行调研、多Agent协作办公，40分钟完成专业企划、PPT及财务表。

通义Qwen3.6-Max-Preview：登顶最佳国产大模型，智能体编程能力再突破

通义Qwen3.6-Max-Preview是阿里巴巴于2026年4月20日发布的千问系列新一代旗舰大模型预览版[…]

Claude Opus 4.7

Anthropic旗舰AI模型最新迭代，编程能力超越GPT-5.4和Gemini 3.1 Pro，核心突破在于「更靠谱」而非「更聪明」，任务可靠性和答案准确性大幅提升。

Kimi K2.6-code-preview：月之暗面AI编程大模型

Kimi K2.6-code-preview是月之暗面于2026年4月推出的万亿参数AI编程大模型，专为编程场景优化，需Kimi Code Plan订阅使用，月费39元起。

智谱 GLM-5V-Turbo：多模态 Coding 大模型，视觉与编程能力深度融合

智谱多模态 Coding 大模型，支持前端复刻、GUI 自主探索和交互式编辑，视觉与编程能力深度融合。

智谱 GLM-5V-Turbo：多模态 Coding 大模型，视觉与编程能力深度融合

智谱多模态 Coding 大模型，支持前端复刻、GUI 自主探索和交互式编辑，视觉与编程能力深度融合。

Gemini 3.1 Flash Live - 谷歌实时语音多模态模型，Search Live 全球上线

谷歌实时语音多模态模型，Search Live 全球上线，支持摄像头实时识别与低延迟语音对话，开发者可构建实时智能代理应用。

Kimi K2：强大的开源 Kimi K2 聊天平台，编程和数学基准测试中超越 GPT-4

Kimi K2 是月之暗面 2026 年推出的开源大模型，在编程和数学基准测试中超越 GPT-4，成本降低 95%。

n8n：结合 AI 能力的强大工作流自动化工具，代码灵活性与无代码速度的完美融合

n8n 是开源工作流自动化工具，2026 年全面整合 AI 能力，兼具代码灵活性与无代码速度，适合企业自动化。

智谱 GLM-5.5：长文本理解突破 100 万 token 的国产基座模型

智谱 GLM-5.5 是 2026 年 3 月发布的新一代基座大模型，支持 100 万 token 超长上下文，在长文本理解、逻辑推理、代码生成等核心能力上实现重大突破，适用于法律审查、技术文档分析、代码审查等专业场景。

Gemini 3.2：谷歌原生支持 1000 万 token 超长上下文大模型

谷歌最新大模型，原生支持 1000 万 token 超长上下文，可一次性处理数十小时视频或数百页文档。

Kimi K2：月之暗面新一代 AI 智能助手，注意力残差技术突破

Kimi K2 是月之暗面 2026 年 3 月发布的新一代 AI 助手，采用注意力残差技术，在长文本理解和逻辑推理上实现突破。

百度文心 5.0：新一代大语言模型，中文理解与逻辑推理再升级

百度最新一代大语言模型，强化中文理解、逻辑推理和多模态处理能力，基于飞桨框架优化，适合企业级应用。

Claude 3.6 Sonnet：Anthropic 企业级 AI 模型，编程与自动化能力再升级

Anthropic 推出的企业级 AI 模型，强化编程与自动化能力，支持 200K 上下文，但因 OpenClaw 版权争议面临公关危机。

小米 MiMo-V2-TTS：方言情感歌声全支持的语音合成大模型

小米推出的语音合成大模型，支持情感表达、方言支持、歌声合成，为智能语音交互带来全新可能性。

DeepSeek V4多模态大语言模型

DeepSeek V4是深度求索（DeepSeek）推出的新一代原生多模态大语言模型，作为国产AI在硬核工程领域的重大突破，该模型以“百万级上下文窗口+原生多模态融合+极致性价比”为核心亮点，在编程、长文本处理领域实现对国际同类模型的超越，深度适配国产芯片，兼顾企业级实用性与低成本部署需求，标志着国产AI模型在高性能、自主可控领域的核心竞争力提升。

谷歌Gemini 3.1 Pro

谷歌Gemini 3.1 Pro是谷歌DeepMind推出的新一代旗舰级多模态大语言模型，核心推理性能较前代提升逾两倍，在多项权威基准测试中超越GPT-5.2，具备强大的复杂问题解决能力、多模态处理能力和长文本处理能力，是一款覆盖个人、开发者、企业多场景的高性能AI工具。

智谱 GLM-5 大语言模型

智谱 GLM-5 是智谱 AI 推出的新一代旗舰大语言模型，复用 DeepSeek-V3 的 DSA 稀疏注意力架构，参数量达 745B，强化多模态能力，性能大幅提升，推动公司市值短期暴涨 200%。

蚂蚁集团 Ming-flash-omni 2.0 全模态大模型

Ming-flash-omni 2.0 是蚂蚁集团开源的新一代全模态大模型，基于 Ling-2.0 MoE 架构打造，实现视觉语言理解、图像生成编辑、语音 / 音效 / 音乐统一生成三大能力全面升级，部分指标超越 Gemini 2.5 Pro，为多模态应用开发提供高效统一入口。

XMAX AI 实时交互 AI 视频工具

XMAX AI 是一款打造全球领先实时交互 AI 视频模型的工具，依托虚实融合技术，通过摄像头和手势操作实现虚拟与现实的实时互动，让用户将想象落地到现实中，打造沉浸式的交互体验。

阿里 Qwen3.5 开源大模型

Qwen3.5 是阿里巴巴即将推出的新一代开源基座大模型，采用全新混合注意力机制，大概率为原生视觉理解 VLM 模型，计划春节期间开源并推出多规格模型版本，目前已完成多个主流 AI 开发框架的适配开发。

神秘 AI 模型 Pony Alpha 详细介绍

Pony Alpha 是 OpenRouter 平台于 2026 年 2 月 6 日上线的匿名高性能 AI 大模型，主打免费使用，在编程、推理等领域表现突出，疑似为智谱 AI GLM-5 的测试版本。

Seedance 2.0 多模态AI视频生成工具

Seedance 2.0 是一款由字节跳动推出的下一代AI视频生成平台，能够在数秒内将文本、图片、视频、音频等多种素材转化为电影级高质量视频，凭借直观的操作流程和强大的AI能力，彻底革新视频创作模式，降低专业视频制作门槛。

Mistral AI Vibe 2.0：Devstral2 驱动的 “子代理” 时代终端编程助手

Vibe 2.0 是 Mistral AI 推出的升级款终端编程助手，由全新 Devstral2 模型驱动，具备多文件协同、子代理模式及操作增强等核心升级，为开发者提供沉浸式自然语言编程体验，助力提升复杂项目开发效率与操作便捷性。

Kimi Code：月之暗面推出的多模态AI编程工具

Kimi Code 是月之暗面（Moonshot AI）推出的新一代 AI 编程助手，基于 Kimi K2.5 多模态大模型，支持终端运行与主流编辑器集成，可通过图片、视频输入辅助编程，实现从代码生成到调试测试的全流程开发支持。

阿里千问Qwen3-Max-Thinking

Qwen3-Max-Thinking 是阿里发布的万亿参数旗舰推理模型，在复杂推理、事实知识与智能体能力上实现跨越式升级，19 项权威测试对标 GPT-5.2 等国际顶流，成为国产推理模型新标杆。

Kimi K2.5 Moonshot AI（月之暗面）

Kimi K2.5 是 Moonshot AI 推出的升级款 AI 模型，凭借视觉能力与工具调用功能的双重优化，大幅提升了模型的实用价值，向代理式智能更进一步。

阿里呜哩：通义千问图像模型加持的一站式 AIGC 创意设计平台

呜哩是阿里低调推出的 AIGC 创意设计生产力平台，集成通义千问图像模型全家桶，为创作者提供高效多元的创意生成解决方案，已正式开启测试。

蚂蚁百灵 Ling Studio：官方大模型 Web 交互平台

蚂蚁百灵 Ling Studio 是蚂蚁集团推出的官方大模型 Web 交互平台，为开发者和 AI 爱好者提供一站式的模型体验、调试与开发环境。

TeleChat3：国产千亿MoE开源大模型

TeleChat3 是中国电信 TeleAI 开源的国产千亿参数 MoE 大模型，支持“思考模式”并在全国产算力上完成 15T tokens 训练，可对标国际顶尖水平。

Step-DeepResearch：高性价比端到端深度研究代理模型

Step-DeepResearch 是阶跃星辰推出的一款高性价比、端到端深度研究代理模型，专为开放式研究场景中的自主信息探索和专业报告生成设计，能通过动态循环的推理、行动与反思，高效完成复杂研究任务。