可灵O1是可灵AI推出的全球首款统一多模态视频大模型,支持文字、图像、视频三种指令输入,实现一句话生成视频、图生视频、局部编辑及镜头延展等多任务处理。
FLUX.2 是 Black Forest Labs 发布的包含 pro、flex、dev 和 klein 四个版本的图像生成与编辑模型系列,具备多图参考、4MP 分辨率编辑等核心能力,为不同需求用户提供从商用 API 到开源本地运行的多样化图像相关服务。
ZAYA1 是 AMD 与 IBM 及 Zyphra 合作推出的全球首个全程基于 AMD 硬件训练的混合专家基础模型,预训练数据达 14 万亿 tokens,在数学和 STEM 推理领域表现出色,综合性能对标 Qwen3 系列。
Claude Opus4.5 是 Anthropic 推出的最新旗舰混合推理 AI 模型,在编码、推理和长期任务管理方面表现卓越,同时大幅提升了安全性、效率与资源使用灵活性,能显著提高多类场景的生产力。
谷歌 Gemini 3 是目前性能领先、支持百万 token 超长上下文与原生多模态的旗舰级生成式 AI 模型。
Skywork R1V4-Lite 是昆仑万维(Skywork AI)推出的轻量级多模态智能体,聚焦视觉 - 语言推理,具备图像理解、工具调用、多步推理与深度研究能力,无需复杂提示词即可通过图像输入自动完成任务。
ElevenLabs 是一款集成图像生成、视频生成、声音合成、音乐创作与音效设计的一站式 AI 内容生产平台,依托多模态模型矩阵,为用户提供高效、高质量的内容创作解决方案,适配商业与个人创作场景。
Grok 4.1 是埃隆・马斯克旗下 xAI 推出的升级版大语言模型,包含 Grok 4.1 和 Grok 4.1 Thinking 两款型号,以免费开放、低幻觉率、高情商交互和多模态能力为核心亮点,在多项权威基准测试中表现突出。
蚂蚁灵光是蚂蚁集团发布的业内首个全代码生成多模态内容的通用 AI 助手,可在移动端实现自然语言 30 秒生成可编辑、可交互、可分享的小应用,支持多模态信息输出。
千问 App 是阿里巴巴基于全球第一开源模型通义千问 Qwen 打造的官方 AI 助手,是体验最新最强 Qwen 大模型的第一入口,致力于成为用户工作、学习、生活中的专属助手,还计划打造为未来的 AI 生活入口。
GPT-5.1 是 OpenAI 最新发布的“更快、更准、更懂人”的个性化 AI 助理。
阿里 Qwen3-Max-Thinking 是参数破万亿、在数学竞赛与真实交易双线封王的大模型推理引擎。
Dola 是豆包面向海外市场推出的 AI 智能聊天助手,一款支持多语言、多场景对话与创作的大模型智能体应用。
ERNIE-5.0-Preview-1022 是百度最新发布的文心大模型预览版,在 LMArena 文本榜全球并列第二、国内第一,以创意写作、长文本理解与指令遵循三大能力为核心卖点。
Kimi K2 Thinking 是月之暗面开源的万亿级 MoE 模型,可在 300 轮内自主思考并调用工具,把复杂编码、写作、研究任务一步搞定。
Google Gemini 3 Pro 预览版是谷歌在 Vertex AI 上放出的旗舰级多模态大模型,一次可读 100 万 token,号称“长文神器”。
Veo 3.1 是谷歌最新发布的视频生成模型,在 8 秒到 60 秒的可控时长内一次性输出 1080P 画面与同步音轨,并支持插入删除对象、首尾帧过渡、角色一致性等电影级精细编辑。
Gemini 3.0 Pro,Google 2025 年底即将发布的下一代多模态大模型,支持“会思考、能规划、可行动”的自主智能体能力。
Qwen3-VL 是阿里开源的超长上下文视觉语言模型,能看图、读视频、写代码、操作界面,把“看得懂”升级为“做得到”。
Cherry Studio 是一款开源、可本地部署的“多模型 AI 超级工具箱”,用图形化方式把大语言模型、知识库、绘画、搜索等能力整合到一台电脑上。
LiblibAI 2.0 是中国最大的多模态模型社区推出的全新创作平台,集成图像、视频生成与模型训练于一体,支持免费算力与海量模型资源,旨在让创作者“零门槛”实现高质量AI创作。
LFM2-8B-A1B 是 Liquid AI 推出的 8.3B 参数混合专家模型,仅激活 1.5B 即可在手机端跑出 4B 级速度,专为边缘 AI 设计。
GPT-5 Pro通过可扩展并行推理与更长思维链,对高难度任务给出当前业界最优答案,同时把幻觉率再降一个量级。
LMArena 是一个无需注册即可免费体验全球顶尖AI图像模型、实时对比效果并参与社区投票的开放评测平台。
可灵2.5 Turbo 是一款集文本理解、动态生成与风格保持于一体的 AI 视频生成模型,以更低成本实现更出色的视频创作效果。
Claude Sonnet 4.5 是 Anthropic 最新发布的通用大语言模型,在编程、推理、长文本处理与智能体任务方面刷新行业标杆。
DeepSeek-V3.2-Exp 是 DeepSeek 推出的实验性大语言模型,采用稀疏注意力机制,在保持模型性能的同时大幅提升长文本处理效率并降低成本。
Qwen3-Omni 是首个原生端到端全模态大模型,可同时处理文本、图像、音频、视频,并以文本或语音实时响应,支持119种语言,性能在36项基准中拿下22项SOTA。
Ring-flash-2.0 是蚂蚁百灵团队开源的百亿参数级高性能思考模型,专为低成本、高吞吐、长文本复杂推理任务设计。
DeepSeek-V3.1-Terminus 是 DeepSeek 于 2025 年推出的开源大语言模型,基于混合专家架构,支持思考与非思考双模式,具备强大的代码生成、搜索代理与多语言处理能力。
Qianfan-VL 是百度智能云千帆团队推出的多尺寸、多模态视觉理解大模型,专为企业级文档识别、图表解析、数学推理等高频场景深度优化。
SpikingBrain 是中国科学院推出的非 Transformer 类脑脉冲大模型,以极低数据与能耗实现超长序列任务百倍速推理。
Qwen3-Omni 是阿里云开源的端到端全模态大模型,能同时听懂、看懂、说清 119 种语言,实时输出文本与自然语音。
Grok4Fast 是基于 xAI 公司 Grok 4 大语言模型的开发工具,具备实时网络数据获取、多模态处理和高级推理能力,可助力开发者构建智能应用。
HuMo 是由可灵团队发布的一个多模态 HCVG(Human-Computer Visual Grounding)框架,支持多种灵活的多模态输入组合,包括“文本+图像”“文本+音频”以及“文本+图像+音频”。
该应用集成了Gemma系列模型,支持图像识别、音频对话和文字交互等多种功能,同时允许用户灵活切换模型以满足不同需求。
K2Think是一款由阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)和G42共同推出的低成本、高性能的AI推理模型。
EmbeddingGemma 是谷歌 DeepMind 推出的高效多语言嵌入模型,支持多种设备端部署,适用于多种自然语言处理任务。
Qwen3-Max-Preview是阿里巴巴旗下通义千问团队于2025年9月5日发布的最新旗舰大语言模型,参数规模达1万亿,是通义千问系列中最大、能力最强的预训练大模型。
Kimi K2-0905 是由月之暗面科技有限公司推出的先进 AI 模型,专为编程辅助、创意写作、数据分析等多种场景设计,具有强大的代码生成能力、超长上下文处理能力和高速响应特点。
Apertus是由瑞士联邦理工学院(EPFL)、苏黎世联邦理工学院(ETH Zurich)和瑞士国家超级计算中心(CSCS)联合开发的首个完全开源的大语言模型。
书生·万象 InternVL3.5 是上海 AI 实验室开源的多模态大模型,通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。
LongCat 是美团推出的一款开源大语言模型,具备强大的多模态内容生成能力,能够广泛应用于编程辅助、智能会议、文档生成等多个领域。
问小白是由元石科技推出的AI智能助手,基于自研的元石大模型和DeepSeek-R1 671B满血版模型构建。它能够快速响应用户的各种需求,提供智能搜索、文本创作、逻辑推理、灵感辅助、高效阅读和资料整理等全方位服务。
MiniCPM-V4.5是由面壁智能与清华大学NLP实验室联合推出的一款多模态端侧大语言模型,它支持单图、多图及视频理解,并在高分辨率图像处理、OCR以及多语言支持等方面表现出色。
LFM2-VL 是 Liquid AI 推出的专为低延迟和设备适应性部署而优化的视觉语言模型系列。
Seed-OSS是由字节跳动Seed团队开发的开源大语言模型系列,专注于长文本处理、复杂推理及智能代理任务。
DeepSeek V3.1是一款由DeepSeek团队推出的先进开源人工智能模型,基于DeepSeek V3版本升级,采用混合专家(MoE)架构,参数量与V3相同,上下文窗口从64k扩展至128k,能够处理更长的文本输入。
FlashAI 是一个开箱即用的私有化大模型工具集,支持多种离线版大模型,用户可以根据自身需求选择不同版本进行本地部署和使用,满足多样化的应用场景。
Skywork UniPic 2.0 是昆仑万维开源的高效多模态生成与编辑模型,集图像理解、生成和编辑能力于一体,旨在实现高效、高质、统一的多模态建模。
Gemma3270M 是谷歌 DeepMind 发布的一款强大的开源人工智能模型,旨在为研究人员和开发者提供高效、灵活的 AI 开发工具。
DINOv3是Meta AI开源的新一代自监督学习视觉大模型,无需人工标注数据即可进行训练,能够生成高质量的高分辨率密集特征表示,在多种视觉任务中表现出色。
火山引擎是一个提供实时多模态对话式 AI、视频翻译、知识管理、数据洞察等多功能的 AI 体验平台,致力于为企业和个人提供高效、智能的解决方案。
M3-Agent-Control 是字节跳动推出的先进 AI 模型,专注于多智能体控制与协作,能够高效处理复杂任务场景中的多主体交互问题,为智能决策和自动化任务执行提供强大支持。
智谱 GLM-4.5V 是一款开源发布的大语言模型,致力于为开发者和研究人员提供强大的语言理解和生成能力,推动人工智能技术的创新与应用。
Minimax 国内版是一款先进的智能对话工具,能够提供高质量的文本生成、对话交互以及多场景应用支持,满足用户在不同场景下的多样化需求。
MiniCPM-V-4 是一款高效且功能强大的多模态语言模型,能够在手机等终端设备上流畅运行,具备领先的视觉理解和多模态交互能力。
百度文心5.0大模型是百度推出的一款先进的多模态人工智能模型,具备强大的文本生成、逻辑推理、多模态理解等能力。
OpenAI最新发布的两款开源语言模型,旨在为开发者提供强大的推理能力和灵活的部署选项。
Claude Opus 4.1 是 Anthropic 推出的最新旗舰 AI 模型,专门针对复杂编程、自主任务和高级推理进行优化,能够显著提升编程效率和任务处理能力。
可灵O1是可灵AI推出的全球首款统一多模态视频大模型,支持文字、图像、视频三种指令输入,实现一句话生成视频、图生视频、局部编辑及镜头延展等多任务处理。