火山引擎推出的新一代多语种语音识别引擎,在复杂场景下实现更高精度与更强推理能力。
阿里通义开源的 6B 参数级 ControlNet 统一模型,用消费级显卡就能对图像生成进行像素级精准控制。
DeepSeek-V3.2 是由中国深度求索 (DeepSeek AI) 开发的新一代大语言模型,通过创新的稀疏注意力机制 (DSA) 大幅提升长文本处理效率,降低 API 成本 50%,性能达到 GPT-5 水平,同时推出高算力版本 V3.2-Speciale 在复杂推理任务中表现超越 GPT-5。
可灵O1是可灵AI推出的全球首款统一多模态视频大模型,支持文字、图像、视频三种指令输入,实现一句话生成视频、图生视频、局部编辑及镜头延展等多任务处理。
阿里巴巴通义实验室开源的 6B 参数 Z-Image 图像生成模型,采用单流 DiT 架构,支持中英双语文字渲染,显存占用低至 16GB,适用于消费级设备。
FLUX.2 是 Black Forest Labs 发布的包含 pro、flex、dev 和 klein 四个版本的图像生成与编辑模型系列,具备多图参考、4MP 分辨率编辑等核心能力,为不同需求用户提供从商用 API 到开源本地运行的多样化图像相关服务。
ZAYA1 是 AMD 与 IBM 及 Zyphra 合作推出的全球首个全程基于 AMD 硬件训练的混合专家基础模型,预训练数据达 14 万亿 tokens,在数学和 STEM 推理领域表现出色,综合性能对标 Qwen3 系列。
Claude Opus4.5 是 Anthropic 推出的最新旗舰混合推理 AI 模型,在编码、推理和长期任务管理方面表现卓越,同时大幅提升了安全性、效率与资源使用灵活性,能显著提高多类场景的生产力。
腾讯混元开源的 HunyuanOCR 是一款仅 10 亿参数的轻量级 OCR 模型,依托混元原生多模态架构,在多项权威测评中斩获 SOTA 成绩,支持多语种处理与多场景应用。
谷歌 Gemini 3 是目前性能领先、支持百万 token 超长上下文与原生多模态的旗舰级生成式 AI 模型。
DPAI Arena 是 JetBrains 推出的业内首个开放式、多语言、多框架且支持多工作流的 AI 编码智能体基准测试平台,核心目标是客观评估 AI 工具在真实软件工程任务中的效能,实现不同 AI 编码智能体的公平、可复现对比。
Skywork R1V4-Lite 是昆仑万维(Skywork AI)推出的轻量级多模态智能体,聚焦视觉 - 语言推理,具备图像理解、工具调用、多步推理与深度研究能力,无需复杂提示词即可通过图像输入自动完成任务。
ElevenLabs 是一款集成图像生成、视频生成、声音合成、音乐创作与音效设计的一站式 AI 内容生产平台,依托多模态模型矩阵,为用户提供高效、高质量的内容创作解决方案,适配商业与个人创作场景。
OceanBase seekdb 是一款开源、轻量级、AI原生的混合搜索数据库,可在一个查询中融合向量、全文、标量与空间数据,实现毫秒级多模态搜索。
Grok 4.1 是埃隆・马斯克旗下 xAI 推出的升级版大语言模型,包含 Grok 4.1 和 Grok 4.1 Thinking 两款型号,以免费开放、低幻觉率、高情商交互和多模态能力为核心亮点,在多项权威基准测试中表现突出。
蚂蚁灵光是蚂蚁集团发布的业内首个全代码生成多模态内容的通用 AI 助手,可在移动端实现自然语言 30 秒生成可编辑、可交互、可分享的小应用,支持多模态信息输出。
DPAI Arena 是业内首个开放式、多语言、多框架和多工作流的基准测试平台,旨在衡量 AI 编码智能体在真实软件工程任务中的表现,提供公平可重复的评估方案。
千问 App 是阿里巴巴基于全球第一开源模型通义千问 Qwen 打造的官方 AI 助手,是体验最新最强 Qwen 大模型的第一入口,致力于成为用户工作、学习、生活中的专属助手,还计划打造为未来的 AI 生活入口。
NiuTrans.LMT 是东北大学开源的多语言翻译大模型,凭借双中心架构与三层语言覆盖设计,支持 60 种语言、234 个翻译方向,在低资源语言翻译领域实现重大突破,兼顾翻译效率与准确性,为跨文化交互提供高效开源解决方案。
GPT-5.1 是 OpenAI 最新发布的“更快、更准、更懂人”的个性化 AI 助理。
Kosong 是 Moonshot AI 开源的 Python 框架,用异步编排+插件化设计,让开发者 5 分钟拼出可切换任意大模型的智能体。
商汤开源的2B/8B多模态模型,在空间理解基准上超越GPT-5,为自动驾驶、机器人提供“看懂世界”的通用引擎。
阿里 Qwen3-Max-Thinking 是参数破万亿、在数学竞赛与真实交易双线封王的大模型推理引擎。
Dola 是豆包面向海外市场推出的 AI 智能聊天助手,一款支持多语言、多场景对话与创作的大模型智能体应用。
ERNIE-5.0-Preview-1022 是百度最新发布的文心大模型预览版,在 LMArena 文本榜全球并列第二、国内第一,以创意写作、长文本理解与指令遵循三大能力为核心卖点。
Magika 1.0 是谷歌推出的基于 AI 的高性能文件类型检测工具,全面采用 Rust 重构,支持 200+ 文件格式,具备极高的识别速度与准确性。
中文原生图像编辑新王,框选即改、中文字体精准渲染,性能碾压 GPT-Image-1 与 Gemini 2.0。
Kimi K2 Thinking 是月之暗面开源的万亿级 MoE 模型,可在 300 轮内自主思考并调用工具,把复杂编码、写作、研究任务一步搞定。
Google Gemini 3 Pro 预览版是谷歌在 Vertex AI 上放出的旗舰级多模态大模型,一次可读 100 万 token,号称“长文神器”。
AQ 蚂蚁AI健康助手:上线4个月月活破千万、国内首款月活千万级的行业专业级AI医疗健康应用。
Kimi Linear 是月之暗面推出的全新注意力架构,用 KDA 技术把 KV 缓存砍掉 75%、推理速度直接翻 6 倍,让长文本大模型“既省内存又飙车”。
SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎,可一键产出90分钟无中断、媲美真人录音的播客节目。
MoGA 是一种基于“混合分组注意力(Mixture-of-Groups Attention)”机制的高效 Transformer 变体,通过将输入序列动态划分为若干可学习的子组并并行计算组内-组间注意力,显著降低长序列推理成本,同时保持甚至提升下游任务精度。
华为应用市场是华为终端官方应用商店,集应用/游戏下载、更新、安全检测、个性化推荐、开发者服务于一体的核心分发平台,为 HarmonyOS 生态提供全场景内容入口。
AIBase GEO排名查询工具是一款专为生成引擎优化(GEO)设计的AI搜索排名监测工具,可实时追踪品牌在多个主流AI平台中的曝光与推荐情况。
Veo 3.1 是谷歌最新发布的视频生成模型,在 8 秒到 60 秒的可控时长内一次性输出 1080P 画面与同步音轨,并支持插入删除对象、首尾帧过渡、角色一致性等电影级精细编辑。
LLaVA-OneVision-1.5-8B-Instruct 是 lmms-lab 开源的多模态大模型,可同时理解图像与文本,并通过自然语言指令完成视觉问答、描述、推理等任务。
PaddleOCR-VL 是百度 2025 年 10 月开源的全球最强文档解析模型,仅用 0.9B 参数即可在复杂版面、手写、表格、公式、图表等全场景实现 SOTA 级“看懂+读懂”。
Gemini 3.0 Pro,Google 2025 年底即将发布的下一代多模态大模型,支持“会思考、能规划、可行动”的自主智能体能力。
FaceCLIP 是字节跳动开源在 Hugging Face 的 CLIP-风格人脸表征模型,用图文对比学习让机器“看得懂”人脸与文本的对应关系。
Qwen3-VL 是阿里开源的超长上下文视觉语言模型,能看图、读视频、写代码、操作界面,把“看得懂”升级为“做得到”。
nanochat 是 Andrej Karpathy 用纯 C 语言训练与推理 GPT-2 的“玩具级”教学项目,可在笔记本电脑上一分钟内完成文本生成,帮助开发者彻底理解大模型原理。
Cherry Studio 是一款开源、可本地部署的“多模型 AI 超级工具箱”,用图形化方式把大语言模型、知识库、绘画、搜索等能力整合到一台电脑上。
LiblibAI 2.0 是中国最大的多模态模型社区推出的全新创作平台,集成图像、视频生成与模型训练于一体,支持免费算力与海量模型资源,旨在让创作者“零门槛”实现高质量AI创作。
LFM2-8B-A1B 是 Liquid AI 推出的 8.3B 参数混合专家模型,仅激活 1.5B 即可在手机端跑出 4B 级速度,专为边缘 AI 设计。
快手开源的 72B 参数代码大模型,以 74.6% 的 SWE-Bench Verified 准确率刷新开源纪录,让“国产 AI 编程助手”第一次站上全球第一梯队。
GPT-5 Pro通过可扩展并行推理与更长思维链,对高难度任务给出当前业界最优答案,同时把幻觉率再降一个量级。
LMArena 是一个无需注册即可免费体验全球顶尖AI图像模型、实时对比效果并参与社区投票的开放评测平台。
可灵2.5 Turbo 是一款集文本理解、动态生成与风格保持于一体的 AI 视频生成模型,以更低成本实现更出色的视频创作效果。
Claude Sonnet 4.5 是 Anthropic 最新发布的通用大语言模型,在编程、推理、长文本处理与智能体任务方面刷新行业标杆。
DeepSeek-V3.2-Exp 是 DeepSeek 推出的实验性大语言模型,采用稀疏注意力机制,在保持模型性能的同时大幅提升长文本处理效率并降低成本。
Qwen3-Omni 是首个原生端到端全模态大模型,可同时处理文本、图像、音频、视频,并以文本或语音实时响应,支持119种语言,性能在36项基准中拿下22项SOTA。
Ring-flash-2.0 是蚂蚁百灵团队开源的百亿参数级高性能思考模型,专为低成本、高吞吐、长文本复杂推理任务设计。
苹果 Manzano 是首个在端侧实现“图像理解+图像生成”统一架构的多模态大模型,用一套参数同时完成“看懂图”和“画出图”。
Meta Code World Model(CWM)是 Meta FAIR 推出的 32B 参数世界模型,专为“理解代码如何运行”而设计,能预测程序行为、自动修复 bug,并支持超长上下文推理。
Qianfan-VL 是百度开源的多尺寸、多模态视觉理解大模型,集 OCR、文档解析、数学推理与图表分析于一身,可在国产昆仑芯上高效运行。
GO-1是智元机器人推出的全球首个开源通用具身智能基座大模型,基于ViLLA架构,让机器人“看得懂、想得通、做得准”。
DeepSeek-V3.1-Terminus 是 DeepSeek 于 2025 年推出的开源大语言模型,基于混合专家架构,支持思考与非思考双模式,具备强大的代码生成、搜索代理与多语言处理能力。
Qianfan-VL 是百度智能云千帆团队推出的多尺寸、多模态视觉理解大模型,专为企业级文档识别、图表解析、数学推理等高频场景深度优化。
SpikingBrain 是中国科学院推出的非 Transformer 类脑脉冲大模型,以极低数据与能耗实现超长序列任务百倍速推理。
火山引擎推出的新一代多语种语音识别引擎,在复杂场景下实现更高精度与更强推理能力。