谷歌发布的首款全多模态嵌入模型,能够将文本、图片、视频、音频和文档映射到统一嵌入向量空间,支持跨模态检索与分类。
百度智能云发布的零部署 AI 服务,免除镜像选择、服务器部署及 API Key 配置,实现 AI 智能体即开即用。
华为推出的鸿蒙系统 AI 智能体,支持文档编辑、PPT 制作、自动回复邮件,多端协同,预设多种人格。
智谱发布的本地化 AI Agent 工具,集成 Pony-Alpha-2 模型,支持一键部署和 50+ Skills,覆盖内容创作、金融投研、办公自动化等场景。
腾讯与清华大学联合开源的 4B 参数音乐生成大模型,采用混合 LLM-扩散架构,歌词准确率达 8.55% PER,超越 Suno v5,支持本地部署
DeepSeek V4是深度求索(DeepSeek)推出的新一代原生多模态大语言模型,作为国产AI在硬核工程领域的重大突破,该模型以“百万级上下文窗口+原生多模态融合+极致性价比”为核心亮点,在编程、长文本处理领域实现对国际同类模型的超越,深度适配国产芯片,兼顾企业级实用性与低成本部署需求,标志着国产AI模型在高性能、自主可控领域的核心竞争力提升。
谷歌Gemini 3.1 Pro是谷歌DeepMind推出的新一代旗舰级多模态大语言模型,核心推理性能较前代提升逾两倍,在多项权威基准测试中超越GPT-5.2,具备强大的复杂问题解决能力、多模态处理能力和长文本处理能力,是一款覆盖个人、开发者、企业多场景的高性能AI工具。
智谱 GLM-5 是智谱 AI 推出的新一代旗舰大语言模型,复用 DeepSeek-V3 的 DSA 稀疏注意力架构,参数量达 745B,强化多模态能力,性能大幅提升,推动公司市值短期暴涨 200%。
Ming-flash-omni 2.0 是蚂蚁集团开源的新一代全模态大模型,基于 Ling-2.0 MoE 架构打造,实现视觉语言理解、图像生成编辑、语音 / 音效 / 音乐统一生成三大能力全面升级,部分指标超越 Gemini 2.5 Pro,为多模态应用开发提供高效统一入口。
XMAX AI 是一款打造全球领先实时交互 AI 视频模型的工具,依托虚实融合技术,通过摄像头和手势操作实现虚拟与现实的实时互动,让用户将想象落地到现实中,打造沉浸式的交互体验。
Qwen3.5 是阿里巴巴即将推出的新一代开源基座大模型,采用全新混合注意力机制,大概率为原生视觉理解 VLM 模型,计划春节期间开源并推出多规格模型版本,目前已完成多个主流 AI 开发框架的适配开发。
Pony Alpha 是 OpenRouter 平台于 2026 年 2 月 6 日上线的匿名高性能 AI 大模型,主打免费使用,在编程、推理等领域表现突出,疑似为智谱 AI GLM-5 的测试版本。
Seedance 2.0 是一款由字节跳动推出的下一代AI视频生成平台,能够在数秒内将文本、图片、视频、音频等多种素材转化为电影级高质量视频,凭借直观的操作流程和强大的AI能力,彻底革新视频创作模式,降低专业视频制作门槛。
宇树开源的UnifoLM-VLA-0是一个专为通用人形机器人设计的视觉-语言-动作基础模型,它通过在真实机器人操作数据上进行预训练,使模型获得了对物理世界交互规律的基本理解,标志着机器人大脑从“图文理解”迈向具备“物理常识”的具身智能。
正 LingBot-VLA是蚂蚁集团推出的一个专注于现实世界复杂操控任务的视觉-语言-动作基础模型,它通过海量真实机器人数据进行训练,实现了用自然语言指令直接操控多种不同形态的双臂机器人。
QoderWork是一款本地优先的桌面AI助手,能够理解自然语言指令并自主规划、执行和交付任务,将智能体能力从代码领域扩展到日常办公场景。
昆仑万维 SkyReels - V3 是一款由 Skywork AI 开源的多模态视频生成模型,在单一建模架构中实现参考图像转视频、视频延长和音频驱动虚拟形象三大核心能力,达成高保真多模态视频生成的行业领先水平。
LingBot-World 是蚂蚁灵波科技开源的一款顶尖世界模型,它以可扩展数据引擎为驱动,能提供高保真、高动态且可实时交互的模拟环境,在视频质量、长时序一致性等多方面表现突出,适配多领域应用。
Vibe 2.0 是 Mistral AI 推出的升级款终端编程助手,由全新 Devstral2 模型驱动,具备多文件协同、子代理模式及操作增强等核心升级,为开发者提供沉浸式自然语言编程体验,助力提升复杂项目开发效率与操作便捷性。
OpenClaw:开源本地AI助手平台——一款可在个人设备上运行、并集成到常用聊天应用中的开源智能代理平台。
Kimi Code 是月之暗面(Moonshot AI)推出的新一代 AI 编程助手,基于 Kimi K2.5 多模态大模型,支持终端运行与主流编辑器集成,可通过图片、视频输入辅助编程,实现从代码生成到调试测试的全流程开发支持。
Qwen3-Max-Thinking 是阿里发布的万亿参数旗舰推理模型,在复杂推理、事实知识与智能体能力上实现跨越式升级,19 项权威测试对标 GPT-5.2 等国际顶流,成为国产推理模型新标杆。
Kimi K2.5 是 Moonshot AI 推出的升级款 AI 模型,凭借视觉能力与工具调用功能的双重优化,大幅提升了模型的实用价值,向代理式智能更进一步。
呜哩是阿里低调推出的 AIGC 创意设计生产力平台,集成通义千问图像模型全家桶,为创作者提供高效多元的创意生成解决方案,已正式开启测试。
蚂蚁百灵 Ling Studio 是蚂蚁集团推出的官方大模型 Web 交互平台,为开发者和 AI 爱好者提供一站式的模型体验、调试与开发环境。
爱诗科技 PixVerse R1 是全球首个通用实时世界模型,能以最高 1080P 画质实现虚拟世界的实时交互,推动虚拟世界从回放式形态转向实时演化的共创形态。
OctoCodingBench 是 MiniMax 开源的首个面向编程智能体(Coding Agent)的系统性基准测试,聚焦代码仓库场景下智能体对多源指令的遵循能力,填补了现有评测仅关注任务完成度、忽略规则合规性的空白。
火山方舟是字节跳动旗下火山引擎推出的一站式大模型服务平台(MaaS),集成多家顶尖大模型,提供从模型体验、精调训练到推理落地的全生命周期服务,以安全互信架构保障数据隐私与知识产权,助力企业及开发者实现 AI 高效落地。
TeleChat3 是中国电信 TeleAI 开源的国产千亿参数 MoE 大模型,支持“思考模式”并在全国产算力上完成 15T tokens 训练,可对标国际顶尖水平。
Step-DeepResearch 是阶跃星辰推出的一款高性价比、端到端深度研究代理模型,专为开放式研究场景中的自主信息探索和专业报告生成设计,能通过动态循环的推理、行动与反思,高效完成复杂研究任务。
ClipSketch AI:把B站/小红书视频一键变成手绘分镜并自动生成爆款文案的开源神器。
智谱 AI(北京智谱华章科技)围绕 “让机器像人一样思考” 的愿景,构建了以官方主站为核心、开放平台为技术输出载体的线上服务体系,同时通过明确的 MaaS(Model as a Service)理念,为个人用户、开发者及企业提供全场景 AI 服务。
1min.AI 把文本、图像、音视频等十几种主流生成式 AI 能力打包成“终身订阅”,一次性付费即可在浏览器内无限调用,彻底告别按月续费。
TurboDiffusion是清华大学TSAIL实验室联合生数科技开源的高效AI视频扩散模型框架,可将视频生成速度提升100至200倍,同时保持高质量输出。
Anthropic Agent Skills 是 Anthropic 推出的开源知识库,为 Claude 模型提供可动态加载的示范性技能与最佳实践,涵盖多领域实用技能集,支持开发者直接使用或按规范自定义技能,通过按需加载指令集降低 Token 消耗、提升特定任务处理效率。
Qwen-Image-Layered 是阿里通义千问开源的 AI 模型,可把单张照片一键拆成带透明通道的独立图层,让“零 PS 基础”的用户也能像专业设计师一样精准改图。
Google Gemini 应用视频检测功能是谷歌推出的 AI 内容透明度工具升级项,依托 SynthID 水印技术与多模态 AI 能力,支持用户在 Gemini 应用内上传视频,检测其是否包含 Google AI 生成的音视频元素,且功能覆盖全球所有 Gemini 应用支持的语言与地区,无需额外订阅。
TRELLIS.2-4B 是微软开源的一款基于流匹配 Transformer 的大型 3D 生成模型,能够以单张图片为输入,快速生成具备高保真度、复杂拓扑结构和 PBR 材质的 3D 资产,适用于多种高精度 3D 建模场景。
Seedance 1.5 Pro 是字节跳动推出的原生音视频联合生成AI模型,可精准响应复杂镜头指令,通过文本或图像输入一次性生成带同步对白、音效与背景音乐的影视级视频,大幅降低音视频创作门槛并提升制作效率。
GPT Image 1.5 是 OpenAI 最新发布的图像生成与编辑模型,可在 ChatGPT 内一句话出图、改图,效果更精准、文字更清晰、安全合规更严格。
CUGA 是 IBM 推出的开源 AI 助手,能把复杂企业任务拆成小块并自动完成,实测成功率超六成。
GPT-5.2 是 OpenAI 推出的 GPT-5 代旗舰模型系列,包含 Instant、Thinking、Pro 三个版本,以自适应推理为核心,聚焦专业知识工作场景,为不同需求用户提供高效、可靠的 AI 辅助服务。
上传一张图,3 分钟生成专属 LoRA 模型,人人都能把照片变成可商用的个性化风格引擎。
京东云JoyBuilder是一款AI原生应用开发平台,通过全栈优化支持GR00T N1.5千卡级训练,显著提升具身智能模型训练效率,推动技术规模化落地。
灵光网页版 AI 助手是蚂蚁集团推出的零代码小应用生成平台,可在 30 秒内把一句需求变成可运行的小程序,并自动同步到多端。
火山引擎推出的新一代多语种语音识别引擎,在复杂场景下实现更高精度与更强推理能力。
阿里通义开源的 6B 参数级 ControlNet 统一模型,用消费级显卡就能对图像生成进行像素级精准控制。
DeepSeek-V3.2 是由中国深度求索 (DeepSeek AI) 开发的新一代大语言模型,通过创新的稀疏注意力机制 (DSA) 大幅提升长文本处理效率,降低 API 成本 50%,性能达到 GPT-5 水平,同时推出高算力版本 V3.2-Speciale 在复杂推理任务中表现超越 GPT-5。
可灵O1是可灵AI推出的全球首款统一多模态视频大模型,支持文字、图像、视频三种指令输入,实现一句话生成视频、图生视频、局部编辑及镜头延展等多任务处理。
阿里巴巴通义实验室开源的 6B 参数 Z-Image 图像生成模型,采用单流 DiT 架构,支持中英双语文字渲染,显存占用低至 16GB,适用于消费级设备。
FLUX.2 是 Black Forest Labs 发布的包含 pro、flex、dev 和 klein 四个版本的图像生成与编辑模型系列,具备多图参考、4MP 分辨率编辑等核心能力,为不同需求用户提供从商用 API 到开源本地运行的多样化图像相关服务。
ZAYA1 是 AMD 与 IBM 及 Zyphra 合作推出的全球首个全程基于 AMD 硬件训练的混合专家基础模型,预训练数据达 14 万亿 tokens,在数学和 STEM 推理领域表现出色,综合性能对标 Qwen3 系列。
Claude Opus4.5 是 Anthropic 推出的最新旗舰混合推理 AI 模型,在编码、推理和长期任务管理方面表现卓越,同时大幅提升了安全性、效率与资源使用灵活性,能显著提高多类场景的生产力。
腾讯混元开源的 HunyuanOCR 是一款仅 10 亿参数的轻量级 OCR 模型,依托混元原生多模态架构,在多项权威测评中斩获 SOTA 成绩,支持多语种处理与多场景应用。
谷歌 Gemini 3 是目前性能领先、支持百万 token 超长上下文与原生多模态的旗舰级生成式 AI 模型。
DPAI Arena 是 JetBrains 推出的业内首个开放式、多语言、多框架且支持多工作流的 AI 编码智能体基准测试平台,核心目标是客观评估 AI 工具在真实软件工程任务中的效能,实现不同 AI 编码智能体的公平、可复现对比。
Skywork R1V4-Lite 是昆仑万维(Skywork AI)推出的轻量级多模态智能体,聚焦视觉 - 语言推理,具备图像理解、工具调用、多步推理与深度研究能力,无需复杂提示词即可通过图像输入自动完成任务。
ElevenLabs 是一款集成图像生成、视频生成、声音合成、音乐创作与音效设计的一站式 AI 内容生产平台,依托多模态模型矩阵,为用户提供高效、高质量的内容创作解决方案,适配商业与个人创作场景。
OceanBase seekdb 是一款开源、轻量级、AI原生的混合搜索数据库,可在一个查询中融合向量、全文、标量与空间数据,实现毫秒级多模态搜索。
Grok 4.1 是埃隆・马斯克旗下 xAI 推出的升级版大语言模型,包含 Grok 4.1 和 Grok 4.1 Thinking 两款型号,以免费开放、低幻觉率、高情商交互和多模态能力为核心亮点,在多项权威基准测试中表现突出。
谷歌发布的首款全多模态嵌入模型,能够将文本、图片、视频、音频和文档映射到统一嵌入向量空间,支持跨模态检索与分类。