DeepSeek-V4是深度求索推出的全新系列大模型预览版,百万字超长上下文,Agent能力领先,同步开源
阿里ATH发布的世界模型产品,支持三维互动视频生成,可用于影视制作和游戏开发,目前处于限量早期体验阶段。
腾讯混元3D世界模型2.0开源!支持文字/图片/视频多模态生成可编辑3D世界,导出Mesh/3DGS/点云,无缝衔接Unity/UE游戏引擎。
OpenAI旗舰大模型,代号"土豆",支持200万Token上下文,性能较GPT-5.4提升40%以上。
Seeduplex是字节跳动于2026年4月9日发布的全双工语音大模型。采用"边听边说"架构,突破传统半双工交互模式,实现听与说同步处理。已在豆包App全量上线,成为业内首个规模化部署的全双工语音大模型。
Remotion是一个开源的React视频框架,可以通过编程方式创建视频动画。使用React和TypeScript编写视频,通过浏览器按时间线查看和渲染。支持动画效果、转场特效、动态文本、复杂场景等。个人免费使用。
Nous Research开源的可自我进化的AI Agent框架。内置闭环学习循环,能从成功经验中自动生成可复用skill,跨会话持久记忆用户偏好。MIT开源,GitHub超4万Star,月成本仅5美元,支持私有化部署。
MiniMax发布的面向AI Agent的命令行工具,支持全模态模型调用,无需MCP Server
在Artificial Analysis Video Arena榜单登顶的神秘AI视频生成模型,超越Runway、Pika、Sora等知名模型,以碾压式姿态位居榜首。
开源AI智能体框架,2026.4.5版本集成视频音乐生成与记忆系统,支持多模型提供商
智谱最新开源编程大模型,能在8小时内独立完成复杂工程项目,SWE-Bench评分全球领跑,支持自我评估与优化。
美团开源音频生成大模型,首创波形潜空间建模,刷新音色克隆 SOTA,解决音色漂移问题。
Anthropic 为 Claude 打造的独立运行环境,支持始终在线、浏览器操作、外部连接器连接。
谷歌新一代开源大模型,参数量达 120B,采用 MoE 架构,支持多语言和代码生成。
AI 项目探索平台,智能发现和分析开源项目,帮助开发者快速找到匹配的技术方案
OpenClaw AI Agent 框架官方中国镜像站,国内访问速度提升 10 倍,由 VolcanoEngine 支持
Claude Code Auto Mode 2026 年 3 月 25 日发布,智能安全分类器 + 自动执行,AI 编程进入自动驾驶时代。
OpenClaw 官方技能商店,汇聚海量优质技能,支持一键安装、版本管理、向量搜索,是用户获取安全可信扩展能力的核心阵地。
字节开源超级智能体编排框架,GitHub trending 榜首,4 万 + Star,支持多模型、安全沙箱、IM 渠道接入,适合企业级复杂任务。
HiClaw 是阿里巴巴开源的云原生多模态智能体框架,深度整合阿里云 AI 能力与 OpenClaw 生态,支持视觉 - 语言 - 动作全链路协同,主打企业级规模化部署与多场景自动化。
阿里通义实验室开源的影视级配音大模型,攻克 AI 配音情感表达难题。
xAI 发布的新一代大语言模型,非幻觉率 78% 创行业纪录
腾讯与清华大学联合开源的 4B 参数音乐生成大模型,采用混合 LLM-扩散架构,歌词准确率达 8.55% PER,超越 Suno v5,支持本地部署
Ming-flash-omni 2.0 是蚂蚁集团开源的新一代全模态大模型,基于 Ling-2.0 MoE 架构打造,实现视觉语言理解、图像生成编辑、语音 / 音效 / 音乐统一生成三大能力全面升级,部分指标超越 Gemini 2.5 Pro,为多模态应用开发提供高效统一入口。
Qwen3.5 是阿里巴巴即将推出的新一代开源基座大模型,采用全新混合注意力机制,大概率为原生视觉理解 VLM 模型,计划春节期间开源并推出多规格模型版本,目前已完成多个主流 AI 开发框架的适配开发。
宇树开源的UnifoLM-VLA-0是一个专为通用人形机器人设计的视觉-语言-动作基础模型,它通过在真实机器人操作数据上进行预训练,使模型获得了对物理世界交互规律的基本理解,标志着机器人大脑从“图文理解”迈向具备“物理常识”的具身智能。
正 LingBot-VLA是蚂蚁集团推出的一个专注于现实世界复杂操控任务的视觉-语言-动作基础模型,它通过海量真实机器人数据进行训练,实现了用自然语言指令直接操控多种不同形态的双臂机器人。
昆仑万维 SkyReels - V3 是一款由 Skywork AI 开源的多模态视频生成模型,在单一建模架构中实现参考图像转视频、视频延长和音频驱动虚拟形象三大核心能力,达成高保真多模态视频生成的行业领先水平。
LingBot-World 是蚂蚁灵波科技开源的一款顶尖世界模型,它以可扩展数据引擎为驱动,能提供高保真、高动态且可实时交互的模拟环境,在视频质量、长时序一致性等多方面表现突出,适配多领域应用。
OpenClaw:开源本地AI助手平台——一款可在个人设备上运行、并集成到常用聊天应用中的开源智能代理平台。
TeleChat3 是中国电信 TeleAI 开源的国产千亿参数 MoE 大模型,支持“思考模式”并在全国产算力上完成 15T tokens 训练,可对标国际顶尖水平。
Step-DeepResearch 是阶跃星辰推出的一款高性价比、端到端深度研究代理模型,专为开放式研究场景中的自主信息探索和专业报告生成设计,能通过动态循环的推理、行动与反思,高效完成复杂研究任务。
ClipSketch AI:把B站/小红书视频一键变成手绘分镜并自动生成爆款文案的开源神器。
TurboDiffusion是清华大学TSAIL实验室联合生数科技开源的高效AI视频扩散模型框架,可将视频生成速度提升100至200倍,同时保持高质量输出。
Anthropic Agent Skills 是 Anthropic 推出的开源知识库,为 Claude 模型提供可动态加载的示范性技能与最佳实践,涵盖多领域实用技能集,支持开发者直接使用或按规范自定义技能,通过按需加载指令集降低 Token 消耗、提升特定任务处理效率。
Qwen-Image-Layered 是阿里通义千问开源的 AI 模型,可把单张照片一键拆成带透明通道的独立图层,让“零 PS 基础”的用户也能像专业设计师一样精准改图。
TRELLIS.2-4B 是微软开源的一款基于流匹配 Transformer 的大型 3D 生成模型,能够以单张图片为输入,快速生成具备高保真度、复杂拓扑结构和 PBR 材质的 3D 资产,适用于多种高精度 3D 建模场景。
Seedance 1.5 Pro 是字节跳动推出的原生音视频联合生成AI模型,可精准响应复杂镜头指令,通过文本或图像输入一次性生成带同步对白、音效与背景音乐的影视级视频,大幅降低音视频创作门槛并提升制作效率。
CUGA 是 IBM 推出的开源 AI 助手,能把复杂企业任务拆成小块并自动完成,实测成功率超六成。
上传一张图,3 分钟生成专属 LoRA 模型,人人都能把照片变成可商用的个性化风格引擎。
阿里通义开源的 6B 参数级 ControlNet 统一模型,用消费级显卡就能对图像生成进行像素级精准控制。
DeepSeek-V3.2 是由中国深度求索 (DeepSeek AI) 开发的新一代大语言模型,通过创新的稀疏注意力机制 (DSA) 大幅提升长文本处理效率,降低 API 成本 50%,性能达到 GPT-5 水平,同时推出高算力版本 V3.2-Speciale 在复杂推理任务中表现超越 GPT-5。
阿里巴巴通义实验室开源的 6B 参数 Z-Image 图像生成模型,采用单流 DiT 架构,支持中英双语文字渲染,显存占用低至 16GB,适用于消费级设备。
腾讯混元开源的 HunyuanOCR 是一款仅 10 亿参数的轻量级 OCR 模型,依托混元原生多模态架构,在多项权威测评中斩获 SOTA 成绩,支持多语种处理与多场景应用。
Skywork R1V4-Lite 是昆仑万维(Skywork AI)推出的轻量级多模态智能体,聚焦视觉 - 语言推理,具备图像理解、工具调用、多步推理与深度研究能力,无需复杂提示词即可通过图像输入自动完成任务。
NiuTrans.LMT 是东北大学开源的多语言翻译大模型,凭借双中心架构与三层语言覆盖设计,支持 60 种语言、234 个翻译方向,在低资源语言翻译领域实现重大突破,兼顾翻译效率与准确性,为跨文化交互提供高效开源解决方案。
Kosong 是 Moonshot AI 开源的 Python 框架,用异步编排+插件化设计,让开发者 5 分钟拼出可切换任意大模型的智能体。
商汤开源的2B/8B多模态模型,在空间理解基准上超越GPT-5,为自动驾驶、机器人提供“看懂世界”的通用引擎。
中文原生图像编辑新王,框选即改、中文字体精准渲染,性能碾压 GPT-Image-1 与 Gemini 2.0。
Kimi Linear 是月之暗面推出的全新注意力架构,用 KDA 技术把 KV 缓存砍掉 75%、推理速度直接翻 6 倍,让长文本大模型“既省内存又飙车”。
SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎,可一键产出90分钟无中断、媲美真人录音的播客节目。
MoGA 是一种基于“混合分组注意力(Mixture-of-Groups Attention)”机制的高效 Transformer 变体,通过将输入序列动态划分为若干可学习的子组并并行计算组内-组间注意力,显著降低长序列推理成本,同时保持甚至提升下游任务精度。
LLaVA-OneVision-1.5-8B-Instruct 是 lmms-lab 开源的多模态大模型,可同时理解图像与文本,并通过自然语言指令完成视觉问答、描述、推理等任务。
PaddleOCR-VL 是百度 2025 年 10 月开源的全球最强文档解析模型,仅用 0.9B 参数即可在复杂版面、手写、表格、公式、图表等全场景实现 SOTA 级“看懂+读懂”。
FaceCLIP 是字节跳动开源在 Hugging Face 的 CLIP-风格人脸表征模型,用图文对比学习让机器“看得懂”人脸与文本的对应关系。
nanochat 是 Andrej Karpathy 用纯 C 语言训练与推理 GPT-2 的“玩具级”教学项目,可在笔记本电脑上一分钟内完成文本生成,帮助开发者彻底理解大模型原理。
快手开源的 72B 参数代码大模型,以 74.6% 的 SWE-Bench Verified 准确率刷新开源纪录,让“国产 AI 编程助手”第一次站上全球第一梯队。
DeepSeek-V4是深度求索推出的全新系列大模型预览版,百万字超长上下文,Agent能力领先,同步开源