TeleChat3 是中国电信 TeleAI 开源的国产千亿参数 MoE 大模型,支持“思考模式”并在全国产算力上完成 15T tokens 训练,可对标国际顶尖水平。
Step-DeepResearch 是阶跃星辰推出的一款高性价比、端到端深度研究代理模型,专为开放式研究场景中的自主信息探索和专业报告生成设计,能通过动态循环的推理、行动与反思,高效完成复杂研究任务。
ClipSketch AI:把B站/小红书视频一键变成手绘分镜并自动生成爆款文案的开源神器。
TurboDiffusion是清华大学TSAIL实验室联合生数科技开源的高效AI视频扩散模型框架,可将视频生成速度提升100至200倍,同时保持高质量输出。
Anthropic Agent Skills 是 Anthropic 推出的开源知识库,为 Claude 模型提供可动态加载的示范性技能与最佳实践,涵盖多领域实用技能集,支持开发者直接使用或按规范自定义技能,通过按需加载指令集降低 Token 消耗、提升特定任务处理效率。
Qwen-Image-Layered 是阿里通义千问开源的 AI 模型,可把单张照片一键拆成带透明通道的独立图层,让“零 PS 基础”的用户也能像专业设计师一样精准改图。
TRELLIS.2-4B 是微软开源的一款基于流匹配 Transformer 的大型 3D 生成模型,能够以单张图片为输入,快速生成具备高保真度、复杂拓扑结构和 PBR 材质的 3D 资产,适用于多种高精度 3D 建模场景。
Seedance 1.5 Pro 是字节跳动推出的原生音视频联合生成AI模型,可精准响应复杂镜头指令,通过文本或图像输入一次性生成带同步对白、音效与背景音乐的影视级视频,大幅降低音视频创作门槛并提升制作效率。
CUGA 是 IBM 推出的开源 AI 助手,能把复杂企业任务拆成小块并自动完成,实测成功率超六成。
上传一张图,3 分钟生成专属 LoRA 模型,人人都能把照片变成可商用的个性化风格引擎。
阿里通义开源的 6B 参数级 ControlNet 统一模型,用消费级显卡就能对图像生成进行像素级精准控制。
DeepSeek-V3.2 是由中国深度求索 (DeepSeek AI) 开发的新一代大语言模型,通过创新的稀疏注意力机制 (DSA) 大幅提升长文本处理效率,降低 API 成本 50%,性能达到 GPT-5 水平,同时推出高算力版本 V3.2-Speciale 在复杂推理任务中表现超越 GPT-5。
阿里巴巴通义实验室开源的 6B 参数 Z-Image 图像生成模型,采用单流 DiT 架构,支持中英双语文字渲染,显存占用低至 16GB,适用于消费级设备。
腾讯混元开源的 HunyuanOCR 是一款仅 10 亿参数的轻量级 OCR 模型,依托混元原生多模态架构,在多项权威测评中斩获 SOTA 成绩,支持多语种处理与多场景应用。
Skywork R1V4-Lite 是昆仑万维(Skywork AI)推出的轻量级多模态智能体,聚焦视觉 - 语言推理,具备图像理解、工具调用、多步推理与深度研究能力,无需复杂提示词即可通过图像输入自动完成任务。
NiuTrans.LMT 是东北大学开源的多语言翻译大模型,凭借双中心架构与三层语言覆盖设计,支持 60 种语言、234 个翻译方向,在低资源语言翻译领域实现重大突破,兼顾翻译效率与准确性,为跨文化交互提供高效开源解决方案。
Kosong 是 Moonshot AI 开源的 Python 框架,用异步编排+插件化设计,让开发者 5 分钟拼出可切换任意大模型的智能体。
商汤开源的2B/8B多模态模型,在空间理解基准上超越GPT-5,为自动驾驶、机器人提供“看懂世界”的通用引擎。
中文原生图像编辑新王,框选即改、中文字体精准渲染,性能碾压 GPT-Image-1 与 Gemini 2.0。
Kimi Linear 是月之暗面推出的全新注意力架构,用 KDA 技术把 KV 缓存砍掉 75%、推理速度直接翻 6 倍,让长文本大模型“既省内存又飙车”。
SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎,可一键产出90分钟无中断、媲美真人录音的播客节目。
MoGA 是一种基于“混合分组注意力(Mixture-of-Groups Attention)”机制的高效 Transformer 变体,通过将输入序列动态划分为若干可学习的子组并并行计算组内-组间注意力,显著降低长序列推理成本,同时保持甚至提升下游任务精度。
LLaVA-OneVision-1.5-8B-Instruct 是 lmms-lab 开源的多模态大模型,可同时理解图像与文本,并通过自然语言指令完成视觉问答、描述、推理等任务。
PaddleOCR-VL 是百度 2025 年 10 月开源的全球最强文档解析模型,仅用 0.9B 参数即可在复杂版面、手写、表格、公式、图表等全场景实现 SOTA 级“看懂+读懂”。
FaceCLIP 是字节跳动开源在 Hugging Face 的 CLIP-风格人脸表征模型,用图文对比学习让机器“看得懂”人脸与文本的对应关系。
nanochat 是 Andrej Karpathy 用纯 C 语言训练与推理 GPT-2 的“玩具级”教学项目,可在笔记本电脑上一分钟内完成文本生成,帮助开发者彻底理解大模型原理。
快手开源的 72B 参数代码大模型,以 74.6% 的 SWE-Bench Verified 准确率刷新开源纪录,让“国产 AI 编程助手”第一次站上全球第一梯队。
DeepSeek-V3.2-Exp 是 DeepSeek 推出的实验性大语言模型,采用稀疏注意力机制,在保持模型性能的同时大幅提升长文本处理效率并降低成本。
苹果 Manzano 是首个在端侧实现“图像理解+图像生成”统一架构的多模态大模型,用一套参数同时完成“看懂图”和“画出图”。
Qianfan-VL 是百度开源的多尺寸、多模态视觉理解大模型,集 OCR、文档解析、数学推理与图表分析于一身,可在国产昆仑芯上高效运行。
DeepSeek-V3.1-Terminus 是 DeepSeek 于 2025 年推出的开源大语言模型,基于混合专家架构,支持思考与非思考双模式,具备强大的代码生成、搜索代理与多语言处理能力。
IBM Granite-Docling-258M 是一款专为端到端文档转换设计的开源轻量级视觉语言模型,能高精度提取文档中的表格、公式、代码等内容并保留原始布局。
Qwen3-Omni 是阿里云开源的端到端全模态大模型,能同时听懂、看懂、说清 119 种语言,实时输出文本与自然语音。
上传一张图、一段参考视频,就能让角色“活”起来或把原片人物换成新角色,同时保持表情、动作、光影一致的开源 AI 视频神器。
DeepMCPAgent是一个开源的MCP驱动代理框架,具备动态MCP工具发现机制和模型无关设计架构,主要应用于AI代理开发场景。
MobiAgent 是上海交通大学 IPADS 实验室团队推出的一款移动端智能体工具链,支持用户从零构建专属 AI 助手,涵盖数据收集、模型训练到手机端部署的全流程。
AgentGym-RL 框架:面向大模型智能体、在多样真实环境中“从零”进行多轮交互式强化学习的统一训练平台。
腾讯混元图像2.1(HunyuanImage 2.1)是腾讯最新发布的开源文生图大模型,支持原生2K高清生图,具备强大的复杂语义理解能力。
rStar2-Agent是由微软研究院开源的一个140亿参数的数学推理模型,通过创新的训练算法和基础设施,实现了媲美6710亿参数模型的推理能力。
OmniGen是由北京智源人工智能研究院开发的新一代统一图像生成模型,能够处理多种图像生成任务,包括文本到图像生成、图像编辑等。
腾讯ARC团队推出的AudioStory模型,能够根据文字描述生成高质量的音频内容,具有强大的叙事能力。
书生·万象 InternVL3.5 是上海 AI 实验室开源的多模态大模型,通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。
阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型,能够实现语音理解、音频推理与生成的统一建模。
CoMPaSS-FLUX.1是一种基于FLUX.1文本到图像扩散模型的LoRA适配器,可显著提升生成图像时对物体空间关系的理解能力。
Hunyuan-MT-7B 是腾讯开源的一款轻量级翻译模型,支持 33 种语言互译,在国际机器翻译比赛中拿下 30 个第一名。
HunyuanWorld-Voyager是由腾讯混元团队开源的3D生成工具,能通过单张照片或文字描述快速生成360°沉浸式3D场景,为用户带来全新的视觉体验。
Youtu-agent是由腾讯优图实验室推出的开源智能体框架,旨在帮助用户构建、运行和评估自主智能体。
VibeVoice-1.5B 是微软开源的文本转语音(TTS)大模型,可一次性生成 90 分钟高保真、多人轮替的长篇语音,并达到 3200 倍超高音频压缩率。
MiniCPM-V4.5是由面壁智能与清华大学NLP实验室联合推出的一款多模态端侧大语言模型,它支持单图、多图及视频理解,并在高分辨率图像处理、OCR以及多语言支持等方面表现出色。
GUAVA是由清华大学深圳国际研究生院和IDEA联合提出的用于快速可动画的上半身3D高斯形象重建框架。
MobileAgent 是一款强大的移动设备操作辅助工具,通过多智能体协作实现复杂任务的自动化操作,提升移动设备的使用效率和便捷性。
快手 Klear-Reasoner 是一款基于 Qwen3-8B-Base 架构的开源推理模型,专注于提升数学和代码推理能力,通过创新的训练方法和算法在多个基准测试中取得了卓越成绩。
Nvidia Nemotron-Nano-9B-v2 是一款专为单张 A10 GPU 优化的高效小型语言模型,支持多语言和灵活的推理控制功能。
Skywork UniPic 2.0 是昆仑万维开源的高效多模态生成与编辑模型,集图像理解、生成和编辑能力于一体,旨在实现高效、高质、统一的多模态建模。
Gemma3270M 是谷歌 DeepMind 发布的一款强大的开源人工智能模型,旨在为研究人员和开发者提供高效、灵活的 AI 开发工具。
OpenCUA是由香港大学XLANG实验室联合月之暗面、斯坦福大学等机构开源的全球首个覆盖数据采集、训练、部署全流程的智能体框架,旨在帮助用户低门槛地构建和扩展计算机使用智能体。
Hunyuan-GameCraft 是一款由腾讯 Hunyuan 团队开发的高动态互动游戏视频生成工具,旨在通过混合历史条件和先进的技术原理,为沉浸式互动游戏体验提供高质量和时间连贯性的视频合成。
Matrix-3D 是一个开源工具,能够从单张图片或文本提示生成大规模可探索的 3D 场景,支持全景视频生成和 3D 场景重建,具有高可控性和强大的泛化能力。
Matrix - Game 2.0 是昆仑万维发布的开源世界模型,旨在推动人工智能在复杂环境中的决策能力,为研究人员和开发者提供强大的工具和平台,助力人工智能技术的创新与发展。
智谱 GLM-4.5V 是一款开源发布的大语言模型,致力于为开发者和研究人员提供强大的语言理解和生成能力,推动人工智能技术的创新与应用。
TeleChat3 是中国电信 TeleAI 开源的国产千亿参数 MoE 大模型,支持“思考模式”并在全国产算力上完成 15T tokens 训练,可对标国际顶尖水平。