阿里通义开源的 6B 参数级 ControlNet 统一模型,用消费级显卡就能对图像生成进行像素级精准控制。
DeepSeek-V3.2 是由中国深度求索 (DeepSeek AI) 开发的新一代大语言模型,通过创新的稀疏注意力机制 (DSA) 大幅提升长文本处理效率,降低 API 成本 50%,性能达到 GPT-5 水平,同时推出高算力版本 V3.2-Speciale 在复杂推理任务中表现超越 GPT-5。
阿里巴巴通义实验室开源的 6B 参数 Z-Image 图像生成模型,采用单流 DiT 架构,支持中英双语文字渲染,显存占用低至 16GB,适用于消费级设备。
腾讯混元开源的 HunyuanOCR 是一款仅 10 亿参数的轻量级 OCR 模型,依托混元原生多模态架构,在多项权威测评中斩获 SOTA 成绩,支持多语种处理与多场景应用。
Skywork R1V4-Lite 是昆仑万维(Skywork AI)推出的轻量级多模态智能体,聚焦视觉 - 语言推理,具备图像理解、工具调用、多步推理与深度研究能力,无需复杂提示词即可通过图像输入自动完成任务。
NiuTrans.LMT 是东北大学开源的多语言翻译大模型,凭借双中心架构与三层语言覆盖设计,支持 60 种语言、234 个翻译方向,在低资源语言翻译领域实现重大突破,兼顾翻译效率与准确性,为跨文化交互提供高效开源解决方案。
Kosong 是 Moonshot AI 开源的 Python 框架,用异步编排+插件化设计,让开发者 5 分钟拼出可切换任意大模型的智能体。
商汤开源的2B/8B多模态模型,在空间理解基准上超越GPT-5,为自动驾驶、机器人提供“看懂世界”的通用引擎。
中文原生图像编辑新王,框选即改、中文字体精准渲染,性能碾压 GPT-Image-1 与 Gemini 2.0。
Kimi Linear 是月之暗面推出的全新注意力架构,用 KDA 技术把 KV 缓存砍掉 75%、推理速度直接翻 6 倍,让长文本大模型“既省内存又飙车”。
SoulX-Podcast是Soul推出的超长时长、高保真多语言AI播客生成引擎,可一键产出90分钟无中断、媲美真人录音的播客节目。
MoGA 是一种基于“混合分组注意力(Mixture-of-Groups Attention)”机制的高效 Transformer 变体,通过将输入序列动态划分为若干可学习的子组并并行计算组内-组间注意力,显著降低长序列推理成本,同时保持甚至提升下游任务精度。
LLaVA-OneVision-1.5-8B-Instruct 是 lmms-lab 开源的多模态大模型,可同时理解图像与文本,并通过自然语言指令完成视觉问答、描述、推理等任务。
PaddleOCR-VL 是百度 2025 年 10 月开源的全球最强文档解析模型,仅用 0.9B 参数即可在复杂版面、手写、表格、公式、图表等全场景实现 SOTA 级“看懂+读懂”。
FaceCLIP 是字节跳动开源在 Hugging Face 的 CLIP-风格人脸表征模型,用图文对比学习让机器“看得懂”人脸与文本的对应关系。
nanochat 是 Andrej Karpathy 用纯 C 语言训练与推理 GPT-2 的“玩具级”教学项目,可在笔记本电脑上一分钟内完成文本生成,帮助开发者彻底理解大模型原理。
快手开源的 72B 参数代码大模型,以 74.6% 的 SWE-Bench Verified 准确率刷新开源纪录,让“国产 AI 编程助手”第一次站上全球第一梯队。
DeepSeek-V3.2-Exp 是 DeepSeek 推出的实验性大语言模型,采用稀疏注意力机制,在保持模型性能的同时大幅提升长文本处理效率并降低成本。
苹果 Manzano 是首个在端侧实现“图像理解+图像生成”统一架构的多模态大模型,用一套参数同时完成“看懂图”和“画出图”。
Qianfan-VL 是百度开源的多尺寸、多模态视觉理解大模型,集 OCR、文档解析、数学推理与图表分析于一身,可在国产昆仑芯上高效运行。
DeepSeek-V3.1-Terminus 是 DeepSeek 于 2025 年推出的开源大语言模型,基于混合专家架构,支持思考与非思考双模式,具备强大的代码生成、搜索代理与多语言处理能力。
IBM Granite-Docling-258M 是一款专为端到端文档转换设计的开源轻量级视觉语言模型,能高精度提取文档中的表格、公式、代码等内容并保留原始布局。
Qwen3-Omni 是阿里云开源的端到端全模态大模型,能同时听懂、看懂、说清 119 种语言,实时输出文本与自然语音。
上传一张图、一段参考视频,就能让角色“活”起来或把原片人物换成新角色,同时保持表情、动作、光影一致的开源 AI 视频神器。
DeepMCPAgent是一个开源的MCP驱动代理框架,具备动态MCP工具发现机制和模型无关设计架构,主要应用于AI代理开发场景。
MobiAgent 是上海交通大学 IPADS 实验室团队推出的一款移动端智能体工具链,支持用户从零构建专属 AI 助手,涵盖数据收集、模型训练到手机端部署的全流程。
AgentGym-RL 框架:面向大模型智能体、在多样真实环境中“从零”进行多轮交互式强化学习的统一训练平台。
腾讯混元图像2.1(HunyuanImage 2.1)是腾讯最新发布的开源文生图大模型,支持原生2K高清生图,具备强大的复杂语义理解能力。
rStar2-Agent是由微软研究院开源的一个140亿参数的数学推理模型,通过创新的训练算法和基础设施,实现了媲美6710亿参数模型的推理能力。
OmniGen是由北京智源人工智能研究院开发的新一代统一图像生成模型,能够处理多种图像生成任务,包括文本到图像生成、图像编辑等。
腾讯ARC团队推出的AudioStory模型,能够根据文字描述生成高质量的音频内容,具有强大的叙事能力。
书生·万象 InternVL3.5 是上海 AI 实验室开源的多模态大模型,通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。
阶跃星辰发布的Step-Audio2mini是一款开源的端到端语音大模型,能够实现语音理解、音频推理与生成的统一建模。
CoMPaSS-FLUX.1是一种基于FLUX.1文本到图像扩散模型的LoRA适配器,可显著提升生成图像时对物体空间关系的理解能力。
Hunyuan-MT-7B 是腾讯开源的一款轻量级翻译模型,支持 33 种语言互译,在国际机器翻译比赛中拿下 30 个第一名。
HunyuanWorld-Voyager是由腾讯混元团队开源的3D生成工具,能通过单张照片或文字描述快速生成360°沉浸式3D场景,为用户带来全新的视觉体验。
Youtu-agent是由腾讯优图实验室推出的开源智能体框架,旨在帮助用户构建、运行和评估自主智能体。
VibeVoice-1.5B 是微软开源的文本转语音(TTS)大模型,可一次性生成 90 分钟高保真、多人轮替的长篇语音,并达到 3200 倍超高音频压缩率。
MiniCPM-V4.5是由面壁智能与清华大学NLP实验室联合推出的一款多模态端侧大语言模型,它支持单图、多图及视频理解,并在高分辨率图像处理、OCR以及多语言支持等方面表现出色。
GUAVA是由清华大学深圳国际研究生院和IDEA联合提出的用于快速可动画的上半身3D高斯形象重建框架。
MobileAgent 是一款强大的移动设备操作辅助工具,通过多智能体协作实现复杂任务的自动化操作,提升移动设备的使用效率和便捷性。
快手 Klear-Reasoner 是一款基于 Qwen3-8B-Base 架构的开源推理模型,专注于提升数学和代码推理能力,通过创新的训练方法和算法在多个基准测试中取得了卓越成绩。
Nvidia Nemotron-Nano-9B-v2 是一款专为单张 A10 GPU 优化的高效小型语言模型,支持多语言和灵活的推理控制功能。
Skywork UniPic 2.0 是昆仑万维开源的高效多模态生成与编辑模型,集图像理解、生成和编辑能力于一体,旨在实现高效、高质、统一的多模态建模。
Gemma3270M 是谷歌 DeepMind 发布的一款强大的开源人工智能模型,旨在为研究人员和开发者提供高效、灵活的 AI 开发工具。
OpenCUA是由香港大学XLANG实验室联合月之暗面、斯坦福大学等机构开源的全球首个覆盖数据采集、训练、部署全流程的智能体框架,旨在帮助用户低门槛地构建和扩展计算机使用智能体。
Hunyuan-GameCraft 是一款由腾讯 Hunyuan 团队开发的高动态互动游戏视频生成工具,旨在通过混合历史条件和先进的技术原理,为沉浸式互动游戏体验提供高质量和时间连贯性的视频合成。
Matrix-3D 是一个开源工具,能够从单张图片或文本提示生成大规模可探索的 3D 场景,支持全景视频生成和 3D 场景重建,具有高可控性和强大的泛化能力。
Matrix - Game 2.0 是昆仑万维发布的开源世界模型,旨在推动人工智能在复杂环境中的决策能力,为研究人员和开发者提供强大的工具和平台,助力人工智能技术的创新与发展。
智谱 GLM-4.5V 是一款开源发布的大语言模型,致力于为开发者和研究人员提供强大的语言理解和生成能力,推动人工智能技术的创新与应用。
MiniCPM-V-4 是一款高效且功能强大的多模态语言模型,能够在手机等终端设备上流畅运行,具备领先的视觉理解和多模态交互能力。
Baichuan-M2-32B 是一款由 Baichuan AI 开发的医疗增强型推理模型,专为医学推理任务设计,具备强大的医疗知识、推理能力和患者交互能力。
SkyReels-A3 是一款基于多模态输入的端到端框架,能够合成高保真且时间连贯的人类视频,支持通过音频等多模态输入生成高质量的长视频内容。
dots.ocr 是一款强大的多语言文档解析工具,它通过单一视觉 - 语言模型实现布局检测和内容识别的统一,同时保持良好的阅读顺序,具有出色的性能和高效的处理速度。
OpenAI最新发布的两款开源语言模型,旨在为开发者提供强大的推理能力和灵活的部署选项。
Zread.ai 是一款由智谱 AI 开发的开源项目解读工具,旨在通过 AI 技术帮助开发者快速理解和分析 GitHub 上的开源项目。
Qwen-Image 是一款强大的图像生成与编辑基础模型,能够实现复杂的文字渲染和精准的图像编辑,尤其在中文文字渲染方面表现出色,适用于多种艺术风格和应用场景。
WebAgent是由阿里云通义实验室开源的自主搜索AI智能体项目,旨在模拟人类在网络环境中的感知、决策和行动循环,通过自主搜索和多步推理处理复杂、模糊的网络任务。
Fogsight是一款基于大型语言模型(LLM)的AI动画引擎,能够将用户输入的抽象概念或关键词快速转化为高质量的叙事动画。
Qwen3-Coder 是阿里巴巴通义千问团队发布的最新代码模型,具备卓越的代码生成和智能代理能力,能够大幅提升开发效率。
阿里通义开源的 6B 参数级 ControlNet 统一模型,用消费级显卡就能对图像生成进行像素级精准控制。