Liquid AI LFM2-8B-A1B 混合专家模型

多模态大模型

LFM2-8B-A1B 是 Liquid AI 推出的 8.3B 参数混合专家模型，仅激活 1.5B 即可在手机端跑出 4B 级速度，专为边缘 AI 设计。

链接直达手机查看

LFM2-8B-A1B 是 Liquid AI 推出的 8.3B 参数混合专家模型，仅激活 1.5B 即可在手机端跑出 4B 级速度，专为边缘 AI 设计。
1.1 主要功能
文本生成、多轮对话、创意写作、数据提取、RAG 增强检索、代理任务
支持 32K 长上下文，8 种语言（含中文）
在数学、代码、指令跟随、多语言任务上对标 3–4B 稠密模型水平
1.2 技术原理
混合专家（MoE）稀疏激活：每层 32 名专家，每 token 只激活 top-4，约 1.5B 参数参与计算
主干网络：18 个门控短卷积块 + 6 个分组查询注意力（GQA）块，前两层保持稠密保证稳定
路由策略：归一化 Sigmoid 门控 + 自适应偏置，实现负载均衡与低延迟
训练数据：12 万亿 token（55% 英文、25% 多语言、20% 代码），后训练采用 Liquid Preference Alignment（长度归一化 DPO/APO-Zero）
精度策略：混合 BF16/FP8，训练效率提升 3 倍
1.3 应用场景
手机、平板、笔记本等消费级设备本地部署
离线语音助手、即时翻译、隐私敏感问答
边缘 RAG、轻量级代理、嵌入式机器人对话
对延迟和隐私要求高、网络不稳定或合规限制场景
1.4 使用方法
下载：Hugging Face 仓库 LiquidAI/LFM2-8B-A1B（含 GGUF 量化版）
推理：llama.cpp / vLLM 一行命令即可运行，已提供 ChatML 模板与推荐采样参数（temperature=0.3，min_p=0.15）
微调：官方建议针对垂直场景做轻量微调，可进一步提升窄域表现
硬件：Galaxy S24 Ultra、AMD HX370 等旗舰手机/笔记本实测速度优于 Qwen3-1.7B
1.5 适用人群
边缘开发者、移动应用厂商、IoT 方案商
对数据隐私要求高的企业（金融、医疗、政务）
硬件预算有限的学生、研究者、独立开发者
1.6 优缺点
优点
参数利用率极高：8B 体量，1.5B 算力，3–4B 品质
本地推理低延迟、低功耗，无需云端
量化后手机可装，完全离线，隐私可控
多语言、长上下文、代码/数学能力均衡
缺点
知识密集型或重度编码任务仍逊于 7B+ 稠密模型
需要一定动手能力（选型、量化、模板）
目前仅支持文本模态，无原生多模态扩展
边缘AI、混合专家模型、端侧部署、轻量LLM、本地推理

相关导航

XMAX AI 实时交互 AI 视频工具

XMAX AI 是一款打造全球领先实时交互 AI 视频模型的工具，依托虚实融合技术，通过摄像头和手势操作实现虚拟与现实的实时互动，让用户将想象落地到现实中，打造沉浸式的交互体验。

Llama3

Llama 3是由Meta公司开发的大型人工智能语言模型，属于专家混合（MoE）模型的一种。它通过结合多个专家模型来处理不同的任务，以提高模型的效率和性能。

华为昇思MindSpore

昇思MindSpore是一个全场景深度学习框架，旨在实现易开发、高效执行、全场景覆盖三大目标。在其官网可以全方位了解昇思MindSpore，包括安装、教程、文档、社区、资源下载和资讯栏目等

免责声明：本站为个人资讯、工具类学习博客，所发布的一切形式的内容，包括但不限于文字、链接、工具、图片、视频、软件等，仅限用于学习和研究目的，不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，如有侵权请联系本站删除下架，您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。访问和下载本站内容，说明您已同意上述条款。本站为非盈利性站点，本站不贩卖软件，所有内容不作为商业行为，点击、使用相关工具时请注意甄别，谨防上当受骗。咨询联系：yumiok88@gmail.com.