
LFM2-8B-A1B 是 Liquid AI 推出的 8.3B 参数混合专家模型,仅激活 1.5B 即可在手机端跑出 4B 级速度,专为边缘 AI 设计。
1.1 主要功能
文本生成、多轮对话、创意写作、数据提取、RAG 增强检索、代理任务
支持 32K 长上下文,8 种语言(含中文)
在数学、代码、指令跟随、多语言任务上对标 3–4B 稠密模型水平
1.2 技术原理
混合专家(MoE)稀疏激活:每层 32 名专家,每 token 只激活 top-4,约 1.5B 参数参与计算
主干网络:18 个门控短卷积块 + 6 个分组查询注意力(GQA)块,前两层保持稠密保证稳定
路由策略:归一化 Sigmoid 门控 + 自适应偏置,实现负载均衡与低延迟
训练数据:12 万亿 token(55% 英文、25% 多语言、20% 代码),后训练采用 Liquid Preference Alignment(长度归一化 DPO/APO-Zero)
精度策略:混合 BF16/FP8,训练效率提升 3 倍
1.3 应用场景
手机、平板、笔记本等消费级设备本地部署
离线语音助手、即时翻译、隐私敏感问答
边缘 RAG、轻量级代理、嵌入式机器人对话
对延迟和隐私要求高、网络不稳定或合规限制场景
1.4 使用方法
下载:Hugging Face 仓库 LiquidAI/LFM2-8B-A1B(含 GGUF 量化版)
推理:llama.cpp / vLLM 一行命令即可运行,已提供 ChatML 模板与推荐采样参数(temperature=0.3,min_p=0.15)
微调:官方建议针对垂直场景做轻量微调,可进一步提升窄域表现
硬件:Galaxy S24 Ultra、AMD HX370 等旗舰手机/笔记本实测速度优于 Qwen3-1.7B
1.5 适用人群
边缘开发者、移动应用厂商、IoT 方案商
对数据隐私要求高的企业(金融、医疗、政务)
硬件预算有限的学生、研究者、独立开发者
1.6 优缺点
优点
参数利用率极高:8B 体量,1.5B 算力,3–4B 品质
本地推理低延迟、低功耗,无需云端
量化后手机可装,完全离线,隐私可控
多语言、长上下文、代码/数学能力均衡
缺点
知识密集型或重度编码任务仍逊于 7B+ 稠密模型
需要一定动手能力(选型、量化、模板)
目前仅支持文本模态,无原生多模态扩展
边缘AI、混合专家模型、端侧部署、轻量LLM、本地推理
在自然语言处理领域展现出了卓越的性能和广泛的应用潜力,能够为用户提供高效、智能的语言交互体验。