TeleChat3：国产千亿MoE开源大模型

AI开源项目多模态大模型

TeleChat3 是中国电信 TeleAI 开源的国产千亿参数 MoE 大模型，支持“思考模式”并在全国产算力上完成 15T tokens 训练，可对标国际顶尖水平。

链接直达手机查看

一、介绍
TeleChat3 是中国电信 TeleAI 开源的国产千亿参数 MoE 大模型，支持“思考模式”并在全国产算力上完成 15T tokens 训练，可对标国际顶尖水平。

二、详细介绍

1 主要功能

千亿参数 MoE 架构，支持中英双语及多任务通用语义理解
内置 Thinking 模式，可输出分步推理过程，提升结果可追溯性
提供 Base、Chat、Long-Context 等多版本，支持 4K~32K 长度可变输入
开放训练代码、推理框架、模型权重与部署脚本，支持二次开发与私有化落地
集成插件体系，可外接检索、工具调用、行业知识库，快速构建领域 AI 应用

2 技术原理

细粒度 Mixture-of-Experts：将千亿参数拆分为 64 路由专家网络，激活参数量 < 10%，降低推理成本
全栈国产算力训练：基于昇腾 910B NPU+MindSpore 框架，实现 15T tokens 持续预训练，摆脱对海外 GPU 依赖
Thinking 模式：在 SFT 阶段引入“思维链”数据，让模型在回答前显式生成中间推理步骤，减少幻觉
长上下文优化：采用 RoPE+FlashAttention2 组合，支持 32K 长度一次性输入，保持首尾一致性
安全对齐：通过多轮 RLHF+红队对抗，内置内容安全过滤模块，满足国内合规要求

3 应用场景

政务与城市治理：政策问答、12345 智能工单、城市事件语义分析
电信与 IT 运维：网络故障根因定位、日志知识库问答、客服坐席辅助
金融与工业：研报生成、合规文档审查、设备维护手册智能检索
教育科研：个性化习题讲解、论文研读助手、开放域知识科普
通用 Copilot：PPT/Excel 生成、代码补全、会议纪要、邮件起草

4 使用方法

访问 GitHub 仓库 https://github.com/Tele-AI/TeleChat3 克隆代码
安装依赖：pip install -r requirements.txt（含 MindSpore、Transformers 加速库）
下载权重：提供 ModelScope、OpenXLab、百度网盘三通道，选择 bf16/int8 版本
快速体验：python chat.py --model telechat3-12b --prompt "请解释 MoE 的原理"
生产部署：
- 单机多卡：昇腾 910B×8，使用 MindIE 推理服务，吞吐量 1200 tokens/s
- 集群分布式：Kubernetes+Volcano，支持 32K 长上下文批处理
二次训练：准备领域语料，运行 continue_pretrain.py 或 lora_finetune.py，支持 DeepSpeed-Zero3

5 适用人群

政府及央企信息化部门：需要私有化、国产化、合规可控的大模型基座
行业 ISV/SI：希望在电信、政务、工业、金融等场景快速构建生成式应用
高校与科研机构：研究 MoE 架构、长上下文、国产框架适配的学者与学生
开发者与算法工程师：需要可二次开发、可插件扩展的开源大模型

6 优缺点介绍
优点
✓ 完全开源，可商用，许可证宽松（Apache-2.0）
✓ 国产算力全栈训练，硬件供应链安全可控
✓ Thinking 模式降低幻觉，推理过程可解释
✓ MoE 架构激活参数少，推理成本仅为稠密模型 1/3
✓ 长上下文版本支持 32K，行业报告、标书一次读完

缺点
✗ 目前仅中英双语，小语种能力弱于海外多语模型
✗ 昇腾生态工具链相对新，首次部署需学习 MindSpore
✗ 12B/120B 版本对显存要求仍高，INT8 量化后精度略有下降
✗ 社区生态处于早期，第三方插件与教程数量少于 LLaMA 系列

三、分类标签
开源大模型、MoE、国产化、电信、政务、推理可解释、长上下文、昇腾

相关导航

DreamActor-M1：基于混合引导的人像动画生成工具

通过混合引导实现精细的整体可控性、多尺度适应性和长期时间连贯性，能够生成高质量的人像动画。

Qwen3-Embedding：文本嵌入与检索的新标杆

阿里巴巴通义实验室开源的一款文本嵌入模型，能够将文本转换为高维向量，精准捕捉语义信息，广泛应用于文本检索、排序等场景。

论文《Attention Is All You Need》

该论文提出了一种全新的神经网络架构——Transformer，它完全基于注意力（Attention）机制，彻底抛弃了传统的循环神经网络（RNN）或卷积神经网络（CNN）结构。Transformer模型通过自注意力（Self-Attention）机制来计算输入序列中不同位置之间的相关性，从而实现对序列数据的高效处理。这种架构具有出色的并行计算能力，大大提高了自然语言处理任务的效率。

DeepSeek-V3-0324：高效推理与多领域应用的开源大模型

DeepSeek 团队发布的高性能开源大模型，具有强大的编程能力、数学推理能力以及高效的推理效率，广泛适用于多种应用场景。

AuraSR高清修复放大

AuraSR 是基于 GAN 的 Super-Resolution 模型，通过图像条件化增强技术，提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现，并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量，适用于图像处理领域。

Google Gemini Flash

Gemini Flash 是 DeepMind 公司开发的一项技术，它在多个领域表现出色，包括语言理解、代码生成、数学问题解答、多步推理、多语言翻译、图像理解、音频识别和视频问答。

免责声明：本站为个人资讯、工具类学习博客，所发布的一切形式的内容，包括但不限于文字、链接、工具、图片、视频、软件等，仅限用于学习和研究目的，不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，如有侵权请联系本站删除下架，您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。访问和下载本站内容，说明您已同意上述条款。本站为非盈利性站点，本站不贩卖软件，所有内容不作为商业行为，点击、使用相关工具时请注意甄别，谨防上当受骗。咨询联系：yumiok88@gmail.com.