
CCI 3.0 是智源研究院发布的 1000 GB 级、经多维清洗与高质量标注的中文超大规模互联网语料库,为中文大模型与 NLP 研究提供“燃料”。
1 主要功能
-
提供 1000 GB 原始语料与 498 GB 高质量子集(CCI 3.0-HQ),覆盖 2.68 亿网页,含新闻、社交媒体、博客等 20 余家数据源。
-
完成语法、句法、教育程度、领域等 10 + 维度精细标注,可直接用于监督微调、继续预训练、指令对齐等任务。
-
内置基于 70 B 模型自动打标 + 小尺寸质量模型筛选的 HQ 数据,显著降低二次清洗成本。
-
支持 Flopsera、Hugging Face、DataHub 一键下载,提供完整数据卡片与开源协议。
2 技术原理
-
采用“规则 + 大模型”双轮清洗:规则层做关键词、垃圾信息、广告、隐私过滤;模型层用 70 B 大模型对文本质量、知识密度打分。
-
多级去重:数据集内部 SimHash 去重、跨数据集 MinHash 去重,确保唯一性。
-
质量打分模型:先用大模型标注 百万级样本,蒸馏出 1.5 B 小模型,实现高速质量打分,筛选出 HQ 子集。
-
安全合规:内置敏感词表 + 隐私实体识别,自动剔除身份证号、手机号、地址等敏感片段。
3 应用场景
-
大模型预训练:为百亿 / 千亿参数中文模型提供持续预训练语料,提升中文理解与生成能力。
-
垂直领域微调:基于 HQ 子集快速蒸馏法律、医疗、金融等专用模型。
-
内容推荐:训练用户兴趣模型,实现短视频、新闻、商品个性化召回。
-
知识图谱:抽取实体关系,扩充搜索引擎与智能助手知识库。
-
传统 NLP 任务:文本分类、情感分析、摘要、问答系统基准测试。
4 使用方法
-
步骤 1:访问 Flopsera / Hugging Face 搜索“CCI-3.0”,阅读数据卡片。
-
步骤 2:根据硬盘与带宽选择完整版(1000 GB)或 HQ 子集(498 GB)下载。
-
步骤 3:使用官方提供的预处理脚本(基于 Spark)做二次过滤,或直接用 HQ 子集开始训练。
-
步骤 4:加载到 Transformers、DeepSpeed、Megatron-LM 等框架,继续预训练或指令微调。
-
步骤 5:在模型卡片中引用“CCI 3.0”并链接开源协议,符合共建共享要求。
5 适用人群
-
中文大模型预训练团队
-
高校与研究机构 NLP 实验室
-
企业 AI 部门(搜索、推荐、对话)
-
数据标注与知识图谱公司
-
算法竞赛与基准测试组织者
6 优缺点
优点
优点
-
规模宏大:1000 GB 量级,目前公开最大的中文互联网语料之一。
-
质量可控:HQ 子集经大模型自动标注 + 小模型筛选,训练效果优于同类开源语料。
-
多维标注:10 + 维度标签,支持细粒度采样与任务定制。
-
获取便捷:多平台托管,完全开源,协议宽松(CC-BY-4.0)。
缺点
-
仍含噪声:原始 1000 GB 语料需二次清洗,直接使用可能引入偏见与错误。
-
领域倾斜:社交媒体与新闻占比高,科技、医疗等垂直领域密度不足。
-
隐私风险:虽已过滤,但互联网原始数据可能存在遗漏,需用户二次脱敏。
-
硬件门槛:完整版下载与处理需要 PB 级存储与 Spark 集群,对小团队不友好。
中文语料库、大模型训练、自然语言处理、数据开源、知识图谱、内容推荐
武汉大学联合中国移动九天人工智能团队和昆山杜克大学基于YouTube数据开源了超过11万小时的音视频说话人识别数据集VoxBlink2,是目前最大的公开可用的音视频说话人识别数据集。该数据集丰富了开源语音语料库,支持训练声纹大模型。