在数字经济时代,数据和人工智能技术的结合正成为推动社会发展的新引擎。近日,深圳数据交易所(以下简称“深数所”)在粤港澳大湾区(南山·前海)算力服务联盟第一期交流研讨会上,发布了大模型训练数据路线图,并联合开放算料联盟推出了500个垂直行业的多模态算料集,标志着中国在人工智能领域的又一次重大突破。
本次研讨会汇聚了政府领导、企业代表和行业专家,共同探讨数据、算力、网络产业链的深度合作与创新。深数所人工智能行业主管王吴越在会上强调,“数据要素×”与“人工智能+”是推动新质生产力的双轮驱动,数据作为高效的乘法因子,能够显著提升行业生产效率和创新能力,而人工智能技术则为传统产业带来渐进式的改进和优化。
深数所发布的大模型训练数据路线图,旨在为国产大模型厂商提供有针对性的数据源,以支持大模型在训练、推理、调优等不同阶段的应用。此外,开放算料联盟与开放群岛大模型SIG的合作成果也得到了展示,包括粤港澳大湾区大模型训练数据地图的发布、端到端跨模态数据挖掘开源工具的提供,以及数据资源价值发现智能体的构建。
特别值得一提的是,深数所首发的《数据应用场景及潜在价值分析报告》,利用大语言模型的涌现能力,通过CoT、RAG、Few Shot等技术,将数据商内部未经治理的复杂字段快速深度挖掘,识别出32个数据应用场景及价值变现途径,大幅提高了数据处理效率。
首批500个人工智能大模型高质量训练数据集的发布,涵盖了文本、图像、音频、视频、多模态、3D、GIS等多种数据模态,这些数据集不仅来自国内权威数据商,如中国气象局、中国知网等,还包括3家境外数据商的贡献。这一举措不仅丰富了国内大模型的训练资源,也为全球人工智能的发展提供了宝贵的数据支持。
开放算料联盟的成立,更是体现了中国在数据要素和大模型训练数据方面的开放共识和贡献精神。联盟集结了来自协会、学会、大学、智库、企业等方面的近50家发起机构,共同倡导和贡献多模态训练数据,为解决人工智能和数字经济的数据荒问题提供了强有力的供给保障。
此次深数所的行动,不仅是对粤港澳大湾区乃至全国人工智能产业发展的有力推动,更是对全球数据资源价值发现和利用的一次有益探索。随着这些高质量算料集的发布和应用,我们有理由相信,中国将在人工智能领域继续保持领先地位,为全球数字经济的发展贡献更多中国智慧和中国方案。