
京东云JoyBuilder是一款AI原生应用开发平台,通过全栈优化支持GR00T N1.5千卡级训练,显著提升具身智能模型训练效率,推动技术规模化落地。
一、主要功能
1. 具身智能模型高效训练
作为行业首家支持具身智能千卡级LeRobot开源训练框架的平台,成功支撑GR00T N1.5千卡分布式训练,训练效率较开源社区版本提升3.5倍,1亿+数据的千卡训练时间从15小时缩短至22分钟。支持最新LeRobot V3训练数据协议,通过“多episode合并分片”设计解决海量小文件加载瓶颈,数据供给速度提升超10倍。
2. AI原生应用低代码开发
提供对话式交互与拖拽配置功能,输入需求即可快速生成应用框架,内置100多个开箱即用前端模板和组件,覆盖需求分析、设计、开发、测试、部署及运维全软件开发生命周期,助力快速构建具备智能填单、智能分析等原生AI能力的应用。
3. 全链路优化与工具集成
集成50种开源模型和数据集、100余种算法工具链,支持用户基于自身数据构建专属大模型;后续将集成GR00T系列模型推理部署工具链,打造“训练—微调—部署”一体化具身智能开发生态。
4. 安全高效的资源与数据管理
依托云原生AI数据湖优化数据调度,搭配自研高性能并行文件系统云海JPFS,在1024卡集群上读取带宽超400GB/s;具备秒级扩缩容能力,结合全链路加密防护,保障数据安全与服务稳定。
二、技术原理
1. 全栈优化技术架构
从数据链路、模型计算、基础设施三大层面实现深度优化:数据链路层面重构预处理与加载流程,实现CPU数据处理与GPU计算异步执行;模型计算层面针对VLA模型,从Attention层优化、Token裁剪、训练后量化等多维度提升效率;基础设施层面搭建3.2T RDMA后端网络,通过多轨道优化、拓扑感知调度等保障千卡间通信高吞吐低延迟。
2. 关键技术支撑
引入变长Flash-Attention与Data Packing技术,训练提速188%;通过Token裁剪减少填充算力损耗,提速165%以上;采用训练后细粒度FP8量化,在保持精度前提下权重压缩超36%、提速140%以上;借助分布式元数据管理与智能预取技术,提升海量小文件高并发访问能力。
3. 协议与框架适配
深度适配LeRobot训练数据协议,支持从V2.1到V3版本一键升级,解决原生框架数据链路低效问题;基于开源LeRobot框架实现GR00T模型千卡分布式高效训练,打通算法、数据、算力协同链路。
三、应用场景
1. 具身智能研发领域
适用于机器人、自动驾驶、工业仿真等场景的具身智能模型训练,助力科研机构与企业快速推进GR00T等顶尖模型研发,加速技术从实验室到实际应用的转化。
2. 企业AI应用开发
覆盖金融、保险、电商、教育、法律、地产等多个行业,可快速开发客户反馈管理系统、智能数据分析平台、智能填单系统等,提升企业业务流程自动化水平。
3. 大规模AI算力调度
针对千卡级集群训练场景,提供稳定的算力调度与资源管理服务,适配极限业务场景下的模型训练需求,如电商大促期间的智能调度模型优化等。
4. 多模态数据处理
适用于包含图像、文本、连续动作信号等多模态数据的处理与训练场景,为视觉-语言-动作(VLA)模型开发提供全链路支持。
四、使用方法
1. 具身智能训练使用
第一步,配置训练环境,选择适配的LeRobot框架版本与GR00T模型参数;第二步,上传训练数据,通过平台一键升级数据协议至V3版本,开启数据预处理优化;第三步,设置训练节点数量、 batch大小、训练步数等超参数,启动千卡分布式训练;第四步,实时监控训练进度与效率,借助平台工具进行模型评估与优化;第五步,后续可对接推理部署工具链,完成模型落地。
2. 低代码应用开发使用
第一步,通过对话式交互输入应用需求,如“创建客户反馈管理系统”,获取自动生成的应用框架;第二步,基于内置模板与组件,通过拖拽方式调整应用界面与功能模块;第三步,集成所需AI能力,如智能分析、数据脱敏等;第四步,进行测试与调试,优化应用性能;第五步,一键部署上线,并依托平台进行运维管理。
3. 基础设置与优化
根据业务需求配置数据存储路径、算力资源配额、日志打印频率等参数;针对训练效率优化,可开启数据预取、Token裁剪、量化等功能;通过空间管理模块设置多用户权限,实现团队协作开发。
五、适用人群
1. 具身智能领域研究者
高校、科研机构中从事机器人智能、自动驾驶等具身智能方向的科研人员,可借助平台高效开展模型训练与技术攻关。
2. 企业产研人员
企业中的产品经理、开发工程师、数据分析师等,无需复杂编码能力即可开发AI原生应用,或进行模型训练与优化,提升研发效率。
3. AI技术服务商
为各行业提供AI解决方案的服务商,可依托平台快速构建定制化模型与应用,降低开发成本,提升交付效率。
4. 算力运维与管理人员
负责企业AI算力集群管理的运维人员,可通过平台实现算力的高效调度、资源监控与稳定保障,适配大规模训练需求。
六、优缺点介绍
1. 优点
训练效率突出,实现具身智能千卡级训练效率3.5倍提升,大幅缩短训练周期;支持低代码开发,降低AI应用开发门槛,内置丰富模板与组件,研发效率提升约40%;全栈优化架构稳定,具备高带宽数据供给、低延迟通信能力,保障长周期训练运行;适配最新行业协议与框架,技术领先性显著;覆盖多行业多场景,应用范围广泛,且具备全链路数据安全防护能力。
2. 缺点
插件支持数量有限,目前仅提供高德、音乐、stt等少数插件,难以满足复杂场景的定制化集成需求;知识库切片与检索方式不够丰富,个性化设置选项较少,部分场景下召回精准度有待提升;流程迁移、插件迁移等功能尚未完善,存在数据迁移不便的问题;针对小众模型与特殊行业场景的适配度不足,定制化开发成本较高。
AI原生应用开发平台、具身智能训练工具、低代码开发平台、AI算力调度平台、多模态数据处理工具
Phi-3 WebGPU是一款结合了Transformers.js和onnxruntime-web的AI模型,它利用WebGPU加速技术,提供超过20t/s的处理速度,并且所有数据处理在本地完成,确保用户隐私安全。尽管在中文回答上存在一些不足,但其在浏览器中提供的AI模型运行能力仍然值得关注。