OceanBase seekdb 是一款开源、轻量级、AI原生的混合搜索数据库,可在一个查询中融合向量、全文、标量与空间数据,实现毫秒级多模态搜索。
CCI 3.0 是智源研究院发布的 1000 GB 级、经多维清洗与高质量标注的中文超大规模互联网语料库,为中文大模型与 NLP 研究提供“燃料”。
首个专门针对多语言代码修复的基准数据集,旨在为代码修复研究提供高质量的数据支持,推动多语言编程环境下的代码修复技术发展。
GitHub 的官方模型上下文协议(MCP)服务器,它提供了与 GitHub API 的无缝集成,能够实现高级自动化和交互功能,帮助开发者和工具更高效地与 GitHub 生态系统进行交互。
基于PaddlePaddle框架的GPU资源,支持深度学习模型训练和部署,适合AI开发者快速上手。
科大讯飞发布的深度推理大模型,具备强大的深度思考和推理能力,尤其在中文数学领域表现卓越,广泛应用于教育、医疗等多个场景。
个提供丰富人体 3D 扫描模型资源的平台,为数字人赛道创业者等提供了宝贵的素材支持。
具备强大的预测能力,可处理长达2048个时间点的单变量时间序列,支持任意预测时间跨度。
一个全球最大的人工智能与机器学习社区平台,汇集了超过2100万机器学习爱好者,旨在分享、压力测试和及时了解最新的机器学习技术和技巧。用户可以发现社区发布的海量模型、数据和代码,为下一个项目提供资源。
谷歌云平台推出的第三代张量处理器,专为机器学习和高性能计算工作负载设计。
一个大规模、高质量的数据集,它包含了5.7万亿个优质tokens,旨在为大语言模型训练提供丰富的数据资源。
一个用于处理和分析大量文本数据的API服务。
Revisit-Anything 可以帮助用户高效地管理和回顾各种内容。它能够对文本、图像、代码等多种类型的文件进行分类和标记,方便用户快速找到所需内容。同时,该工具还支持搜索功能,用户可以通过关键词快速定位到特定的文件或信息。
一个用于评估 AI 模型多语言知识理解能力的基准测试集。
JEST是一种用于大规模预训练的数据筛选方法,通过联合选择数据批次来加速多模态学习。
Snail Radar Dataset 是一个大规模的4D雷达数据集,专为自动驾驶系统中的定位、建图和地点识别而设计。这个数据集通过三种不同的平台(手持设备、电动自行车和SUV)在多种环境条件下收集,包括晴朗天气、夜间和大雨天气。
武汉大学联合中国移动九天人工智能团队和昆山杜克大学基于YouTube数据开源了超过11万小时的音视频说话人识别数据集VoxBlink2,是目前最大的公开可用的音视频说话人识别数据集。该数据集丰富了开源语音语料库,支持训练声纹大模型。
OceanBase seekdb 是一款开源、轻量级、AI原生的混合搜索数据库,可在一个查询中融合向量、全文、标量与空间数据,实现毫秒级多模态搜索。