AI数据集 | 网址分类目录

Anthropic Agent Skills 是 Anthropic 推出的开源知识库，为 Claude 模型提供可动态加载的示范性技能与最佳实践，涵盖多领域实用技能集，支持开发者直接使用或按规范自定义技能，通过按需加载指令集降低 Token 消耗、提升特定任务处理效率。

OceanBase seekdb 是一款开源、轻量级、AI原生的混合搜索数据库，可在一个查询中融合向量、全文、标量与空间数据，实现毫秒级多模态搜索。

CCI 3.0 是智源研究院发布的 1000 GB 级、经多维清洗与高质量标注的中文超大规模互联网语料库，为中文大模型与 NLP 研究提供“燃料”。

首个专门针对多语言代码修复的基准数据集，旨在为代码修复研究提供高质量的数据支持，推动多语言编程环境下的代码修复技术发展。

GitHub 的官方模型上下文协议（MCP）服务器，它提供了与 GitHub API 的无缝集成，能够实现高级自动化和交互功能，帮助开发者和工具更高效地与 GitHub 生态系统进行交互。

科大讯飞发布的深度推理大模型，具备强大的深度思考和推理能力，尤其在中文数学领域表现卓越，广泛应用于教育、医疗等多个场景。

一个全球最大的人工智能与机器学习社区平台，汇集了超过2100万机器学习爱好者，旨在分享、压力测试和及时了解最新的机器学习技术和技巧。用户可以发现社区发布的海量模型、数据和代码，为下一个项目提供资源。

Revisit-Anything 可以帮助用户高效地管理和回顾各种内容。它能够对文本、图像、代码等多种类型的文件进行分类和标记，方便用户快速找到所需内容。同时，该工具还支持搜索功能，用户可以通过关键词快速定位到特定的文件或信息。

Snail Radar Dataset 是一个大规模的4D雷达数据集，专为自动驾驶系统中的定位、建图和地点识别而设计。这个数据集通过三种不同的平台（手持设备、电动自行车和SUV）在多种环境条件下收集，包括晴朗天气、夜间和大雨天气。

武汉大学联合中国移动九天人工智能团队和昆山杜克大学基于YouTube数据开源了超过11万小时的音视频说话人识别数据集VoxBlink2，是目前最大的公开可用的音视频说话人识别数据集。该数据集丰富了开源语音语料库，支持训练声纹大模型。