AI大模型 | 网址分类目录 | AI工具箱

AI大模型

DreamActor-H1：高保真人与产品演示视频生成框架

DreamActor-H1 是字节跳动推出的一款基于扩散变换器（Diffusion Transformer, DiT）的框架，能够从配对的人类和产品图像生成高质量的人类产品演示视频。

当贝AI：智能大模型服务的聚合平台

当贝AI是一个聚合全网优质大模型的平台，提供极速、免费、不限量的大模型服务，支持多种模型并为用户提供定制化的推广策略和方案策划。

EmbodiedGen：生成式3D世界引擎

EmbodiedGen是一个用于生成具有真实世界规模和物理真实感的交互式3D世界的工具，能够以较低成本生成多样化的3D资产，助力具身智能相关研究的泛化能力提升。

Kimi-Researcher：深度研究的智能助手

Kimi-Researcher 是月之暗面旗下的 Kimi 推出的基于端到端自主强化学习技术训练的新一代 Agent 模型，专为深度研究任务而设计。

华为CloudRobo具身智能平台：开启智能机器人新时代

CloudRobo具身智能平台是华为云在2025年6月20日的华为开发者大会2025上发布的创新平台，旨在通过强大的多模态能力和思维能力，为机器人提供智能决策支持，加速具身智能的创新。

快手OneRec：开启端到端生成式推荐新时代

OneRec是快手推出的一款端到端生成式推荐系统，通过大模型技术重构传统推荐架构，实现了效果与成本的双重突破。

腾讯 AI Lab 开源音乐生成大模型 SongGeneration

SongGeneration 是腾讯 AI Lab 推出的开源音乐生成大模型，旨在解决音乐生成领域中的音质、音乐性与生成速度等关键问题，同时支持文本控制、多轨合成与风格跟随等功能。

The OpenAI Files 网站

新网站 ‘The OpenAI Files’ 上线，汇集 OpenAI 内部文件及批评，引发公众对其是否偏离非营利目标的讨论，同时聚焦AI开发的透明度、安全性和监管。

谷歌 Gemini 2.5 Flash-Lite：高效轻量级推理模型

谷歌 Gemini 2.5 Flash-Lite 是一款高效、低成本的轻量级推理模型，专为需要低延迟和高吞吐量的任务设计，适合大规模分类、总结等应用场景。

Office-PowerPoint-MCP-Server：高效管理 PPT 的智能工具

基于 Model Context Protocol（MCP）的服务器工具，使用 python-pptx 操作 PowerPoint 演示文稿，支持通过 MCP 协议创建、编辑和操作 PowerPoint 文件。

Ming-Omni：多模态统一模型

Ming-Omni是一款由蚂蚁集团和Inclusion AI联合推出的多模态模型，具备图像、文本、音频及视频处理能力，支持语音与图像生成、多模态输入融合处理，并开放源代码以促进研究与发展。

Meta V-JEPA2模型：开启视频理解与机器人控制新纪元

V-JEPA2是由Meta推出的一款基于视频数据训练的世界模型，能够实现对物理世界的理解、预测和规划，并支持零样本机器人控制。

阿里MNN TaoAvatar：手机上的3D数字人“魔法棒”

MNN TaoAvatar是阿里巴巴基于其开源的轻量级深度学习推理框架MNN开发的3D数字人技术，支持真3D虚拟角色的实时生成与驱动，能够在手机等移动设备上以高达90FPS的帧率运行，带来流畅的交互体验。

MaskGCT：零样本语音合成的创新突破

趣丸科技与香港中文大学（深圳）联合研发的开源文本转语音（TTS）模型，能够实现零样本语音合成，无需显式对齐信息和音素级时长预测，支持多种语言和情感控制。

阿里通义实验室开源预训练框架MaskSearch

阿里通义实验室开源的全新预训练框架，能够让AI学会“主动搜索+多步推理”，从而更准确、更智能地回答复杂问题。

OpenAI o3-pro：深度思考与可靠性的新高度

OpenAI o3-pro 是一款强大的推理模型，专为解决复杂问题而设计，尤其在科学、教育、编程等需要深度思考的领域表现出色。

豆包大模型1.6：高效多模态AI模型，助力企业降本增效

豆包大模型1.6是由字节跳动旗下火山引擎发布的一款强大的AI模型，具备深度思考、多模态理解和图形界面操作等能力，能够为企业提供高效、低成本的AI解决方案。

通义千问3大模型：开启AI应用新时代

阿里云推出的一系列高性能AI模型，涵盖多种参数规模和功能特点，广泛应用于文本生成、代码辅助、多语言交互等多个领域，为开发者和企业提供了强大的AI支持。

Fish Audio S1-Mini：轻量化文本转语音模型

开源的轻量化文本转语音（TTS）模型，基于 S1 模型开发，参数规模为 5 亿，支持 14 种语言和 50+ 情感语气控制。

BAAI智源研究院官网：人工智能领域的创新先锋

BAAI智源研究院是致力于人工智能前沿技术研究与创新的科研机构，推动人工智能技术的发展与应用，培养顶尖人才，促进学术交流与合作。

SeedEdit：字节跳动的高质高效通用图像编辑模型

字节跳动豆包大模型团队推出的一款通用图像编辑模型，用户仅需输入简单的自然语言指令，就能实现专业级的图像编辑效果。

Qwen3-Embedding：文本嵌入与检索的新标杆

阿里巴巴通义实验室开源的一款文本嵌入模型，能够将文本转换为高维向量，精准捕捉语义信息，广泛应用于文本检索、排序等场景。

涂鸦智能：一站式AIoT快速解决方案

一家全球领先的物联网平台，其提供的Tuya.AI工具，集成了AI和IoT的核心能力，是面向智能硬件领域的一站式AIoT快速解决方案。

DeepSeek API：开启智能交互新纪元

基于 RESTful 架构的应用程序接口，允许开发者通过 HTTP 请求与 DeepSeek 的大型语言模型进行交互，为各种应用提供强大的人工智能支持。

DeepSeek-R1-0528模型：深度语义检索的利器

基于深度学习技术的语义检索模型，能够精准地理解和匹配文本之间的语义相似度，为用户提供高效准确的检索结果。

天工AI全球官网

集搜索、写作、对话、文档分析、图片生成、PPT制作等多功能于一体的全能型人工智能助手，能够为用户提供高效、便捷的智能服务。

天工MCP：Skywork Super Agents，智能办公工具的高效集成

轻量级的多功能办公工具，通过人工智能技术生成多种文件类型，包括文档、演示文稿、电子表格等，旨在提高办公效率和创造力。

天工开源架构DeepResearchAgent：高效多智能体系统助力复杂任务自动化解决

分层多智能体系统，专为深度研究任务和通用任务解决而设计，通过顶层规划智能体协调多个专业底层智能体，实现任务的自动分解和高效执行。

AlphaEvolve：谷歌DeepMind的AI算法进化工具

谷歌DeepMind开发的AI编程智能体，通过结合大型语言模型的创造力和自动评估器，进化和优化通用算法，广泛应用于数学、计算机科学及硬件设计等领域。

BAGEL：多模态理解与生成的统一模型

字节跳动开源的一个多模态基础模型，拥有70亿活跃参数（总计140亿），在大规模交错多模态数据上进行训练，其在多模态理解排行榜上超越了当前顶级开源视觉语言模型，如Qwen2.5-VL和InternVL-2.5，并且在文本到图像生成质量上与强大的专业生成器如SD3相当。

ChatTS：基于合成数据的多模态大语言模型助力时间序列理解与推理

新型的多模态大语言模型（MLLM），专为时间序列分析而设计，通过合成数据训练，能够显著提升对时间序列的理解和推理能力。

MMaDA：开源多模态大型扩散语言模型

开源的多模态大型扩散语言模型，旨在通过统一的扩散架构和先进的训练策略，在文本生成、多模态理解和图像生成等领域实现卓越性能。

SynthID Detector：AI生成内容检测利器

谷歌推出的一款用于检测AI生成内容的工具，能够通过识别嵌入在多媒体文件中的隐形数字水印，判断内容是否由AI生成。

PaddleOCR：基于 PaddlePaddle 的强大多语言 OCR 工具

百度开源的基于 PaddlePaddle 框架的多语言 OCR（光学字符识别）工具，它支持 80 多种语言的识别，提供数据标注和合成工具，并支持在服务器、移动设备、嵌入式设备和物联网设备上的训练和部署。

MathModelAgent：数学建模竞赛的自动化智能体系统

一款专为数学建模竞赛设计的自动化智能体系统，能够将原本需要 3 天的建模过程压缩至 1 小时，直接输出符合学术规范的完整论文。

Wan2.1：开源先进的大规模视频生成模型

Wan2.1 是一个开源的、先进的大规模视频生成模型套件，能够在多种视频生成任务中提供卓越的性能和效果。

Hugging Face Model Context Protocol (MCP) 课程：开启 AI 上下文模型协议之旅

一个免费的在线课程，旨在帮助初学者深入了解、使用并构建基于 MCP 的 AI 应用程序。

DeepL Translate and Write Pro API：打造多语言体验的强大工具

一款为企业和开发者提供的高质量、可定制且安全的机器翻译API，能够帮助用户构建多语言的产品和应用。

Flow-GRPO：基于在线强化学习训练流匹配模型的官方实现

Flow-GRPO 是一种通过在线强化学习训练流匹配模型的工具，能够显著提升图像生成质量和模型性能。

AgentCPM-GUI：智能操作安卓应用的GUI代理工具

清华大学自然语言处理实验室（THUNLP）和ModelBest联合开发的开源设备端GUI代理工具，能够操作中文和英文安卓应用，并通过强化微调提升推理能力，高效执行任务。

Seed1.5-VL：字节跳动推出的视觉语言基础模型

字节跳动推出的视觉语言基础模型，旨在推进通用多模态理解和推理能力，并在多个公共基准测试中取得了优异的成绩。

KuaiMod：快手生态治理基准工具

快手平台提供并完全人工标注的首个针对 SVP 生态治理的基准工具，旨在为相关研究和应用提供标准化的数据支持。

ZeroSearch：无需真实搜索引擎的强化学习框架

创新的强化学习框架，通过利用大型语言模型（LLM）模拟搜索引擎，从而无需依赖真实的搜索引擎即可实现高效的搜索与优化。

TencentARC：腾讯 PCG 的人工智能与机器学习实验室

腾讯 PCG 的人工智能与机器学习实验室，专注于计算机视觉、语音和自然语言处理等领域，致力于在语音/视频生成、增强、检索、理解以及 AutoML 等技术上进行探索、创新和突破。

Excel MCP Server：无需安装 Excel 即可操作 Excel 文件的服务器工具

能够让您在无需安装 Microsoft Excel 的情况下，通过 AI 代理对 Excel 文件进行创建、读取、修改、格式化、生成图表和透视表等操作。

CameraBench：视频中相机运动理解的基准工具

理解和评估视频中相机运动的基准工具，旨在通过结合几何和语义信息，提升对视频中相机运动的理解和分析能力。

1 … 4 5 6 7 8 … 15