AI大模型 | 网址分类目录 | AI工具箱

AI大模型

EasyControl_Ghibli：一键生成吉卜力风格图像的AI工具

专注于生成吉卜力风格的图像，用户可以通过简单的操作将普通图像转换为具有吉卜力动画特色的艺术作品。

ElevenLabs Text to Bark：全球首款为狗狗设计的AI语音合成工具

全球首款专为狗狗设计的文本转语音（TTS）模型，通过模仿狗狗的叫声，为宠物主人提供与爱宠“对话”的全新体验。

MiniMax Audio API：开启智能语音合成新时代

前沿的文本转语音工具，凭借其强大的语音合成能力和丰富的应用场景，正在改变人们与声音交互的方式。

ComfyUI-Copilot：为 ComfyUI 提供智能辅助的定制节点

基于 ComfyUI 框架开发的 AI 驱动的定制节点工具，旨在通过自然语言交互简化和增强 AI 算法调试与部署流程，为用户提供智能的节点推荐、工作流构建辅助和模型查询服务。

AccVideo：高效视频生成与加速的创新工具

视频生成技术，通过高效的蒸馏方法和合成数据集，显著提升了视频扩散模型的生成速度，同时保持了高质量的视频输出。

YuE：开源AI音乐生成模型，将歌词转化为完整歌曲

香港科技大学与Multimodal Art Projection（多模态艺术投影）团队联合开发的开源AI音乐生成模型，能够将歌词转化为完整的歌曲，支持多种音乐风格和语言。

Gemini2.5Pro：谷歌最先进的人工智能模型

谷歌推出的一款具备卓越推理能力和代码能力的人工智能模型，能够处理复杂问题并生成高质量的文本、代码和多模态内容。

通义千问QVQ-Max：新一代视觉推理模型

阿里通义千问团队推出的新一代视觉推理模型，能够“看懂”图片和视频内容，并结合信息进行分析、推理和解决问题。

Qwen2.5-Omni：全方位多模态旗舰模型

阿里开源的Qwen系列旗舰级端到端多模态大模型，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。

DeepSeek-V3-0324：高效推理与多领域应用的开源大模型

DeepSeek 团队发布的高性能开源大模型，具有强大的编程能力、数学推理能力以及高效的推理效率，广泛适用于多种应用场景。

Gemini 2.0 Flash：谷歌新一代多模态 AI 模型

新一代多模态 AI 模型，具备强大的文本、图像生成能力以及高效的交互性能，能够为内容创作、设计、开发等多个领域提供强大的技术支持。

阿里通义实验室LHM技术：单图像可动画化三维人体重建模型

从单张图像重建可动画化三维人体的技术，能够快速生成高保真度的三维人体模型，并在秒级时间内生成具有精细纹理和姿态的虚拟角色。

国家超算互联网中心

集高性能计算服务与 AI 服务于一体的综合性平台，旨在通过构建一体化的超算算力网络和服务体系，满足国家重大科技项目、重点工程以及经济社会发展的高性能计算需求。

字节推文生图框架 InfiniteYou：个性化图像生成新体验

一款创新的图像生成工具，能够根据用户的文字描述生成高质量的个性化图像，并且在更换场景和内容时精准保留用户的身份特征。

OpenAI.fm：探索文本到语音的新境界

为开发者提供的交互式演示平台，用于体验 OpenAI API 中的新型文本到语音模型，助力开发者快速构建相关应用。

NVIDIA DGX Spark：高效AI开发与部署平台

一款基于NVIDIA GB10 Grace Blackwell Superchip的高性能AI计算平台，专为开发、微调和部署大规模AI模型而设计，提供强大的计算能力和灵活的部署选项。

昆仑万维Skywork R1V：全球首个开源多模态推理模型

全球首个开源的工业界多模态推理模型，具备强大的视觉链式推理能力，能够高效处理复杂的视觉和文本任务。

Mistral Small 3.1：轻量级高性能的多模态语言模型

由 Mistral AI 开发的高性能语言模型，具备卓越的文本处理能力、多模态理解能力以及扩展至 128k tokens 的上下文窗口，适用于多种生成式 AI 任务，广泛应用于企业级和消费级场景。

Chirp3：谷歌云高清语音模型，支持248种声音

谷歌推出的新一代文本转语音工具，基于先进的LLM模型，能够生成逼真且富有情感的语音，广泛应用于多种场景，为用户提供高质量的语音合成解决方案。

腾讯混元Hunyuan3D 2.0：高分辨率 3D 资产生成工具

一款用于生成高分辨率纹理化 3D 资产的大型 3D 合成系统，能够高效地创建高质量的 3D 模型和纹理。

Cangjie Magic：为应用赋予智能与创造力的工具

一个基于 Cangjie 平台开发的工具，旨在通过集成大语言模型和其他智能技术，为应用程序开发提供强大的智能支持和创造力增强功能。

VideoPainter：视频局部编辑技术

香港中文大学、腾讯ARC Lab、东京大学和澳门大学等机构联合推出的开源视频修复和编辑工具，能够通过文字指令实现对任意长度视频的高效修复和编辑。

MIDI：从单张图像到3D场景生成的多实例扩散模型

能够从单张图像生成高保真3D场景，通过捕捉物体间的交互关系和空间一致性，实现高效且高质量的3D场景生成。

谷歌Gemini Robotics：先进机器人控制模型

基于Gemini 2.0技术的先进机器人控制模型，旨在通过强大的视觉-语言-动作（VLA）能力，让机器人能够高效地完成复杂的现实世界任务。

阿里通义VACE：视频生成与编辑的全能工具

阿里巴巴通义实验室推出的全能型视频生成与编辑框架，集多种功能于一体，能够高效完成复杂的视频创作和编辑任务。

潞晨科技Open-Sora：高效视频生成的开源平台

高效生成高质量视频的开源项目，旨在通过开源原则，让视频生成技术更加普及化，为内容创作者提供简化复杂流程的平台。

SiliconFlow 硅基流动平台：一站式生成式AI云服务平台

专注于生成式人工智能（GenAI）领域的计算基础设施平台，提供多种大模型的高效部署和推理服务，旨在通过技术创新降低大模型的使用成本，加速AI技术的普及。

AppAgentX：会自我进化的智能体，让AI像人一样操作手机

一款具备自我进化能力的GUI代理工具，旨在通过智能体自主学习和进化机制，高效地操作智能手机应用。

火山引擎大模型应用实验室：加速AI应用落地的开源平台

开源的AI应用开发平台，旨在通过开放核心应用和技术资源，帮助开发者、企业和研究人员探索大模型在多种场景下的应用潜力。

MiniMax Image-01：高效且低成本的文本到图像生成模型

MiniMax推出的全新文本到图像生成模型，旨在通过高效的图像生成能力和极低的使用成本，帮助用户快速将文本描述转化为高质量的图像。

V-JEPA：Meta的创新视觉模型，开启视频自监督学习新时代

Meta推出的一种新型视频自监督学习模型，能够通过观看视频自主学习物理世界的视觉表示，无需外部标注数据。

科大讯飞星火X1：深度推理大模型引领智能应用新突破

科大讯飞发布的深度推理大模型，具备强大的深度思考和推理能力，尤其在中文数学领域表现卓越，广泛应用于教育、医疗等多个场景。

B站推出的IndexTTS：工业级可控高效的零样本文本到语音系统

可控高效零样本文本到语音（TTS）系统，基于XTTS和Tortoise开发，能够纠正中文发音并控制停顿，同时在音质和说话者相似度方面表现出色。

DeepEP：专为混合专家模型设计的高效通信库

DeepSeek 开源的一款高性能通信库，专为混合专家模型（MoE）和专家并行（EP）设计，提供高吞吐量和低延迟的通信解决方案，显著提升大规模分布式训练和推理的效率。

Claude 3.5 Sonnet：强大的多模态人工智能模型

Anthropic 开发的一款先进的人工智能模型，具备强大的自然语言处理、代码生成、视觉数据处理和计算机操作能力，广泛应用于多种复杂任务和场景。

1 … 6 7 8 9 10 … 15