AI大模型 | 网址分类目录 | AI工具箱

AI大模型

Anthropic：新一代人工智能平台

一家专注于开发先进人工智能技术的公司，其核心产品包括 Claude 系列模型和相关工具，旨在通过强大的自然语言处理和推理能力，为企业和个人提供高效、智能的解决方案。

美亚鉴真平台：守护数字内容真实性的利器

一款由国投智能全资子公司美亚柏科研发的AI内容检测工具，能够快速识别AI合成的图像、视频和文本等虚假信息，帮助用户辨别信息的真实性。

Step-Video-T2V：开源的高参数文本到视频生成模型

一款由阶跃星辰团队开发的开源文本到视频生成模型，拥有 300 亿参数，能够根据文本提示生成长达 204 帧的高质量视频，支持中英双语输入，并通过深度压缩技术和直接偏好优化提升生成效果。

字节跳动 Phantom：主体一致视频生成框架

视频生成框架，通过跨模态对齐技术结合文本和图像提示，从参考图像中提取主体元素并生成与文本描述一致的视频内容。

Magma：多模态AI代理的基础模型

微软推出的一款多模态AI代理基础模型，能够理解和执行多模态输入任务，涵盖从UI导航到机器人操作等多种复杂场景。

Magic1-For-1模型：高效生成高质量视频的AI工具

北京大学、Hedra Inc.和Nvidia联合推出的一款高效视频生成模型，能够在短时间内生成高质量的视频片段。

Step-Audio：阶跃开源的130B语音模型

一款强大的开源语音交互模型，能够实现语音识别、对话生成、情感克隆和多语言支持，为用户提供高质量的实时语音交互体验。

SkyReels-V1：昆仑万维开源AI短剧创作视频生成模型

昆仑万维开源的中国首个面向AI短剧创作的视频生成模型，能够实现影视级人物微表情表演生成和高质量视频创作。

Light-A-Video：无需训练实现视频重新打光

一款无需训练即可实现视频重光照的工具，通过渐进光融合技术，能够快速生成高质量且光照一致的视频。

阿里巴巴Animate Anyone2：高保真角色动画生成技术

能够实现视频中人物的精准替换和动作表情的无缝迁移，为创意设计和影视制作提供强大的技术支持。

快手CineMaster：开启3D感知视频创作新时代

它允许用户通过多种控制信号精确控制生成视频中物体的位置和相机运动，带来前所未有的创作自由度。

Google DeepMind：探索人工智能的前沿技术

谷歌旗下的一家专注于人工智能研究的公司，致力于开发先进的机器学习算法和模型，推动人工智能技术的发展。

InspireMusic：阿里通义实验室开源的音乐生成技术

一款基于PyTorch的音乐生成工具包，支持高音质音乐、歌曲和音频生成，能够通过文本提示、音乐风格和结构等进行可控生成。

Zonos-TTS：高保真多语言文本到语音模型

一款高保真多语言文本到语音（TTS）模型，支持实时语音克隆和多语言情感控制，能够生成自然、富有表现力的语音。

ChatGPT-4.5：下一代人工智能的飞跃

OpenAI开发的最新一代人工智能语言模型，它在处理速度、多模态交互、对话管理等方面实现了显著提升，广泛应用于教育、创意写作、编程辅助等多个领域。

Brain2Qwerty：Meta AI 推出的脑机接口模型

Meta AI 推出的一款非侵入性脑机接口（BCI）模型，能够通过脑电图（EEG）或脑磁图（MEG）信号解码打字内容。

字节豆包 VideoWorld：自回归视频生成模型

一款自回归视频生成模型，能够通过未标注的视频数据学习知识，并在围棋和机器人控制等任务中表现出色。

谷歌 Genie 2：大规模基础世界模型

DeepMind开发的一种大规模基础世界模型，旨在通过模拟真实世界环境来训练智能体，使其能够更好地理解和适应复杂多变的现实场景。

DeepSeek Janus-Pro-7B：多模态AI图像生成与理解工具

一款开源的多模态AI模型，专注于图像生成与多模态理解任务，性能超越DALL-E 3和Stable Diffusion，适用于创意设计、教育、企业隐私保护等多种场景。

AIOpsLab：自动化运维智能代理开发与评估框架

微软开发的开源框架，旨在设计、开发和评估自主AIOps智能代理，并构建可复现、标准化、互操作性强且可扩展的基准测试环境。

网易有道子曰-o1推理模型：开启教育推理新时代

国内首个输出分步式讲解的推理模型，专为教育场景设计，能够通过思维链技术模拟人类思考过程，帮助学生更好地理解和掌握知识。

豆包大模型1.5系列

字节跳动推出的最新人工智能模型，具备强大的多模态能力、高效的推理性能和独立的数据生产体系，综合能力在多个评测基准上领先。

Textoon：漫画AI，基于文本生成角色图像的AI工具

支持中英文提示词的AI角色生成工具，能够根据用户输入的描述生成具有独特外观和风格的角色图像。

SenseNova 5.0：商汤科技推出的行业领先“云到边缘”全栈式大模型产品矩阵

商汤科技最新推出的第五代大模型，具备强大的语言、创造力、科学计算和多模态交互能力，并通过“云到边缘”的全栈式架构，广泛应用于金融、教育、交通等多个领域。

Epoch AI：深度洞察人工智能发展趋势的独立研究机构

Epoch AI 是一个专注于人工智能和机器学习趋势研究的独立机构，通过严谨的分析和数据驱动的方法，为政策制定者、研究人员和行业从业者提供关于 AI 发展轨迹和社会影响的深度洞察。

讯飞星火4.0 Turbo：全面升级的人工智能大模型

科大讯飞推出的人工智能大模型，全面升级了文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力，特别在数学和代码能力方面超越了GPT-4o。

Valley2：阿里巴巴达摩院电商场景多模态大模型

一款专为电商场景设计的多模态大型语言模型，旨在通过可扩展的视觉-语言架构提升各领域性能并拓展电商与短视频场景的应用边界。

Kimi多模态图片理解模型 API

全新多模态图片理解模型moonshot-v1-vision-preview，该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力，旨在帮助Kimi更好地理解世界。该Vision模型具备卓越的图像识别能力，能够识别复杂细节并区分相似对象，表现出色，尤其在OCR文字识别和图像理解方面，超越传统软件的准确性。

Kaggle：您的机器学习和数据科学社区

一个全球最大的人工智能与机器学习社区平台，汇集了超过2100万机器学习爱好者，旨在分享、压力测试和及时了解最新的机器学习技术和技巧。用户可以发现社区发布的海量模型、数据和代码，为下一个项目提供资源。

TANGOFLUX：超快忠实的文本到音频生成工具

TANGOFLUX是一个高效的文本到音频（TTA）生成模型，拥有515M参数，能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。

VMix：提升文本到图像扩散模型的美学质量

VMix 是一个用于提升文本到图像扩散模型美学质量的插件式美学适配器。它通过在图像生成过程中引入美学控制，增强了生成图像的美学表现，同时保持了图像与文本的对齐。

1 … 7 8 9 10 11 … 15