多模态大模型 | 网址分类目录 | AI工具箱

多模态大模型

谷歌Gemini Robotics：先进机器人控制模型

基于Gemini 2.0技术的先进机器人控制模型，旨在通过强大的视觉-语言-动作（VLA）能力，让机器人能够高效地完成复杂的现实世界任务。

AppAgentX：会自我进化的智能体，让AI像人一样操作手机

一款具备自我进化能力的GUI代理工具，旨在通过智能体自主学习和进化机制，高效地操作智能手机应用。

科大讯飞星火X1：深度推理大模型引领智能应用新突破

科大讯飞发布的深度推理大模型，具备强大的深度思考和推理能力，尤其在中文数学领域表现卓越，广泛应用于教育、医疗等多个场景。

DeepEP：专为混合专家模型设计的高效通信库

DeepSeek 开源的一款高性能通信库，专为混合专家模型（MoE）和专家并行（EP）设计，提供高吞吐量和低延迟的通信解决方案，显著提升大规模分布式训练和推理的效率。

Claude 3.5 Sonnet：强大的多模态人工智能模型

Anthropic 开发的一款先进的人工智能模型，具备强大的自然语言处理、代码生成、视觉数据处理和计算机操作能力，广泛应用于多种复杂任务和场景。

Anthropic：新一代人工智能平台

一家专注于开发先进人工智能技术的公司，其核心产品包括 Claude 系列模型和相关工具，旨在通过强大的自然语言处理和推理能力，为企业和个人提供高效、智能的解决方案。

Magma：多模态AI代理的基础模型

微软推出的一款多模态AI代理基础模型，能够理解和执行多模态输入任务，涵盖从UI导航到机器人操作等多种复杂场景。

Google DeepMind：探索人工智能的前沿技术

谷歌旗下的一家专注于人工智能研究的公司，致力于开发先进的机器学习算法和模型，推动人工智能技术的发展。

ChatGPT-4.5：下一代人工智能的飞跃

OpenAI开发的最新一代人工智能语言模型，它在处理速度、多模态交互、对话管理等方面实现了显著提升，广泛应用于教育、创意写作、编程辅助等多个领域。

豆包大模型1.5系列

字节跳动推出的最新人工智能模型，具备强大的多模态能力、高效的推理性能和独立的数据生产体系，综合能力在多个评测基准上领先。

SenseNova 5.0：商汤科技推出的行业领先“云到边缘”全栈式大模型产品矩阵

商汤科技最新推出的第五代大模型，具备强大的语言、创造力、科学计算和多模态交互能力，并通过“云到边缘”的全栈式架构，广泛应用于金融、教育、交通等多个领域。

Epoch AI：深度洞察人工智能发展趋势的独立研究机构

Epoch AI 是一个专注于人工智能和机器学习趋势研究的独立机构，通过严谨的分析和数据驱动的方法，为政策制定者、研究人员和行业从业者提供关于 AI 发展轨迹和社会影响的深度洞察。

讯飞星火4.0 Turbo：全面升级的人工智能大模型

科大讯飞推出的人工智能大模型，全面升级了文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力，特别在数学和代码能力方面超越了GPT-4o。

Valley2：阿里巴巴达摩院电商场景多模态大模型

一款专为电商场景设计的多模态大型语言模型，旨在通过可扩展的视觉-语言架构提升各领域性能并拓展电商与短视频场景的应用边界。

Twelve Labs 多模态AI视频理解平台

一个多模态人工智能平台，它能够像人类一样理解视频内容，帮助用户在任何应用中实现视频内容的深度分析和利用。

天工大模型4.0 o1版（Skywork o1）

昆仑万维推出的国内首款具备中文逻辑推理能力的大模型，旨在提升模型的深度思考和复杂推理能力，是追求人工通用智能（AGI）的重要一步。

Fireworks f1：复合AI系统在复杂推理领域的突破

一款专门用于复杂推理的复合AI模型，它通过在推理层交织多个开放模型，实现了与许多封闭前沿模型相匹配甚至超越的推理能力。

Meta MobileLLM 模型

Meta MobileLLM是Meta（前Facebook）推出的专为移动设备设计和优化的大型语言模型，旨在解决云计算成本上升和延迟问题，使其非常适合在资源受限的设备上运行。

Llama-3.1-Nemotron-70B-Instruct-HF：NVIDIA推出的大型语言模型

NVIDIA推出的一款大型语言模型，它基于70亿参数的Nematron模型，经过特定指令训练，以提高其在自然语言处理任务中的性能和准确性。

零一万物 Yi-Lightning

Yi-Lightning是零一万物公司最新发布的高性能AI模型，以其卓越的推理速度和生成质量在国际权威盲测榜单LMSYS上取得世界第六、中国第一的排名。

百度智能云一见视觉大模型平台

一款基于百度领先的视觉大模型核心技术和丰富的场景化算法方案，致力于帮助企业和行业伙伴零门槛、低成本建设专业级视觉AI应用的平台。

中国移动九天人工智能平台

九天人工智能平台提供人工智能算力、算法、数据，汇聚优秀AI能力，打造从智算基础设施、核心算法能力到智能化应用的全栈人工智能服务，全面支持自智网络等多样化运营商智慧运营需求，为工业、医疗、政务、教育、金融等行业客户构建创新解决方案。

智谱AI是一个基于GLM预训练框架的双语对话模型，它通过多阶段增强预训练方法优化了中文问答和对话能力，并结合量化技术，实现了在消费级显卡上的本地部署。

Qwen2-VL是一个基于自然语言处理（NLP）技术的语音到文本（Voice-to-Text）和文本到语音（Text-to-Speech, TTS）转换工具，旨在提供高质量的语音转换服务。

书生·浦语 InternLM2.5

书生·浦语是一个致力于大模型研究与开发工具链的开源组织，为AI开发者提供高效、易用的开源平台，加速大模型与算法技术的普及与应用。

GitHub Models

GitHub Models提供了一个交互式的模型游乐场，用户可以在这里测试不同的提示和模型参数，无需支付费用。此外，GitHub Models与Codespaces和VS Code集成，允许开发者在开发环境中无缝使用这些模型，并通过Azure AI实现生产部署，提供企业级安全和数据隐私保护。

1 2 3 4 5 6