在人工智能领域,成本效益始终是推动技术普及的关键因素。今天,OpenAI 宣布推出其最新小型模型——GPT-4o mini,这标志着智能技术在成本效益方面迈出了重要一步。
一、GPT-4o mini 简介
OpenAI 致力于让智能技术尽可能广泛地普及。GPT-4o mini 是其最新推出的成本效益极高的小型模型,预计将显著扩展 AI 应用的范围。该模型在 MMLU(多语言理解)测试中得分为 82%,并且在 LMSYS 排行榜中超越了 GPT-41,成为聊天偏好的首选。GPT-4o mini 的定价为每百万输入令牌 15 美分,每百万输出令牌 60 美分,比之前的前沿模型更具成本效益,比 GPT-3.5 Turbo 便宜超过 60%。
二、主要功能
多任务处理:GPT-4o mini 支持低成本和低延迟的多任务处理,如链式或并行调用多个模型(例如调用多个 API)、传递大量上下文给模型(例如完整代码库或对话历史)或通过快速、实时的文本响应与客户互动(例如客户支持聊天机器人)。
文本和视觉支持:目前支持文本和视觉输入输出,未来将扩展到图像、视频和音频。
上下文窗口:具有 128K 令牌的上下文窗口,支持每次请求最多 16K 输出令牌,并拥有截至 2023 年 10 月的知识。
GPT-4o mini:https://www.ai630.com/sites/2235.html
三、性能评估
GPT-4o mini 在多个关键基准测试中表现优异:
推理任务:在涉及文本和视觉的推理任务中,GPT-4o mini 在 MMLU 测试中得分为 82.0%,优于 Gemini Flash 的 77.9% 和 Claude Haiku 的 73.8%。
数学和编码能力:在 MGSM(数学推理)测试中,GPT-4o mini 得分为 87.0%,优于 Gemini Flash 的 75.5% 和 Claude Haiku 的 71.7%。在 HumanEval(编码性能)测试中,GPT-4o mini 得分为 87.2%,优于 Gemini Flash 的 71.5% 和 Claude Haiku 的 75.9%。
多模态推理:在 MMMU(多模态推理评估)中,GPT-4o mini 得分为 59.4%,优于 Gemini Flash 的 56.1% 和 Claude Haiku 的 50.2%。
四、安全性
GPT-4o mini 从一开始就内置了安全措施,并在开发过程中不断加强。在预训练阶段,过滤掉不希望模型学习或输出的信息,如仇恨言论、成人内容、主要聚合个人信息的网站和垃圾邮件。在后训练阶段,使用强化学习与人类反馈(RLHF)等技术,使模型行为与政策保持一致,提高模型响应的准确性和可靠性。
五、可用性和定价
GPT-4o mini 现已作为文本和视觉模型在 Assistants API、Chat Completions API 和 Batch API 中提供。开发者需支付每百万输入令牌 15 美分,每百万输出令牌 60 美分的费用。OpenAI 计划在未来几天推出 GPT-4o mini 的微调功能。
六、未来展望
过去几年,我们见证了 AI 智能的显著进步和成本的大幅降低。例如,GPT-4o mini 的每令牌成本自 2022 年推出的 text-davinci-003 模型以来下降了 99%。OpenAI 致力于继续降低成本,同时提升模型能力。我们设想的未来是模型无缝集成到每个应用程序和每个网站中。GPT-4o mini 正在为开发者更高效、更经济地构建和扩展强大的 AI 应用铺平道路。
结语
随着 GPT-4o mini 的推出,OpenAI 再次证明了其在推动 AI 技术普及和进步方面的领导地位。我们期待 GPT-4o mini 将如何进一步改变我们的数字体验,并为 AI 的未来铺平道路。