一、引言
2025年4月15日,OpenAI宣布推出GPT-4.1系列模型,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这一系列模型在编码、指令遵循和长文本处理等方面取得了显著进步,标志着人工智能技术的又一次重大突破。
二、技术亮点
(一)编码能力大幅提升
GPT-4.1在SWE-bench Verified基准测试中得分达到54.6%,相比GPT-4o提高了21.4个百分点,超越了GPT-4.5。它在解决编码任务、前端开发、遵循代码差异格式等方面表现出色,能够生成更高效、更准确的代码。例如,在Aider的多语言代码差异基准测试中,GPT-4.1的得分比GPT-4o高出34.7个百分点,甚至超过了GPT-4.5。
(二)指令遵循能力增强
GPT-4.1在指令遵循方面取得了显著进步。在Scale的MultiChallenge基准测试中,GPT-4.1得分达到38.3%,比GPT-4o提高了10.5个百分点。它能够更好地理解并执行复杂的指令,包括格式要求、否定指令、有序指令等。此外,GPT-4.1在多轮对话中保持连贯性,能够更好地从对话历史中提取信息,从而实现更自然的交互。
(三)长文本处理能力突破
GPT-4.1系列模型支持高达100万tokens的上下文窗口,远超GPT-4o的128,000tokens。这使得它们能够处理大型代码库、长文档等复杂任务。在Video-MME基准测试中,GPT-4.1在无字幕长视频理解方面取得了72.0%的得分,比GPT-4o提高了6.7个百分点。此外,OpenAI还发布了OpenAI-MRCR和Graphwalks两个新的评估数据集,用于测试模型在长文本中的多轮引用和多跳推理能力,GPT-4.1在这些测试中均表现出色。
三、实际应用案例
(一)Windsurf:编码效率大幅提升
Windsurf的内部编码基准测试显示,GPT-4.1的得分比GPT-4o高出60%。用户反馈表明,GPT-4.1在工具调用效率上提高了30%,重复不必要的编辑减少了约50%。这使得工程团队的迭代速度更快,工作流程更加顺畅。
(二)Qodo:高质量代码审查
Qodo在使用GPT-4.1生成GitHub拉取请求的高质量代码审查时发现,GPT-4.1在200个真实世界的拉取请求中,有55%的建议优于其他领先模型。GPT-4.1在精确性和全面性方面表现出色,能够专注于关键问题。
(三)Thomson Reuters:法律文档处理
Thomson Reuters在使用GPT-4.1处理复杂法律文档时,多文档审查的准确性提高了17%。GPT-4.1能够可靠地跨文档维护上下文,并准确识别文档之间的细微关系,这对于法律分析和决策至关重要。
(四)Carlyle:金融数据提取
Carlyle利用GPT-4.1从多个长文档中提取详细的金融数据,其性能比其他模型提高了50%。GPT-4.1成功克服了其他模型在处理大型文档时的关键限制,如“大海捞针”式的检索、中间丢失错误以及跨文档的多跳推理。
四、性能与成本优势
GPT-4.1系列模型不仅在性能上取得了突破,还降低了成本。GPT-4.1的输入成本为每100万tokens 2.00美元,输出成本为8.00美元,比GPT-4o降低了26%。GPT-4.1 nano是目前最快、最便宜的模型,输入成本仅为0.10美元,输出成本为0.40美元。此外,OpenAI还为这些新模型提供了更高的提示缓存折扣(75%),并取消了长文本请求的额外费用。
五、未来展望
GPT-4.1系列模型的推出为人工智能的应用开辟了新的可能性。它们在编码、指令遵循和长文本处理方面的卓越表现,使其能够支持更复杂、更高效的智能系统和代理应用。OpenAI将继续与开发者社区合作,不断优化模型性能,推动人工智能技术的发展。