2024年8月6日,全球领先的人工智能研究机构OpenAI宣布了一项重大技术突破——结构化输出(Structured Outputs)功能的推出。这项新功能确保了AI模型生成的输出能够严格遵循开发者提供的JSON Schemas,从而显著提升了AI应用中生成结构化数据的可靠性。
去年,OpenAI在DevDay上推出了JSON模式,为开发者构建可靠应用提供了基础。尽管JSON模式提高了模型生成有效JSON输出的可靠性,但它并不能保证模型的响应会符合特定的模式。结构化输出功能的推出,正是为了解决这一问题,通过限制OpenAI模型以匹配开发者提供的模式,并训练模型更好地理解复杂的模式。
在对复杂JSON模式遵循的评估中,新模型gpt-4o-2024-08-06在结构化输出功能上达到了完美的100%准确率,而相比之下,gpt-4-0613的准确率不足40%。
结构化输出功能通过两种形式在API中提供:
1、函数调用:通过在函数定义中设置strict: true,可以使用tools实现结构化输出。此功能适用于所有支持工具的模型,包括gpt-4-0613和gpt-3.5-turbo-0613及之后的所有模型。启用结构化输出后,模型输出将与提供的工具定义相匹配。
2、响应格式参数的新选项:开发者现在可以通过response_format参数的json_schema选项提供JSON Schema。当模型不是调用工具,而是以结构化方式响应用户时,这个功能非常有用。此功能适用于最新发布的GPT-4o模型:gpt-4o-2024-08-06和gpt-4o-mini-2024-07-18。当提供response_format并设置strict: true时,模型输出将与提供的模式相匹配。
OpenAI始终将安全性放在首位,新的结构化输出功能将遵守现有的安全政策,并允许模型拒绝不安全的请求。为了简化开发,API响应中新增了refusal字符串值,使开发者能够程序性地检测模型是否生成了拒绝而不是符合模式的输出。
此外,OpenAI的Python和Node SDK已经更新,原生支持结构化输出。提供工具的模式或作为响应格式的模式就像提供Pydantic或Zod对象一样简单,SDK将自动处理将数据类型转换为支持的JSON Schema、自动反序列化JSON响应到类型化的数据结构,并在出现拒绝时解析它们。
结构化输出功能为开发者提供了强大的工具,以用于各种用例,包括动态生成用户界面、分离最终答案与支持推理或附加评论,以及从未结构化数据中提取结构化数据等。
OpenAI通过训练最新模型gpt-4o-2024-08-06以理解复杂模式并产生匹配的输出,同时采用确定性的工程方法来限制模型的输出,以实现100%的可靠性。这一方法基于称为受限采样或受限解码的技术,通过将模型的输出限制为根据所提供的模式有效的标记,而不是所有可用的标记,从而强制输出有效性。
尽管结构化输出功能带来了许多优势,但也存在一些限制和注意事项,例如仅支持JSON Schema的子集、首次使用新模式时会有额外的延迟等。然而,这些限制并不妨碍结构化输出成为AI领域的一大进步,为开发者提供了更可靠、更安全的工具来构建强大的AI应用。
结构化输出功能现已在API中普遍可用,适用于支持函数调用的所有模型,包括最新模型gpt-4o和gpt-4o-mini,以及基于这些模型的任何微调模型。通过切换到新的gpt-4o-2024-08-06,开发者在输入和输出上的成本分别降低了50%和33%。
OpenAI对开源社区的杰出工作表示敬意,特别是outlines、jsonformer、instructor、guidance和lark等库为结构化输出功能的启发。同时,感谢Chris Colby、Melody Guan、Michelle Pokrass、Ted Sanders、Brian Zhang等核心贡献者,以及John Allard、Filipe de Avila Belbute Peres等团队成员的辛勤工作和贡献。