门萨(Mensa),1946年成立于英国,是全球最古老的高智商社团,入会门槛只有一个——IQ达到人类前2%,分数线130。这个分数普通人考几次都摸不到边。然而,2026年,AI第一次正式跨过了这条线。

根据LisanBench最新跑分,GPT-5.5 Pro在线文本智商133,视觉智商直接飙到145。其中,文本刚好压线门萨,视觉却蹿进天才区(145为前0.1%)。这不是测试误差——这意味着AI在「看图找规律」这件事上,已达到千里挑一的人类智力水平。
一、视觉短板变王牌:GPT-5.5重新定义智能
门萨测试视觉部分采用3×3九宫格格式(八张图+空缺第九张),完全非语言、非文化依赖,考察抽象推理能力。这类题目依赖空间结构和拓扑关系的瞬间识别,正是传统大模型token化过程的天然劣势——因为token化会丢失空间信息。
过去十二个月,所有顶级模型都在视觉题上碰壁:Claude 4.7、GPT-5.4 Pro全部卡在125以下。一年前「LLM过不了130」还是技术圈共识,今天这堵墙彻底被砸碎。
GPT-5.5 Pro的145意味着:这不是在模拟思考,这是在重构智能。OpenAI首席科学家Jakub Pachocki表示:「过去两年其实出奇地缓慢,但现在我们在短期内看到了相当显著的进步。」
二、「诚恳的小火车头」:效率与智力双杀
奥特曼用一个看似软萌的比喻形容GPT-5.5:「小火车头」(Little Engine)。但这背后是极度冷酷的商业逻辑。
在LisanBench测试中,GPT-5.5是最强的双料非推理模型。更令竞争对手胆寒的是:Token使用量减少45.6%,智能分数却提升了1.77倍。当前有效性比率排行榜中,GPT-5.5以99.44%的得分独占鳌头,超越Opus 4.7(99.35%)、Sonnet 4.6(99.28%)。
数学任务上,GPT-5.5表现最佳;编程任务上,GPT-5.5与Opus 4.7各有千秋;在智能体任务上,Claude和GPT-5.5远胜所有其他模型。AI行业分析机构SemiAnalysis坦承:在某些任务上,GPT-5.5已经显著超越了所有其他模型。
奥特曼的战略意图很清晰:同时「垄断智力」和「降维成本」。当产品比对手聪明一倍,延迟却只有对方的一半时,市场规则已经失效,剩下的只有收割。
三、每月一炸:被压缩的窗口期
去年视觉天花板还停在119,今年直接跳到145。没有过渡,没有预告,只有一行更新。
OpenAI官宣的「Crisp Pace」——每月一炸的更新频率,让所有集成、优化和Prompt工程都变成一次性用品。你昨晚刚熬夜调优好的工作流,今天可能就被GPT-5.5的原生能力直接覆盖。
正如历史学家尤瓦尔·赫拉利所言:「历史上第一次,我们无法预测20年后人类的就业市场是什么样。」但现在,这个窗口期可能被OpenAI缩短到了20个月。那个「诚恳的小火车头」已经拉响了汽笛,技能的半衰期正在按月计算——它不打算等任何人。


