Flipbook爆火:UI的未来是无限视觉像素

2026年4月23日,前OpenAI研究员Zain Shah在X上发布了一条推文:"想象你屏幕上的每一个像素,由模型实时流式传输。没有HTML,没有布局引擎,没有代码。就是你确切想看到的东西。"配上一个14秒的演示视频,几小时内引爆了整个互联网——这不是又一个"AI生成UI"的概念演示,而是一个彻底干掉DOM的浏览器原型,它叫Flipbook

你看到的每一个"页面",本质上都是一张图片。当你点击图片中的任意位置时,系统会根据你的点击生成一张新的图片,带你继续往更深入的方向探索。整个过程里,没有HTML、没有代码,也没有传统意义上的链接或输入框,你所看到的"网页",其实都只是屏幕上一帧一帧被生成出来的像素。屏幕上的所有文字,同样也是由图像模型直接渲染出来的,而不是叠加在图片上的文本。

Flipbook

一、它如何重新定义浏览器

传统的Web浏览器遵循这样的管线:服务器发送HTML/CSS/JS,浏览器解析DOM树,渲染引擎绘制像素,用户看到页面。而Flipbook的逻辑完全不同:用户输入意图,AI模型直接生成一帧1080p画面,通过WebSocket流式传输到浏览器,用户直接看到页面。中间没有任何代码。

Flipbook使用了以色列公司Lightricks开源的LTX Studio视频生成模型(基于Diffusion Transformer架构),后端运行在Modal Labs的无服务器GPU基础设施上。团队对LTX Studio做了针对性优化,使其能够通过WebSocket实时流式输出1080p 24fps视频。演示中展示了一个巴黎旅行规划的场景:用户提出需求,模型生成一整页插画式界面,用户点击埃菲尔铁塔,画面"放大"到铁塔场景,用户再点击票价区域,画面重新生成,显示预订面板。关键细节是:没有"按钮"或"链接"的概念,画面中每个可点击区域都是一次重新生成的触发器。

二、四大底层技术优化

Flipbook追求即时交互,但图像生成模型通常非常庞大和缓慢,想做到这种响应速度,就必须在底层进行极致的性能压榨。团队从四个维度同时做了改造:

激活缓存减少了图像生成过程中大量重复计算。传统扩散模型每去除一点噪声都要完整跑一遍神经网络的所有层,而其中很多层的计算结果其实和上一步几乎一样。激活缓存把这些变化不大的中间结果保存下来,在后续步骤里直接复用,让推理速度成倍提升。

量化技术将原本使用的16位浮点数精准映射为8位整数,整数运算远比浮点运算快,而且硬件有专门的加速设计,每个计算步骤的耗时都缩短了;同时每个数字从16位压缩到8位,模型文件的体积和运行时占用的显存都至少减半。

torch.compile充当翻译优化器的角色,将整个计算图整体分析,把相邻的、可合并的运算融合成大的优化内核,从解释执行变成一段连续编译程序在跑,省去了大量的Python开销和算子调度时间。

内存快照(类似CUDA Graph)将一整套固定的GPU操作序列完整"录制"下来,形成静态执行图,后续生成新图像时不再需要CPU逐条调度,直接重放这张图,让GPU像播放录像带一样无停顿地连续工作。

三、UX革命还是过渡方案

Flipbook的画面风格经历了上百次迭代打磨,最终选定编辑插画感的等距视角风格——斜俯视、带立体感但不复杂的插画方式,把信息、空间和概念清晰地组织起来。团队认为,一张图往往比大量文字更有表达力,但今天的屏幕却被文字和各种方框界面所占据。很多所谓"生成式UI",看起来更先进,但本质上仍然是用有限的形式去承载复杂的信息。

然而Flipbook的局限同样明显:生成一"页"画面约需40秒;文字是像素渲染的无法复制也无法搜索;生成式模型固有的幻觉问题可能导致信息不准确;完全无法实现可访问性;搜索引擎也无法索引像素生成的页面。

但它做到了一件最重要的事:把"没有代码的界面"从一个哲学讨论变成了一个可运行的14秒视频。开源社区迅速跟进,Grok已发布本地复现方案——Ollama + ComfyUI + Flux,这意味着Flipbook的核心思路不需要云端GPU,个人开发者可以在自己的机器上实验这种"像素优先"的界面范式。接下来会发生什么,取决于模型的速度、精确性和成本能在多快时间内跨越生产级门槛。

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手