博客快捷键

按住 Shift 键查看可用快捷键

ShiftK

开启/关闭快捷键功能

ShiftA

打开/关闭中控台

ShiftD

深色/浅色显示模式

ShiftS

站内搜索

ShiftR

随机访问

ShiftH

返回首页

ShiftL

友链页面

ShiftP

关于本站

ShiftI

原版/本站右键菜单

松开 Shift 键或点击外部区域关闭

文章详情

互动

体验 Flipbook：一个没有 HTML 的 AI 浏览器原型，好玩但别当真

877244分钟2026-04-3032未知

文章摘要

Flipbook是一个AI原生视觉浏览器原型，其核心创新在于将网页浏览转变为由AI实时生成的视觉探索体验。用户输入主题或上传图片后，系统生成一张可点击的视觉页面，点击图像中的对象会触发更深层次的图像生成，而非传统链接跳转。页面中的文字也是由图像模型渲染的像素，而非可复制的文本。该工具结合了网页搜索和模型知识，适用于开放式学习和灵感探索，如旅行规划、知识可视化等。然而，它存在事实准确性不足、生成速度慢、文字不可复制、缺乏引用来源等问题，不适合需要高确定性的任务（如购物、法律信息查询）。Flipbook当前是实验性原型，而非成熟浏览器，其价值在于展示“按需生成视觉界面”的可能性，而非替代现有Web结构。

它最有意思的地方，不是把网页做成图片，而是把“浏览”这件事改成了连续生成的视觉探索。

打开一个网页，我们通常默认会遇到几样东西：地址栏、链接、按钮、输入框、菜单、滚动条，以及一套由 HTML、CSS、JavaScript 和 DOM 支撑起来的页面结构。即便现在很多浏览器开始塞进 AI 助手，本质上也还是在这套结构上做增强：帮你总结当前网页、解释一段文字、填写表单，或者替你点几下按钮。

Flipbook 想做的事情更激进一些。它不是在浏览器旁边加一个 AI 聊天框，也不是让 AI 临时生成一段 React 页面，而是把用户看到的整张页面直接交给图像模型生成。你输入一个主题，或者上传一张图片，系统生成一张视觉页面；你点击图像里的某个对象，它再生成下一张更深入的图像。页面不是网页意义上的“页面”，而是一张由模型实时画出来的图。

这就是它被称为“无限视觉浏览器”的原因。

不过，如果只把它理解成“HTML 要被干掉了”，很容易走偏。Flipbook 当前更像一个交互范式原型，而不是能替代 Chrome、Safari 或 Edge 的成熟浏览器。它展示了一个很有想象力的方向：当模型能够实时生成高质量视觉内容时，界面是否一定要由开发者提前写好？但它也把一系列老问题放大了：事实准确性、可访问性、延迟、成本、可追溯性，以及纯像素界面到底能不能承载真实任务。

这篇文章更关心后半部分。Flipbook 到底是什么？它和传统 AI 浏览器有什么不同？为什么“文字也是像素”这件事很关键？它适合哪些场景，又为什么暂时不适合严肃生产环境？

先把对象说清楚：这里的 Flipbook 不是翻页电子书工具

“Flipbook”这个词本身很容易混淆。很多人搜索到的 Flipbook，可能是 PDF 转电子翻页书、WordPress 翻页插件、3D 电子杂志制作器，或者类似 FlipHTML5 这样的数字出版工具。这些产品解决的是“把 PDF、PPT、图片变成一本可翻页电子书”的问题。

本文讨论的是 flipbook.page 上的 Flipbook。它的定位是一个 AI 原生视觉浏览器原型，页面不是由 HTML 结构渲染出来，而是由 AI 按需生成的视觉结果。

它的基本入口很简单：用户可以输入搜索词，也可以上传图片，然后进入一张由 AI 生成的视觉页面。接下来的交互不是点击传统链接，而是点击图像中的任意视觉元素。系统会理解你点击的位置与对象，再生成一张新的视觉页面，带你继续探索。

比如你搜索“巴黎旅行”，它可能生成一张类似插画地图的视觉页面。你点埃菲尔铁塔，下一张页面可能围绕铁塔展开；你点塞纳河，它可能切到游船、河岸、路线或周边景点。这个过程不再像传统网页那样在不同站点、标签页和长列表之间跳转，而更像在一张不断扩展的百科插图里下钻。

Flipbook 产品体验相关截图或示意图

它最核心的几个特征可以概括为：

每个页面都是 AI 生成图像；
点击图像中的任何内容，可以继续生成更深入的新图像；
页面里没有传统意义上的 HTML、代码、特定链接或字段；
屏幕上看到的文字也是由图像模型渲染出的像素；
图像内容结合了代理式网页搜索和图像模型自身的世界知识；
当前仍是实验性原型，不是完整浏览器产品。

最后一点很重要。Flipbook 的价值更多在于“提出问题”和“展示可能性”，而不是当下就能承担浏览器的日常职责。

它不是“浏览网页”，而是在生成一个视觉探索空间

传统网页的核心逻辑是“内容先被组织好，用户再进入其中”。哪怕是高度动态的网页，也仍然需要开发者事先定义组件、样式、交互逻辑、数据接口和权限模型。用户看到的页面，背后通常有稳定结构：标题、正文、图片、按钮、表单、链接、脚本事件。

Flipbook 的思路反过来。它不要求页面提前存在，而是把用户意图、搜索结果、模型知识和点击行为组合起来，临时生成一张“此刻最适合看的视觉画面”。

这带来了一个很明显的体验差异：Flipbook 更像“探索”，而不是“检索”。

传统搜索引擎给你一组结果。AI 搜索引擎给你一段总结和引用。AI 浏览器助手帮你读网页、整理标签页、执行操作。Flipbook 则试图把信息组织成一张可点击图像，让你通过视觉对象继续走下去。

这类体验适合什么？

最自然的场景是开放式学习和灵感探索：

看一个城市的旅行结构；
理解某个历史事件里的地理关系；
探索一本小说的人物关系；
学习人体结构、工程结构、动植物分类；
把复杂概念变成更容易进入的视觉地图；
从一张上传图片出发，延展出相关对象、背景和知识。

这些场景的共同点是：用户一开始未必知道自己要找哪个精确答案，更需要一个“可逛”的信息空间。Flipbook 的点击下钻在这里有吸引力，因为它降低了从一个概念跳到另一个概念的心理成本。你不需要想关键词，不需要判断哪条链接值得点，也不需要在多个网页之间来回切换。

但同样的设计放到高确定性任务里就会变得危险。查航班价格、核对开放时间、填写报税表、购买药品、阅读法律条款、提交支付信息，这些任务需要准确来源、稳定结构、明确责任边界和可验证的数据。Flipbook 当前的纯视觉生成方式并不适合这些场景。

换句话说，它很适合当“第一眼的探索入口”，不适合当“最后一公里的事实依据”。

最激进的设计：文字也是图像模型画出来的

Flipbook 最值得单独拎出来讲的设计，不是“页面是图片”，而是“文字也是图片”。

在普通网页里，文字有文本层。你可以复制、搜索、选择、翻译、让屏幕阅读器朗读，也可以被搜索引擎索引。开发者还能通过 DOM 获取它的位置、内容和语义。即使页面视觉设计复杂，文字作为数据仍然存在。

Flipbook 里不是这样。屏幕上看起来像标题、标签、说明、按钮文案的东西，本质上都是图像模型渲染出来的像素。它没有独立的文本覆盖层。

这件事的好处是统一。整个界面都可以由模型用视觉语言直接表达，不需要先拆成组件、文本、布局、样式，再让浏览器渲染。只要模型能画，它就能把信息做成地图、插画、卡片、结构图、漫画分镜、产品示意图，甚至某种混合风格的视觉页面。

问题也非常直接。

文字一旦变成像素，就会失去 Web 文本的很多基础能力。用户不能可靠复制其中的句子，无法用浏览器搜索页面文字，也很难让辅助技术准确朗读。更麻烦的是，图像模型生成文字仍可能出现错字、乱码、位置偏移、排版不稳，尤其在多语言、数字、专有名词和密集信息场景里更明显。

这不是一个小缺陷，而是产品形态上的根本取舍。

如果 Flipbook 只是一个视觉探索工具，文字偶尔不准还可以接受。比如看一个城市插画地图，标题有点歪、标签偶尔错位，用户仍然能获得大致方向。但如果它要成为可靠信息界面，文字像素化会带来一连串工程和产品问题：可访问性、可复制性、可核验性、国际化、多端适配、合规审计，全都会变难。

传统网页看起来笨重，但它留下了很多“机器可理解”的结构。Flipbook 看起来自由，却把很多结构压进了不可直接读取的像素里。这也是它现在更像概念实验，而不是通用浏览器的原因。

信息从哪里来：搜索 Agent 加模型知识，但还不是引用系统

Flipbook 生成的图像并不是完全凭空想象。它会结合代理式网页搜索和图像模型自身的世界知识来组织画面。这个设定让它和纯文生图工具不一样：它试图基于在线信息生成视觉页面，而不是只靠模型记忆画一张看起来合理的图。

但这里有一个关键区别：基于在线信息，不等于拥有可靠引用系统。

对用户来说，Flipbook 生成的视觉页面里可能包含地点、时间、价格、路线、说明文字、人物关系和各种标签。问题是，用户很难知道每个视觉元素具体来自哪里，哪些是搜索结果整合，哪些是模型补全，哪些只是图像生成时为了画面完整而“合理化”的内容。

这和 Google Disco / GenTabs 这类路线形成了鲜明对比。后者被描述为读取多个标签页，再生成定制化 Web 应用，同时保留指向原始来源的链接。它的界面可能没那么激进，但保留来源链接这件事对真实使用非常关键。用户可以回看原网页，核对信息，判断可信度。

Flipbook 当前的体验更像“视觉化摘要 + 视觉推理 + 视觉扩展”。这在启发式场景里很好用，在严肃场景里就需要警惕。

可以把它当成旅行规划前期的灵感板，但不要直接按它生成的价格和开放时间买票；可以用它理解《百年孤独》人物关系的大致结构，但不要把每个名字、亲缘关系都当作最终答案；可以用它浏览某个城市的地理印象，但地图位置、路线和距离仍要回到地图服务或原始资料确认。

观猹社区里已经有用户提到类似问题：生成速度慢、信息一致性不足，以及地图上的城市地理位置有偏差。这类反馈不意外，因为 Flipbook 的优势和风险来自同一件事：它把信息重组为视觉画面，而视觉画面很容易“看起来对”，却不一定每个细节都对。

它和 Comet、Atlas、Google Disco 的差别不只是界面风格

把 Flipbook 放在 AI 浏览器这个大类里看，会更容易理解它的特殊性。

过去一轮 AI 浏览器主要有几条路线。

一种是 AI 助手型浏览器。Perplexity Comet、ChatGPT Atlas 这类产品更接近“传统浏览器 + AI 助手”。用户仍然访问真实网页，AI 帮你总结、问答、跨标签页理解，甚至执行一些在线任务。浏览器底层仍然依赖已有网页结构，AI 是增强层。

另一种是浏览器 Agent。Browser-use、Skyvern 等方向更关心自动化执行：让 AI 读取网页 DOM、截图或视觉状态，再完成点击、填写、抓取、跳转等操作。它们解决的是“让 AI 操作已有网页”的问题。

还有一种是生成式 Web 应用。Google Disco / GenTabs 的思路是把打开的标签页、资料和上下文变成一个临时应用。它仍然生成结构化界面，通常保留可编辑、可追溯和可交互的 Web 形态。

Flipbook 属于更极端的一支：像素生成型浏览。它不是帮你读网页，也不是帮你操作网页，更不是把资料整理成一个传统 Web App，而是直接生成你看到的整屏视觉结果。

可以简单对比一下：

类型	代表方向	底层对象	AI 的角色	适合场景	主要限制
AI 助手型浏览器	Comet、Atlas	已有网页、标签页	阅读、总结、问答、辅助操作	日常浏览、资料整理、任务辅助	仍受网页结构影响，执行能力有限
浏览器 Agent	Browser-use、Skyvern	DOM、截图、网页状态	自动点击、填写、抓取、执行流程	流程自动化、数据采集、测试	稳定性依赖网页变化和模型判断
生成式 Web 应用	Disco / GenTabs	标签页内容、结构化页面	生成临时应用和交互界面	研究整理、旅行规划、学习工具	仍处早期，复杂应用可维护性待验证
像素生成型浏览	Flipbook	AI 生成图像页面	直接生成视觉信息空间	视觉探索、知识启发、概念演示	事实核验、延迟、可访问性、执行能力不足

这个对比能看出，Flipbook 不是“更强的传统浏览器”，而是换了一个起点。其他路线大多承认 Web 结构仍然存在，然后把 AI 放在结构之上；Flipbook 则问：如果用户最终只看屏幕像素，那能不能直接生成像素？

这是一个非常大胆的问题，但大胆不等于马上实用。企业、开发者和普通用户在选择工具时，不能只看新鲜感，还要看它能不能进入稳定工作流。

技术上它为什么现在才变得可想象

Flipbook 之所以在这个时间点出现，和图像、视频生成模型的进步关系很大。过去图像生成主要是内容创作工具：画插图、做海报、生成产品图。现在它开始被想象为一种界面渲染层。

目前可以确认的是，Flipbook 的页面按需生成，每个页面是图像，点击图像区域会生成新的图像；屏幕上没有传统 HTML 页面结构，文字也没有文本覆盖层；内容结合代理式网页搜索和模型知识。演示视频还注明使用了预生成视频，并经过加速剪辑，这说明演示效果不能直接等同于真实端到端实时体验。

一些媒体和社区资料进一步提到，Flipbook 可能涉及 Lightricks 的 LTX Studio / LTX Video 相关模型、WebSocket 流式传输、云端 GPU，以及面向实时性的工程优化。这里需要谨慎区分：这些信息能够帮助理解它背后的技术可能性，但并不是 Flipbook 首页完整披露的技术架构。

LTX-Video 本身是一个值得关注的背景线索。它是 Lightricks 的开源视频生成模型仓库，采用 Apache-2.0 License，仓库主题包括 DiT、image-to-video、text-to-video、diffusion models 等。Hugging Face 页面列出了 13B、2B、distilled、fp8 等版本，其中 2B distilled 版本被描述为“15× faster, real-time capable”。

这说明实时视频生成正在从“概念演示”向“可工程化尝试”靠近。对 Flipbook 这种产品而言，实时性几乎决定了体验上限：如果每次点击都要等很久，用户的探索欲很快会被打断；如果生成可以流式出现，页面之间能形成连续转场，它才更像“浏览”，而不是“排队等图”。

云端 GPU 基础设施也很关键。每次点击都触发模型推理，成本结构和传统网页完全不同。传统网页的边际成本可以通过缓存、CDN、静态资源优化大幅降低；Flipbook 这类产品的边际成本更接近“每次交互消耗一次推理资源”。如果要支撑大量并发用户，就需要弹性 GPU、快速启动、流式输出、监控和成本控制。

Modal 这类 AI 基础设施平台强调可编程基础设施、容器启动、GPU 扩缩容、日志和可观测性，确实与这类实时生成应用的需求匹配。不过，Flipbook 是否采用何种具体后端、如何调度模型、如何压缩延迟、如何控制成本，目前公开信息还不足以做定论。

当前上手路径很轻，但部署和二次开发信息几乎没有

如果只是体验 Flipbook，路径很简单：访问 flipbook.page，输入搜索词或上传图片，然后点击图像中的对象继续探索。它更像一个在线实验入口，不需要用户本地安装模型，也没有看到需要开发者配置环境的流程。

但如果从开发者工具或开源项目角度看，Flipbook 当前的信息非常有限。

目前未找到 Flipbook 本身的公开 GitHub / GitLab / Codeberg 仓库，也没有看到 README、Quickstart、API 文档、Docker 部署说明、自托管方案、License、Release Notes、Changelog、Issues 或 PR。也没有看到 npm、PyPI、Docker Hub、Hugging Face Spaces 等形式的分发入口。

这意味着几件事：

第一，Flipbook 不能按开源项目来评估。它没有可审查代码、没有许可证、没有部署文档，也没有社区 Issue 可以判断维护节奏。

第二，企业或开发者无法直接把它私有化部署到自己的知识库、内网数据或业务流程里。即便概念有启发，当前也更适合观察和体验，不适合直接集成。

第三，任何关于其完整架构的判断都要保持边界。LTX-Video 是开源项目，Apache-2.0 License 适用于 LTX-Video 仓库，不代表 Flipbook 本身开源，也不代表 Flipbook 的商业使用、二次开发或模型调用方式已经开放。

这对读者决策很重要。很多 AI 原型在传播时容易被写成“马上可用的新基础设施”，但 Flipbook 目前更像一个在线 demo 和研究型产品。它能启发设计师、产品经理和 AI 工程师思考下一代界面，但还不是一个能被团队拿来部署的工具链。

用户反馈里的矛盾：第一分钟很惊艳，第二分钟开始等

从社区反馈看，Flipbook 的第一印象往往很好。用户会觉得它“好玩”“有探索欲”“视觉串联万物”，因为它确实跳出了搜索结果页和聊天框的常规形态。输入主题之后，看到一个可点击的视觉世界出现，这种新鲜感很强。

但很快，体验会进入另一面：生成速度慢、等待感明显、点击后的信息一致性不够稳定、视觉内容可能和真实情况有偏差。观猹产品页里的评论就提到，当前生成速度会让人失去耐心，也有用户指出地图城市地理位置存在偏差。

这类问题不是简单优化一下 UI 就能解决。它们对应的是 Flipbook 这种产品的核心难题：

点击一次就要生成新页面，延迟天然比打开缓存网页更难控制；
每张页面都由模型生成，内容一致性依赖模型对上下文和状态的保持；
页面是图像，细节错误不容易像文本那样被结构化校验；
如果没有来源引用，用户很难知道错误来自搜索、模型理解还是视觉生成；
如果希望画面更精美，推理成本和延迟可能继续增加。

这也是为什么 Flipbook 更适合被看作“方向性原型”。它现在最强的地方是让人相信一种新交互是可能的，而不是证明这种交互已经足够稳定。

产品成熟度往往不是看 demo 有多惊艳，而是看第二十次点击、第一百次点击之后，用户是否仍然愿意留下。Flipbook 当前还需要跨过这个阶段。

它为什么不会马上“杀死 HTML”

每当类似 Flipbook 的项目出现，最容易出现的标题就是“HTML 已死”“网页被 AI 重写”。这种说法传播性很强，但对理解产品没什么帮助。

HTML 和 DOM 的价值，不只是把东西显示在屏幕上。它们更重要的作用是提供结构：文本、链接、表单、按钮、语义标签、可访问性、脚本事件、状态管理、权限、安全模型、缓存、SEO、调试、测试、自动化。浏览器生态经过多年演进，真正复杂的地方不在“画出一个页面”，而在“让页面可靠、可维护、可验证、可访问、可执行”。

Flipbook 把视觉表达做到极致，却暂时拿掉了很多结构能力。

比如，传统网页里的链接可以指向明确 URL，用户可以复制、分享、保存、回退。Flipbook 的点击更像语义探索，生成下一张图，但不等于访问了一个稳定资源。

传统网页里的表单可以和后端服务、身份认证、支付系统、权限控制连接起来。Flipbook 当前更适合生成视觉信息，不适合承载复杂交易和敏感操作。

传统网页里的文本可以被搜索引擎索引，也可以被辅助技术读取。Flipbook 的文字是像素，天然削弱了这部分能力。

传统网页可以通过开发者工具检查 DOM、网络请求、控制台错误。Flipbook 如果只是模型输出的视觉流，调试方式会完全不同，甚至很难像前端工程那样定位“哪个组件出了问题”。

所以，Flipbook 挑战的不是 HTML 的全部价值，而是 HTML 作为“视觉表达层唯一默认路径”的地位。它说明未来某些界面也许不必全部预先编码，而可以根据用户意图即时生成。但这距离替代结构化 Web，还有很长一段路。

更现实的未来不是“像素流消灭网页”，而是混合式界面：视觉层由 AI 动态生成，底层仍保留文本、引用、结构化数据、权限和操作接口。用户看到的是自由流动的视觉页面，系统内部仍然有可追溯、可校验、可执行的语义结构。

这条路线听起来不如“没有 HTML”那么酷，但更可能走进真实产品。

适合谁现在去试，谁不该高估它

Flipbook 现在最适合几类人体验。

设计师和 UX 研究者可以把它当成下一代界面实验。它提供了一个很好的问题：如果界面不再由固定组件组成，而是按用户意图生成，导航、状态、反馈、可访问性应该如何设计？

产品经理可以用它思考“探索型产品”的新入口。搜索、教育、旅行、知识库、电商导购、儿童内容，这些场景都可能从视觉探索中获得启发。但要注意，启发不等于照搬，真实产品仍要解决事实来源、交易闭环和用户信任。

AI 工程师和多模态开发者可以关注它背后的系统组合：搜索 Agent、视觉生成模型、点击语义理解、上下文保持、流式传输、GPU 推理和延迟优化。Flipbook 本身没有公开完整技术栈，但它指向了一个会越来越热的工程问题：如何把多模态生成模型从内容生产工具变成交互系统的一部分。

教育、科普和内容创作者也值得试。复杂知识的视觉化表达一直很难，大部分内容要么是长文，要么是静态信息图。Flipbook 这类工具如果成熟，可能降低制作“可探索知识图”的门槛。

但有几类使用方式暂时不建议。

不要把它当准确搜索工具。动态信息、高风险信息、价格、地理位置、法律、医疗、财务，都需要回到可信来源核验。

不要把它当可部署平台。当前没有公开仓库、API、License、自托管文档和开发者文档，无法按开源项目或企业工具来采用。

不要把它当浏览器替代品。它没有传统浏览器的标签页体系、扩展生态、开发者工具、兼容性、安全模型和网页执行能力。

不要把它当“前端消失”的证据。界面视觉可以由 AI 生成，但结构、状态、数据、权限、可访问性、测试和维护仍然是工程核心。

商业化可能在哪里，但现在还看不到确定路径

Flipbook 目前没有看到明确商业模式、收费方式、API 价格、企业版本或订阅计划。它更像是一个展示交互可能性的实验原型。

如果未来商业化，比较可能先从这些方向切入：

视觉化搜索和学习工具；
儿童百科、科普教育和交互式知识图谱；
旅行规划和目的地探索；
电商导购和商品关系图；
设计原型、故事板和概念可视化；
企业知识库的可视化入口；
品牌体验页和生成式广告。

其中教育和旅行可能最适合早期探索。原因很简单：这两个场景对视觉表达敏感，用户也愿意在早期阶段“逛一逛”。但如果涉及价格、预订、路线、营业时间，就必须接入可靠数据源和来源引用。

企业知识库看起来也有潜力，但落地难度更高。企业不会只接受一张漂亮图，它们需要权限管理、数据隔离、审计日志、引用来源、搜索召回、文档更新、合规和私有化部署。Flipbook 当前公开信息还没覆盖这些能力。

真正难的是成本模型。传统网页生成一次可以被无数人访问，静态资源可以缓存。生成式视觉浏览器则可能每个人、每次点击、每条路径都不同。只要大量依赖模型实时推理，GPU 成本就会成为商业化绕不开的问题。

所以 Flipbook 的商业价值不取决于它能不能画得更漂亮，而取决于它能不能在成本、速度、准确性和可追溯性之间找到平衡。

LTX-Video 值得关注，但不要把它等同于 Flipbook

媒体资料频繁提到 LTX-Video，是因为它确实代表了实时视频生成方向的一个重要背景。

LTX-Video 是 Lightricks 的官方开源视频生成模型仓库，License 为 Apache-2.0，主题覆盖 DiT、文生视频、图生视频和扩散模型。模型页中列出的 2B distilled 版本被描述为具备实时能力，这类模型降低了“实时生成视觉界面”的想象门槛。

不过，这里需要明确边界。

LTX-Video 是开源模型项目，Flipbook 是在线视觉浏览器原型。媒体报道把两者联系起来，并不意味着 Flipbook 的完整前后端、交互系统、搜索 Agent、状态管理、推理链路都已经公开。LTX-Video 的 Apache-2.0 License 也不能延伸为 Flipbook 本身的许可证。

对技术读者来说，正确的看法是：LTX-Video 说明实时视频生成模型正在成熟，Flipbook 则展示了这类能力可能进入 UI 层的一个方向。两者有关联价值，但不能混为一谈。

这也提醒我们，评估 AI 原型时要分清三层：

模型能力：能不能实时生成足够好的图像或视频；
系统能力：能不能把搜索、点击、状态、流式输出和推理调度串起来；
产品能力：能不能让用户稳定、低成本、可信地完成真实任务。

Flipbook 目前在第一眼产品演示上很突出，但第二、第三层还需要更多公开信息和实际验证。

真正值得关注的，是“视觉层”和“语义层”会不会重新分工

Flipbook 的长期意义，可能不在于它自己会不会成为下一个浏览器，而在于它把界面分工的问题重新摆上桌面。

过去 Web 页面往往把视觉层和语义层绑在一起。HTML 负责结构，CSS 负责样式，JavaScript 负责交互。即便有 Canvas、WebGL 和复杂前端框架，绝大多数信息产品仍然需要开发者预先定义界面结构。

AI 生成界面出现后，会有两条路线。

一条是代码生成路线。模型生成 HTML、React、Vue、CSS、组件和应用逻辑。好处是可维护、可部署、可调试，能够进入现有工程体系。Vercel v0、Claude Artifacts、Google Disco / GenTabs 这类方向更接近这一路线。

另一条是像素生成路线。模型不先输出代码，而是直接输出视觉结果。好处是自由度极高，可以生成不受组件库限制的视觉表达；坏处是结构性弱，难以追溯、复制、访问和执行。Flipbook 就是这条路线的代表性实验。

未来更可能出现的是中间形态：AI 负责生成视觉探索层，底层保留结构化事实层。用户看到的可以是一张动态插画、地图或视觉故事板，但每个对象背后仍有可点击来源、文本数据、语义标签、操作接口和权限控制。这样既保留视觉浏览的直觉和沉浸感，也不放弃 Web 已经积累多年的可靠性。

比如一个旅行规划工具，表面上可以像 Flipbook 一样生成城市视觉地图；但每个酒店、景点、价格、路线都必须对应真实来源和可更新数据。用户点一个景点，不只是生成下一张图，还能看到引用、营业时间、购票入口和地图导航。视觉层负责降低理解门槛，结构层负责保证任务可完成。

这才是 Flipbook 最有启发的地方：它不一定要替代网页，但可能推动网页多出一个“按需视觉生成层”。

结语：它是一个好问题，不是一个成熟答案

Flipbook 当前最大的价值，是把“网页一定要预先写好吗”这个问题问得足够极端。

它让用户看到一种不同于搜索结果页、聊天框和传统标签页的体验：输入一个主题，得到一张视觉化信息空间；点击任意对象，继续生成下一层探索。这种体验在教育、科普、旅行、知识可视化和灵感发现里确实有吸引力。

但它的限制也同样清楚。页面是图像，文字也是像素，事实需要核验，来源追溯不足，生成速度和一致性还不稳定，部署、API、开源和商业化信息都不完整。它不是传统浏览器的替代品，也不是可以直接拿去上生产的开发平台。

更克制的评价是：Flipbook 是 AI 原生界面的一次高辨识度实验。它不会马上让 HTML 失去意义，也不会让前端工程消失，但它提醒我们，未来的界面可能不再只有“预先设计页面”这一种形态。

当模型足够快、足够准、足够便宜，并且能和结构化数据、来源引用、权限系统结合起来时，“浏览”可能会从打开网页，变成进入一个由 AI 按需组织的视觉空间。Flipbook 现在做得还粗糙，但这个方向值得继续看。

参考资料

泠轻子

生活明朗，万物可爱

本文是原创文章，采用 CC BY-NC-SA 4.0 协议，完整转载请注明来自泠轻子

喜欢这篇文章的人也看了

随便逛逛

Kimi K2.6 能替代设计工作流吗：它真正改变的是“从页面到交付”的那一段

DeepSeek V4：百万上下文、Agent 编程和低价 API 之后，真正要看的是什么

隐私政策

评论内容

0/500

昵称

邮箱

网址

滚动到此处加载评论...

安知鱼

来自安知鱼最新设计与科技的文章

查看全部