让 LLM 用 HTML 回答你:Karpathy 这个小技巧,我试完有点上头

转载请注明出处❤️

作者:测试蔡坨坨

原文链接:caituotuo.top/9b4e3a7f.html


AI 时代有个很有意思的现象,很多技巧其实早就有人在用,但它们真正扩散开,往往还需要一个有影响力的大 V 站出来,再把这件事讲清楚,顺便把 why 和 how 讲明白。

这几天被「让 LLM 用 HTML 回答你」的话题刷屏。

我又看了几遍 Karpathy 最新的帖子,直接把我过去半年的工作流推翻。

最近也在让 AI 帮我整理知识库,输出是 Markdown 格式,每次去审核它输出的一大堆文字,雀食痛苦。

其实核心内容就一句话:

在任何 query 的最后加一句 “structure your response as HTML”,

然后将生成的文件在浏览器打开。

类似地,也可以让 LLM 把输出做成幻灯片。

This works really well btw, at the end of your query ask your LLM to “structure your response as HTML”, then view the generated file in your browser. I’ve also had some success asking the LLM to present its output as slideshows, etc.

现在 AI 最大的瓶颈,根本不是模型不够聪明,是我们还在用文字这种最低带宽的方式跟它沟通。

同样的内容,HTML 的阅读效率和理解深度,是 Markdown 的 10 倍以上。

也许是人机交互的真正下一代范式,因为人类的输入和输出偏好,天生就是完全不对称的。

输入最自然的是音频,说话比打字快 4 倍,思考也更连贯;

输出最擅长的是视觉(图像/动画/视频),我们大脑 1/3 的皮层,全用来处理视觉信息,它是大脑信息输入的 10 车道超级高速公路。

打字天然更慢,它会逼迫人压缩、组织、筛选语言,

很多复杂观点,其实是在 “停顿、删改、重写” 里形成的,此刻就是。

而我们现在,却在用文本这种单车道的土路,双跑所有流量。

对人类理解友好的 AI,雀食重要。

Karpathy 画了一条清晰的演进路线:

  1. 原始文本(阅读起来费力费劲)
  2. Markdown(粗体、斜体、标题、表格,对眼睛友好一些,当前默认模式)
  3. HTML(仍然是程序化的,带有底层代码,但图形、布局甚至交互灵活得多)
  4. 交互式神经视频/模拟

我们现在正站在 Markdown 到 HTML 的转折点上,

这是有人就会说这种方式非 token,但是多花 2 倍 token,换你 10 倍的阅读速度和理解深度,这笔账是还算的。

也许我们都被省 token 的思维绑架了,却忘了人类的时间才是真正稀缺的资源。

请不要把时间花费在跟笨蛋扯皮上。

Markdown 是给 AI 看的格式,

HTML 是给人用的格式。

AI Agent 之间的沟通,用 Markdown,甚至是 JSON,都没问题。

但所有最终要给人类消费的东西,都应该切成 HTML,这才是最优的分工。

请在所有的 prompt 的结尾都加上那行字,

对比用并排表格,

分析用色彩标注,

原型用交互式滑块。

AI 不再是给你甩一大段干巴巴的文字让你啃,

而是直接给你造了一个可交互的视觉思考空间。

Karpathy 这条推文没有讲什么黑科技。HTML、浏览器、prompt,都是现成的东西。

但有时候好用的技巧就是这样:不是因为它复杂,而是因为它正好戳中了你的痛点。

最后,人机的心智融合才刚刚开始,

我们根本不用等 Neuralink 那种脑机接口,

先把 HTML 用起来,就是当下摘到的最大嘴甜的低垂果实。

下次再打开 Claude Code、Codex 的时候,不妨加上:

Please structure your response as a self-contained HTML file.