Liberogic正在推进对自有网站的优化工作,使其具备易被AI代理和LLM等系统读取的结构。
不仅仅是搜索引擎,Claude、Gemini、ChatGPT 这样的 LLM 和 AI 代理已经成为常态,它们能够读取网站内容,整理和比较信息,甚至代用户进行调查。
Liberogic的网站也在做好准备,包括robots.txt、sitemap、Link headers、llms.txt以及为每篇文章生成Markdown文件等,以便AI能够读取。
这次,我们将撰写关于Cloudflare在上上周公开的"Is Your Site Agent-Ready?"的文章。
作为内容 Site 进行检查
Liberogic 的网站是一个企业网站和内容网站,刊登公司信息、服务介绍、新闻、专栏、案例研究等内容。它不是电商网站,也不是带有 OAuth 认证的 API 应用。
因此在检查时网站类型需选择 "Content Site"。
Commerce 和 API / Auth / MCP 相关项目本次评估不纳入范围,主要从以下几个方面进行检查。
- Discoverability
- Content Accessibility
- Bot Access Control
结果是……得分为 83 分,Level 2「Bot-Aware」😭
为什么不是 100 分!!
立即进行验证 / 确认
本次检查中,Discoverability 获得 100 分,Bot Access Control 也获得 100 分。
robots.txt、sitemap、Link headers、AI bot rules、Content Signals 等项目都已完善,为 AI bot 发现网站并理解访问政策的基本导向已经构建完成。
简单来说,
- 让网站被发现
- 告诉内容的位置
- 向 bot 表明访问政策
- 为 AI 生成信号
等部分已经完成了相应的对应。
另一方面,内容可访问性(Content Accessibility)项目得到了 0 分(TT)
单独看这一项可能会想「咦,内容读不了吗?」,但实际情况略有不同。
Markdown 内容本身已经准备好了
Liberogic 的网站已经以相当高的比例为文章内容和案例研究生成了 AI 易于读取的 Markdown 格式文件。
文章和案例研究都拥有相应的 Markdown 文件,各页面 head 部分也设置了指向 Markdown 版本内容的 link 标签,实际的 AI 智能体也能够找到通往 Markdown 文件的途径。
并非 Markdown 不支持,而是以 LLM 易读的形式获取正文内容,因此并不处于「还没有为 AI 阅读做好准备」的状态。
那为什么没有得到 100 分呢👺
这次没有得到 100 分的原因并不是网站方面没有做任何事情,而是由于当前的实现构成与检查工具方的判定规范之间的兼容性问题。
Liberogic 的网站采用 Astro SSG 实现,预览页面采用了结合 SSR 的混合方式。
关于Markdown negotiation,通常是在中间件中处理的,但由于采用了混合配置,我们使用了Cloudflare适配器,其输出的_worker.js文件会被优先执行。因此中间件无法被加载,导致检查工具端Markdown negotiation的设置没有被正确反映。
实际上 Markdown 文件也存在,并且可以从 head 内的 link 标签访问到,但从检查工具的角度来看,出现了"无法确认 Markdown negotiation!"这样被判定的情况。
靠!竟然做出这种不完整的东西!
……虽然有时会想这样说,但当然我们日常依赖于 Cloudflare 的服务。
感谢您批准我们的合作伙伴认证。
但作为一直在Lighthouse中追求100分的人,这里确实有点遗憾。
实现100分是可能的!但我们不想只为了分数而降低运营效率,也不想增加成本
作为应对方法,有几种可能的选择。
- 额外部署 Cloudflare Workers 来处理 Markdown 返回
- 将预览页面转换为 CSR,靠近完全的 SSG 构架
- 将 Cloudflare 服务计划升级为商业计划,并使用 Transform Rules 重写 URL
这样的方法。
是这样的,如果提升 Cloudflare 服务等级,确实可能在检查工具中接近满分 100 分。
但是现在的话,仅为此而支付额外费用的判断就有点微妙了呢!
我们的目的绝不是要在检查工具中获得满分,而是要确保 AI 代理和 LLM 能够正确读取 Liberogic 网站上的信息。从 LLM 阅读内容的角度来看,我们认为公司已经相当顺利地完成了必要的工作。
与其为了获得满分而增加成本,不如确保内容易读。
能够得到妥善运维。
作为 Liberogic,我们想要重视那种平衡。
别忘了 llms.txt!
虽然本次检查项目中未包含此项,但 Liberogic 也支持 /llms.txt。
llms.txt是一个类似于目录的文件,用于向LLM传达"该网站包含什么信息,应该阅读哪些页面"。
这个概念与搜索引擎的sitemap.xml相似,但针对LLM进行了优化,用于梳理网站的概况和指向重要内容的导航路径。
虽然这一项不在检查工具的检查清单中,但Cloudflare重视"内容(正文)能否以低噪声方式获取(是否已Markdown化)"这样的数据质量,所以可能是有意不将其列入检查项。
直接让AI读取HTML可以吗?
在让AI代理读取网站时,当然可以直接解析HTML。
但实际的网页中包含了大量的导航、页眉、页脚、装饰性元素和JavaScript控制等正文以外的信息,即使页面看起来很自然,对于LLM来说往往也会产生很多噪声。
强行将复杂的HTML转换为Markdown时,可能会破坏标题结构、列表和表达意图,结果反而会成为LLM难以理解的数据。
虽然随着AI的发展这些问题也会迅速得到改善,但我们认为当下重要的是一项一项地切实推进。各位的网站适配进展如何呢?
既是公司代表,也始终是合作伙伴。喜欢理解新技术,享受事物变得便捷的那一刻,是个痴迷于现场工作的人。对未来技术充满期待,无论多大年纪都想继续体验新事物。
森本
项目经理 / 创意总监 / 2007年创立