Topics

Agent Ready 得了 83 分(T_T),但我们在准备让 AI 阅读它方面取得了良好进展!

  • column

在 Liberogic,我们正在努力使我们的网站结构对 AI 代理和 LLM 更易于阅读。

如今,不仅搜索引擎,而且像 Claude、Gemini 和 ChatGPT 这样的 LLM 和 AI 代理,都能代表用户阅读网站、组织和比较信息并进行研究,这已成为司空见惯的事情。

在 Liberogic 网站上,我们也正在为 AI 阅读我们的内容做准备,方法是创建 robots.txt、站点地图、链接标头、llms.txt,并为每篇文章生成 Markdown 文件。

这一次,Cloudflare在两周前发布了一些新东西。「Is Your Site Agent-Ready?」我将就此事撰写一篇文章。

已检查为内容网站

Liberogic 网站是一个企业及内容网站,提供公司信息、服务介绍、新闻、专栏文章、案例研究等内容。它既不是电子商务网站,也不是需要 OAuth 身份验证的 API 应用程序。

服务器检查期间的站点类型是「Content Site」请选择一项。

本次评估将不包括商务、API/Auth/MCP 相关项目,我们将主要关注以下方面。

  • Discoverability
  • Content Accessibility
  • Bot Access Control

因此……得分是83点、2级「机器人感知」事情就是这样😭

为什么不是满分?!

我们马上核实/确认一下。

在此次检查中,Discovery 和 Bot Access Control 都获得了 100 分。

我们实现了对 robots.txt、站点地图、链接标头、AI 机器人规则和内容信号等项目的支持,并建立了 AI 机器人发现网站和理解访问策略的基本路径。

简而言之,

  • 让人们发现这个网站
  • 请告诉我们内容所在的位置。
  • 本文档概述了机器人的访问策略。
  • 人工智能信号

以上这些都是已经解决的问题。

另一方面,我的内容可访问性(TT)得分为 0 分。

单看这一点,你可能会想,“等等,我看不懂内容吗?”但实际情况略有不同。

Markdown 内容本身已经准备好了。

在 Liberogic 网站上,一定比例的文章内容和案例研究已经以 Markdown 格式生成,这便于人工智能阅读。
文章和案例研究都有 Markdown 文件,每个页面的头部都包含指向 Markdown 内容的链接标签,为 AI 代理访问 Markdown 文件提供了清晰的路径。

并非它不支持 Markdown;而是 LLM 旨在以可读格式检索文本,因此并非“不适合 AI 阅读”。

为什么我没能拿到满分?👺

这次没有获得 100 分的原因不是因为网站什么都没做,而是因为当前的实施配置与检查工具的评估规范不兼容。

Liberlogic 网站采用 Astro 的 SSG 技术实现,预览页面采用 SSR 混合设计。

虽然 Markdown 协商通常由中间件处理,但混合配置使用了 Cloudflare 适配器,其输出文件 _worker.js 的优先级更高。因此,中间件加载失败,Markdown 协商结果也无法在检查工具中体现。

实际上,存在一个 Markdown 文件,并且可以通过 head 部分的 link 标签访问它,但是检查工具将其检测为“未检测到 Markdown 协商!”

该死!他们做的东西半成品!

虽然我很想这么说,但我当然每天都依赖 Cloudflare。

感谢您批准我们的合作伙伴认证。

但对于像我这样一直努力在《灯塔》中获得满分的人来说,这有点令人失望。

获得满分是有可能的!但我不想为了追求高分而牺牲运营效率或承担额外成本。

有几种可能的解决方案。

  • 设置了一个独立的 Cloudflare Workers 实例来返回 Markdown。
  • 将预览页面转换为 CSR,并使其更接近完整的 SSG 配置。
  • 将 Cloudflare 的服务计划更改为商业计划,并使用转换规则重写 URL。

以上是一些方法。

没错,将 Cloudflare 的服务级别提升一级,就能使该检查工具的得分更接近 100 分。
然而,此时决定仅仅为此支付额外费用似乎有点值得商榷!

我们的目标并非在检测工具上获得满分,而是确保人工智能代理和语言学习模型(LLM)能够正确解读Liberogic网站上的信息。从语言学习模型阅读内容的角度来看,我们相信在解决必要步骤方面已经取得了显著进展。

与其为了获得满分而增加成本,不如专注于提高阅读能力。

它必须能够正常操作。

作为一家自由主义公司,我们希望优先考虑这种平衡。

别忘了 llms.txt!

虽然它没有列入此清单​​,但在Liberology/llms.txt它也支持这一点。

llms.txt 文件就像 LLM 的目录一样,告诉 LLM“此网站上有哪些信息以及要阅读哪些页面”。

这个概念类似于搜索引擎的 sitemap.xml,但它更适合 LLM,用于组织网站概览并提供重要内容的路径。

虽然它没有包含在检查工具的检查项目中,但 Cloudflare 优先考虑数据质量,特别是“如何以最小的噪声(即是否为 Markdown 格式)捕获内容(正文)”,因此他们可能故意省略了它。

我应该直接让它读取HTML代码吗?

当然,在让 AI 代理读取网站时,您可以让它直接分析 HTML。

然而,实际的网页除了主要内容外,还包含大量其他信息,例如导航、页眉、页脚、装饰元素和 JavaScript 控件。即使是看起来很自然的网页,对于低级矩阵 (LLM) 分析而言,也常常包含很多噪声。
强制将复杂的 HTML 转换为 Markdown 可能会破坏标题结构、列表和预期含义,甚至可能导致即使是法学硕士也难以阅读的数据。

虽然我这么说,但我相信随着人工智能的发展,这些问题很快就会得到改善,不过我认为现在重要的是一步一步地做好眼前需要做的事情。你们的网站在人工智能应用方面进展如何?

撰稿人

尽管身为首席执行官,他始终保持着平易近人的姿态。他乐于了解新技术,并享受科技带来的便利,他是一个亲力亲为、全身心投入的人。他对未来科技充满热情,并希望无论年龄多大都能继续体验新鲜事物。

Morimoto

项目经理/总监/成立于2007年

查看这位员工的文章

我们以可靠的团队结构和快速的响应能力而自豪。

在 Liberogic,我们经验丰富的员工积极推动项目进展,这也是我们受到客户高度评价的原因。
我们确保项目经理和主管得到合理分配,以确保整个项目的顺利进行。 我们避免因全额承诺而导致不必要的成本增加,并将资源分配给合适的人员和合适的岗位,并以快速掌握工作内容、创建和提交预算而闻名。

请注意,我们不积极参与SES式的现场工作。

我们支持几乎所有主流的项目管理和聊天工具,包括 Slack、Teams、Redmine、Backlog、Asana、Jira、Notion、Google Workspace、Zoom 和 Webex。

如果您有任何与网络相关的问题,请联系我们。

案例研究