En Liberogic, estamos trabajando para estructurar nuestro propio sitio de manera que sea fácil de leer para agentes de IA y LLM.
Se ha vuelto común que no solo los motores de búsqueda, sino también LLM como Claude, Gemini y ChatGPT, así como agentes de IA, lean sitios web, organicen información, realicen comparaciones e investiguen en nombre de los usuarios.
En el sitio de Liberogic también estamos preparando robots.txt, sitemap, Link headers, llms.txt, generación de archivos Markdown por artículo y otros elementos para que la IA pueda leerlo.
Esta vez escribiremos un artículo sobre el "¿Está tu sitio listo para agentes?" que Cloudflare publicó hace dos semanas.
Verificación como Content Site
El sitio de Liberogic es un sitio corporativo y de contenido que publica información de empresa, introducción de servicios, noticias, columnas, casos de estudio y similares. No es un sitio de comercio electrónico ni una aplicación API que implique autenticación OAuth.
Por lo tanto, al verificar, seleccionamos el tipo de sitio "Content Site".
Los elementos relacionados con Commerce, API, Auth y MCP están fuera del alcance de esta evaluación; nos enfocamos principalmente en los siguientes aspectos.
- Discoverability
- Content Accessibility
- Bot Access Control
Como resultado…….. la puntuación es 83 puntos, Nivel 2 «Bot-Aware» 😭
¿Por qué no es 100 puntos!
Verificación / confirmación inmediata
En esta verificación, Discoverability obtuvo 100 puntos y Bot Access Control también obtuvo 100 puntos.
Hemos implementado elementos como robots.txt, sitemap, Link headers, reglas para bots de IA y Content Signals. Se han establecido las directrices básicas para que los bots de IA descubran el sitio y comprendan la política de acceso.
En pocas palabras,
- Permitir que encuentren la existencia del sitio
- Comunicar dónde se encuentra el contenido
- Indicar la política de acceso a los bots
- Emitir señales optimizadas para IA
y otras áreas ya han sido implementadas.
Por otro lado, la sección de Content Accessibility obtuvo una puntuación de 0 (TT)
Viendo solo esto, se podría pensar «espera, ¿no se puede leer el contenido?», pero la realidad es un poco diferente.
El contenido Markdown en sí ya está preparado
En el sitio de Liberogic, ya se generan archivos en formato Markdown, fáciles de leer para IA, en una proporción considerable para contenido de artículos y casos de estudio.
Tanto los artículos como los casos de estudio tienen archivos Markdown correctamente preparados, las etiquetas de enlace hacia versiones Markdown del contenido están configuradas en el head de cada página, y también hemos establecido una ruta para que los agentes de IA reales accedan a los archivos Markdown.
No es que no sea compatible con Markdown; lo que ocurre es que hemos habilitado la obtención del cuerpo de texto en un formato legible para LLM, por lo que no estamos en un estado de «no estar preparados para que IA lo lea».
Entonces, ¿por qué no obtenemos 100 puntos? 👺
La razón por la que no alcanzamos 100 puntos no es porque el sitio no esté haciendo nada, sino porque la compatibilidad entre la estructura de implementación actual y las especificaciones de evaluación de la herramienta de verificación no son ideales.
El sitio de Liberogic está implementado con SSG de Astro y utiliza un enfoque híbrido con SSR en páginas de vista previa.
Típicamente, la negociación de Markdown se maneja en el middleware, pero debido a nuestra configuración híbrida utilizamos el adaptador Cloudflare, cuya salida _worker.js tiene prioridad. Esto significa que el middleware no se carga, y la herramienta de verificación no refleja la negociación de Markdown.
En realidad, tenemos archivos Markdown y también se puede acceder a ellos desde las etiquetas link en el head, pero la herramienta de verificación los evalúa diciendo "¡No se puede confirmar la negociación de Markdown!"
¡Maldita sea! ¡Hicieron un trabajo a medias!
Aunque tengo ganas de decir eso, por supuesto estoy en deuda diario con Cloudflare.
Muchas gracias también por la aprobación de la certificación como socio.
Pero habiendo mantenido puntuaciones de 100 en Lighthouse, esto es un poco frustrante.
¡Es posible lograr 100 puntos! Pero no quiero reducir la eficiencia operativa ni incurrir en costos solo por la puntuación.
Hay varias formas posibles de abordarlo.
- Configurar un Cloudflare Workers adicional para manejar la devolución de Markdown.
- Convertir la página de vista previa a CSR y alinearla completamente con una configuración SSG pura.
- Cambiar el plan de servicios de Cloudflare a plan empresarial y reescribir URLs usando Transform Rules
es ese tipo de método.
Exacto, si elevamos el servicio de Cloudflare un nivel, es posible acercarse a los 100 puntos en la evaluación de la herramienta de verificación.
Sin embargo, en este momento, pagar un costo adicional solo para eso es un poco cuestionable.
El propósito no es obtener una puntuación perfecta en la herramienta de verificación, sino garantizar que los agentes de IA y los LLM puedan leer correctamente la información en el sitio de Liberogic. Desde la perspectiva de que los LLM lean el contenido, creemos que ya hemos avanzado bastante en las medidas necesarias.
Es mejor asegurar que se lea correctamente que aumentar los costos solo para obtener 100 puntos.
Poder operarlo correctamente.
Como Liberogic, queremos mantener ese equilibrio.
¡No olvides llms.txt!
No está incluido en los elementos a verificar esta vez, pero Liberogic también es compatible con /llms.txt.
llms.txt es un archivo como un índice que comunica a los LLM «qué información hay en este sitio y qué páginas debo leer».
Es un concepto similar al sitemap.xml orientado a motores de búsqueda, pero tiene el propósito de organizar la descripción general del sitio y las rutas hacia contenido importante específicamente para LLMs.
No está incluido en los elementos de inspección de la herramienta de verificación, pero es posible que Cloudflare lo haya excluido deliberadamente porque prioriza la calidad de los datos: "qué tan bien se puede obtener el contenido (body) con bajo ruido (convertido a Markdown)".
¿Basta con alimentar el HTML tal cual?
Cuando haces leer un sitio web a un agente de IA, por supuesto que puedes analizar directamente el HTML tal como está.
Sin embargo, las páginas web reales contienen mucha información más allá del contenido principal: navegación, encabezados, pies de página, elementos decorativos y controles por JavaScript. Aunque una página se vea natural para nosotros, a menudo genera mucho ruido para los LLMs.
Cuando conviertes HTML complejo a Markdown por la fuerza, la estructura de encabezados, listas y la intención de la expresión pueden colapsar, lo que resulta en datos que son difíciles de leer incluso para los LLMs.
Dicho esto, estos aspectos seguramente mejorarán rápidamente con la evolución de la IA, pero creemos que es importante hacer una cosa a la vez, lo que sea necesario ahora. ¿Qué tan avanzada está ya la preparación en vuestros sitios?
CEO que siempre actúa como contraparte. Entiende nuevas tecnologías y siente alegría en los momentos en que algo se vuelve más conveniente; es una persona que adora trabajar en el terreno y se sumerge completamente. Entusiasmado por las tecnologías del futuro, quiere seguir disfrutando de nuevas experiencias sin importar su edad.
Morimoto
Gerente de Proyectos / Director / Fundado en 2007