Hace unos años, cuando alguien mencionaba "bots", la imagen habitual era la de pequeños programas automatizados indexando sitios web o, en el peor de los casos, enviando spam. Pero ahora, los bots han evolucionado. No son solo herramientas de automatización, ahora son los intermediarios entre nosotros y la información que consumimos en los chatbots de IA. Y en ese camino, están dejando un rastro de cambios que, según el informe “AI Scraping Is On The Rise. TollBit State of the Bots - Q4 2024”, podrían estar alterando para siempre el ecosistema de contenidos online.
La IA está cambiando el juego, pero ¿para quién?
Los grandes modelos de lenguaje, como ChatGPT, Claude y Perplexity, han traído consigo una revolución en la manera en que accedemos a la información. Ya no es necesario abrir múltiples pestañas y bucear entre enlaces, ahora, una pregunta bien formulada es suficiente para obtener un resumen estructurado, sin salir de la ventana del chatbot. Yo personalmente cada vez acudo menos a un buscador tradicional en busca de información.
El problema es que esta comodidad tiene un precio, y no lo estamos pagando los usuarios, sino los sitios web que crean y alojan el contenido. Según el informe de TollBit, los bots de IA están absorbiendo información a una escala sin precedentes, pero generan hasta un 95.7% menos de tráfico de retorno en comparación con Google. Dicho de otra forma, los chatbots se alimentan de la web, pero no están devolviendo visitas a quienes crean esos contenidos. Hay algo que está dejando de funcionar, un punto de inflexión que está a punto de cambiarlo todo.
El scraping de IA se ha disparado y bloquearlo no es tan fácil
Si miramos los datos, el aumento del scraping de IA es brutal. Entre el tercer y cuarto trimestre de 2024, la actividad de estos bots creció un 117%. Sitios de noticias, tecnología y comercio son algunos de los más afectados. Y lo peor es que, aunque muchos editores han intentado frenar el acceso a sus contenidos con robots.txt, este mecanismo se está quedando obsoleto. El 40% de los bots ignoran estas restricciones y siguen accediendo a la información como si nada.
No es solo un tema de identificación de bots conocidos. El scraping oculto, aquel que se hace sin que los agentes de usuario se identifiquen, es casi tan grande como el scraping declarado. Es decir, aunque las empresas de IA aseguren que respetan las reglas, los datos sugieren que una buena parte del acceso ocurre de manera encubierta.
Perplexity y la trampa del "bloqueo"
Uno de los casos más llamativos es el de Perplexity. En teoría, si un sitio bloquea su bot, este debería dejar de visitar la web. Sin embargo, TollBit detectó que, incluso cuando un sitio bloquea PerplexityBot, este sigue enviando tráfico de referencia.
“Cuando los sitios bloquean Perplexity, seguimos viendo que envían tráfico de referencia, lo que significa que aparentemente continúan scrapeando sitios de manera encubierta”.
Esto es grave por varias razones. Primero, porque refuerza la idea de que bloquear bots de IA no es tan efectivo como parece. Y segundo, porque sugiere que algunas empresas están usando métodos alternativos para seguir obteniendo datos, incluso si se les ha negado el acceso de manera explícita.
Cloudflare y el honeypot
Ante el crecimiento del scraping automatizado por parte de sistemas de IA, Cloudflare ha lanzado AI Labyrinth, una herramienta que no bloquea a los bots, sino que los desvía hacia una red de páginas falsas generadas por inteligencia artificial. Estas páginas, invisibles para los usuarios humanos, contienen textos verídicos, pero irrelevantes que no aportan valor al entrenamiento de modelos. El objetivo no es desinformar, sino hacer perder tiempo y recursos computacionales a los rastreadores, mientras se identifican nuevos patrones de comportamiento para reforzar los sistemas de defensa.
Esta propuesta rompe con el enfoque clásico del «robots.txt», que funcionaba como una especie de «código de honor» entre bots y editores. Sin embargo, ese acuerdo tácito está en crisis, ya que según Cloudflare, muchas empresas de IA, como Perplexity o Anthropic, están ignorando las reglas. Con más de 50.000 millones de solicitudes de bots al día, la compañía busca marcar un precedente: los creadores de contenido deben tener derecho a decidir cómo se usan sus datos. En plena carrera por alimentar modelos, AI Labyrinth introduce una defensa activa que puede cambiar las reglas del juego.
¿Hacia un nuevo modelo de monetización?
Si los bots de IA siguen creciendo a este ritmo y las visitas de retorno siguen cayendo, el modelo de negocio basado en publicidad online se vuelve insostenible para muchos creadores de contenido. Si los lectores ya no visitan los sitios porque las respuestas llegan directamente a un chatbot, los ingresos por anuncios se desploman. Y si las suscripciones eran ya un reto, ahora lo serán aún más.
La alternativa que plantea TollBit es clara, los editores y generadores de contenido deben comenzar a exigir licencias para el uso de su información en sistemas de IA.
“Aparte de los ingresos por licencias, no hay formas de monetizar a los visitantes no humanos en un sitio web; no se sirven anuncios y los robots no compran suscripciones”.
Esta no es una idea nueva, pero hasta ahora no ha existido un mercado estructurado para que las empresas de IA paguen por el contenido que utilizan. Quizás estemos viendo el nacimiento de un sistema de licencias donde los editores puedan cobrar por el acceso de estos bots. La gran pregunta es si las empresas de IA estarán dispuestas a pagar.
Una relación que debe redefinirse
El scraping de IA no es el villano de la historia, pero tampoco puede seguir operando sin reglas claras. Si queremos una web saludable y sostenible, el acceso a los contenidos debe ser justo para ambas partes. De lo contrario, corremos el riesgo de que, en unos años, la información que alimenta a estos sistemas sea cada vez más pobre y sesgada, porque los creadores de contenido habrán dejado de producir o sencillamente habremos entrado en un círculo vicioso en el que las propias IA sean las que generen esos contenidos.
Los bots llegaron para quedarse, pero la forma en que interactúan con la web todavía está en discusión. Y si algo está claro tras leer este informe, es que el debate sobre el acceso y monetización del contenido por parte de la IA apenas está comenzando.