CoMP: la regla para rastrear IA con acuerdos

IAB Tech Lab puso sobre la mesa una idea que muchos editores venían pidiendo desde hace meses: que los modelos de IA no rastreen contenido por defecto, sino que primero exista un acuerdo comercial entre la empresa que entrena o opera el LLM y el publisher dueño del contenido. Ese marco se llama CoMP, por Commercially Operated and Managed Permissions, y apunta a meter orden en una zona que hoy funciona con demasiadas zonas grises.

La discusión no es teórica. Si tu medio publica noticias, análisis, guías o contenido evergreen, ya compite contra sistemas que leen, resumen y reutilizan ese material para responder consultas sin mandar tráfico de vuelta. Si trabajas en una empresa que entrena modelos, también te afecta, porque el costo de adquisición de datos, los permisos y el riesgo legal ya no se pueden tratar como un detalle de última hora. CoMP intenta poner una regla previa al rastreo: primero permiso y acuerdo; después crawling.

Qué propone CoMP y por qué aparece ahora

CoMP nace dentro de IAB Tech Lab, una organización que suele definir marcos técnicos para publicidad digital, medición y datos. En este caso, la propuesta apunta al punto más sensible del conflicto entre IA generativa y contenido editorial: el acceso automatizado a material protegido sin una relación comercial clara con su dueño.

La idea central es simple de explicar: si un LLM quiere usar contenido de un publisher, debe existir una autorización comercial y operativa antes de rastrear. No se trata solo de una etiqueta legal. La propuesta busca crear una capa de permisos que pueda ser leída por bots, sistemas de crawling y plataformas de IA para saber qué contenido está disponible, bajo qué condiciones y con qué límites.

Esto llega en un momento en el que varios actores ya están moviéndose por su cuenta. Algunos editores están negociando licencias directas con empresas de IA. Otros están bloqueando bots con robots.txt o reglas más específicas. Y algunos buscadores ya responden con resúmenes generados por IA que reducen el clic hacia la fuente original. CoMP intenta estandarizar ese caos para que no dependa de cada negociación aislada.

El problema que intenta resolver

Hoy el problema no es solo que una IA lea contenido. El problema es que puede leerlo a escala, sin un acuerdo previo, y luego devolver una respuesta que sustituye la visita al sitio original. Para un publisher, eso impacta en tres frentes: tráfico, monetización y control editorial.

Si tu negocio depende de publicidad programática o suscripciones, perder sesiones significa perder inventario, datos de audiencia y potencial de conversión. Para medios pequeños y medianos, especialmente en mercados como Ecuador, Colombia o Perú, el golpe puede ser más fuerte porque cada visita orgánica pesa más en el balance.

CoMP intenta que el acceso a contenido no sea un “primero rastreo, después vemos”, sino un “primero licencia, después acceso”. Ese cambio puede parecer técnico, pero en la práctica redefine quién puede usar qué, y bajo qué condiciones.

Qué no es CoMP

CoMP no es un bloqueador universal de bots. Tampoco es una ley, ni reemplaza contratos, ni elimina la necesidad de negociar términos de uso. Es un marco para permisos comerciales que busca estandarizar el intercambio entre publishers y empresas de IA.

Eso importa porque evita una interpretación exagerada. Si lo lees como una solución total, te vas a quedar corto. Si lo ves como una pieza más del rompecabezas, entiendes mejor su valor: puede ayudar a automatizar el consentimiento, facilitar la verificación y reducir la fricción operativa entre miles de sitios y múltiples crawlers.

Cómo cambia el juego para publishers

Para un publisher, el atractivo de CoMP está en recuperar control. Hoy muchos sitios tienen dos opciones poco elegantes: dejar pasar bots o bloquearlos por completo. La primera opción puede alimentar modelos sin compensación; la segunda puede cerrar la puerta a relaciones comerciales legítimas con buscadores, asistentes y plataformas de IA.

Con CoMP, la promesa es más fina: no todo bot entra igual. El acceso estaría condicionado por permisos comerciales verificables. En otras palabras, ya no discutirías solo si un crawler puede entrar, sino bajo qué contrato y con qué alcance.

Eso abre una oportunidad concreta para medios, agencias de contenido, verticales especializados y plataformas de información. Si tu contenido tiene valor diferencial, puedes convertir ese valor en un activo negociable. No todo el mundo podrá cobrar lo mismo, pero sí puede existir una base más clara para licenciar archivo, noticias exclusivas, datos estructurados o contenido premium.

Qué puede monetizar un medio

No todos los tipos de contenido tienen el mismo valor para una empresa de IA. Un archivo histórico de noticias, una base de comparativas de productos, datos financieros, cobertura local y contenido especializado suelen ser más atractivos que notas genéricas.

Aquí tienes una forma práctica de verlo:

Tipo de contenido	Valor para LLMs	Riesgo para el publisher	Posible uso comercial
Noticias de actualidad	Alto	Pérdida de tráfico inmediato	Licencias por acceso y entrenamiento
Archivo histórico	Alto	Reutilización sin atribución	Acuerdos de dataset o archivo
Reviews y comparativas	Medio-alto	Sustitución de clics en búsqueda	Licencias para respuestas sintetizadas
Contenido local o regional	Alto en LatAm	Difícil de reemplazar	Acuerdos por cobertura geográfica
Contenido genérico SEO	Medio	Alta competencia	Menor prioridad comercial

La tabla no significa que todo se venda igual. Sí muestra que el valor no está en publicar más, sino en publicar algo que un modelo realmente quiera consumir. Si tu medio produce información local sobre regulación, consumo, educación o servicios públicos, tu ventaja puede ser mayor de la que parece.

Qué deberías revisar en tu redacción o sitio

Si administras un medio o una web editorial, hay una lista corta de cosas que conviene revisar desde ya:

Identifica qué contenidos generan más valor de largo plazo y cuáles viven solo de tráfico inmediato.
Revisa tus reglas de robots.txt y tu política de acceso para bots conocidos.
Documenta qué partes de tu archivo son públicas, cuáles requieren suscripción y cuáles tienen licencia propia.
Define si quieres negociar acceso para entrenamiento, para búsqueda con IA o para ambos.
Habla con tu equipo legal o comercial antes de aceptar acuerdos poco claros sobre uso de contenido.

Ese orden importa. Muchas veces el problema no es la falta de contenido, sino la falta de inventario comercializable. Si no sabes qué tienes, no puedes negociar bien.

Qué cambia para buscadores y plataformas de IA

Para los buscadores, CoMP puede ser una forma de reducir fricción con publishers que ya están cansados de enviar tráfico a sistemas que luego responden sin devolver audiencia. Para las plataformas de IA, el marco empuja hacia una realidad menos cómoda: el acceso masivo y barato a contenido no puede ser el supuesto base para siempre.

Eso no significa que los modelos dejen de entrenarse con datos web. Significa que el costo de acceso, la trazabilidad y el consentimiento pueden volverse parte central del stack. En vez de un scraping silencioso, aparece una negociación más parecida a la de licencias de música, prensa o imágenes de stock.

También hay una lectura competitiva. Si una plataforma logra establecer un sistema de permisos estándar, puede ganar confianza con publishers y diferenciarse frente a actores que siguen operando con políticas opacas. En mercados donde la regulación va detrás de la tecnología, un estándar técnico puede terminar pesando casi tanto como una norma.

Riesgos para empresas que entrenan modelos

Si entrenas modelos, CoMP te obliga a pensar en tres variables que antes podían quedar para después:

origen del contenido,
prueba de permiso,
alcance del uso.

No basta con decir que el contenido estaba “en la web”. También importa si el publisher autorizó el rastreo, si el permiso cubre entrenamiento o solo inferencia, y si el acuerdo aplica a un país, una región o un catálogo completo.

Esto puede subir costos, pero también reduce exposición legal y reputacional. Un modelo entrenado con datos de procedencia dudosa puede terminar en disputas que te consumen más dinero que una licencia bien negociada. En la práctica, CoMP empuja a profesionalizar la compra de datos.

Qué deberían mirar los equipos técnicos

Si trabajas en producto, legal o data, conviene revisar cómo se integraría un permiso comercial en tu pipeline. No hace falta rehacer todo el stack, pero sí diseñar puntos de control claros.

Por ejemplo:

verificación de permisos antes del crawling,
registro de origen por dominio o dataset,
expiración de licencias,
exclusión automática de fuentes no autorizadas,
auditoría de uso por modelo o versión.

Ese tipo de controles no solo sirven para cumplir. También ayudan a responder preguntas internas básicas: qué datos usó este modelo, de dónde salieron y por cuánto tiempo teníamos derecho a usarlos.

El impacto real en LatAm: menos teoría, más negociación

En Latinoamérica, el debate tiene un matiz distinto. Muchos publishers trabajan con equipos pequeños, presupuestos ajustados y dependencia fuerte del tráfico orgánico. Cuando una IA responde una consulta sin mandar clic, el impacto se siente más rápido que en medios globales con múltiples líneas de ingreso.

Además, la región tiene una mezcla particular: medios grandes con capacidad de negociar, medios medianos que sobreviven con publicidad y nichos locales que son valiosos por su cobertura territorial. CoMP puede beneficiar a los tres, pero no de la misma forma. Los grandes tendrán más poder de negociación. Los pequeños necesitarán plantillas, asociaciones sectoriales o intermediarios para no quedar fuera.

En Ecuador, por ejemplo, un medio con cobertura de economía local, regulación, transporte o educación puede tener más valor para un sistema de IA que un sitio generalista saturado de contenido duplicado. El reto es convertir ese valor en un acuerdo real. Ahí es donde un marco como CoMP puede ayudar, porque baja la fricción para que el permiso no dependa de una negociación artesanal con cada empresa.

Qué puede pasar en los próximos meses

Si CoMP gana tracción, podrías ver tres movimientos bastante concretos:

Más publishers revisando políticas de acceso para bots.
Más empresas de IA pidiendo licencias formales antes de rastrear.
Más herramientas de verificación para distinguir crawling autorizado de scraping no autorizado.

También es probable que aparezcan intermediarios. Igual que pasó con la compra de publicidad programática, el mercado puede crear capas de agregación, gestión de permisos y medición. No todos los publishers negociarán directo con cada empresa de IA.

Eso puede ser una ventaja si reduces complejidad, pero también un riesgo si terminas cediendo margen a terceros. Por eso conviene mirar el detalle del contrato, no solo el titular.

Qué deberías hacer si publicas o entrenas modelos

Si eres publisher, no esperes a que el mercado se ordene solo. Hay decisiones que puedes tomar ya mismo para llegar mejor parado a cualquier marco de permisos.

Si trabajas en un medio

Mapea tus activos más valiosos: archivo, exclusivas, bases de datos, guías y contenido local.
Revisa qué parte de tu tráfico proviene de buscadores y cuánto depende de contenido que una IA puede resumir.
Define una postura comercial clara: bloquear, licenciar o negociar por categorías.
Documenta tus políticas de acceso para crawlers y actualízalas con legal.
Si tienes audiencia en LatAm, piensa en cómo empaquetar el valor regional, no solo el volumen.

Si trabajas en una empresa de IA

Audita tus fuentes de entrenamiento y de retrieval.
Separa fuentes abiertas, fuentes con licencia y fuentes con permisos pendientes.
Pide evidencia del derecho de uso antes de incorporar contenido nuevo.
Diseña un sistema para revocar acceso si una licencia expira.
No asumas que una política pública de un sitio equivale a permiso comercial.

Ese punto final es clave. Una política pública puede decirte qué hacer o no hacer con un bot, pero no reemplaza un acuerdo comercial cuando el uso es masivo, persistente o monetizado.

Tabla resumen

Pregunta corta	Respuesta corta
¿Qué es CoMP?	Un marco para permisos comerciales antes de rastrear contenido con IA.
¿A quién afecta más?	A publishers, empresas de IA y buscadores que usan contenido editorial.
¿Qué problema resuelve?	El scraping sin acuerdo previo y la falta de control del contenido.
¿Qué gana un medio?	Más control, potencial de licencias y mejor posición negociadora.
¿Qué gana una empresa de IA?	Menos riesgo legal y una vía más clara para usar contenido.
¿Por qué importa en LatAm?	Porque el tráfico orgánico vale mucho y los medios tienen menos margen para perderlo.

CoMP no elimina el conflicto entre IA y contenido editorial. Lo ordena un poco más. Y en esta etapa, ordenar ya es bastante. Si tu negocio depende de publicar o de entrenar modelos, el cambio importante no es técnico sino comercial: quién autoriza, quién cobra y quién puede usar qué antes de que el bot entre.

Preguntas frecuentes

¿Qué significa CoMP en este contexto?

CoMP es un marco propuesto por IAB Tech Lab para gestionar permisos comerciales entre publishers y empresas de IA antes de permitir el rastreo de contenido. La idea es que el acceso no ocurra por defecto, sino después de un acuerdo verificable. Eso busca reducir el scraping sin consentimiento y dar más control al dueño del contenido.

¿CoMP reemplaza a robots.txt o a un contrato?

No. CoMP no elimina robots.txt ni sustituye un contrato legal. Más bien funciona como una capa de estandarización para que los permisos comerciales puedan leerse y aplicarse de forma más ordenada por crawlers y plataformas.

¿Por qué esto importa tanto para los publishers?

Porque muchos medios ya están viendo cómo las respuestas generadas por IA capturan consultas que antes terminaban en clics hacia su sitio. Si el contenido se usa sin acuerdo, el publisher pierde tráfico, datos de audiencia y capacidad de monetización. CoMP intenta darles más control y una base más clara para negociar licencias.

¿Qué cambia para una empresa que entrena modelos?

Cambia el punto de partida. Ya no alcanza con encontrar contenido disponible en la web; también hay que verificar si existe permiso comercial para rastrearlo y usarlo. Eso puede aumentar costos, pero también reduce riesgos legales y reputacionales.

¿Este marco aplica igual en LatAm que en Estados Unidos?

El marco es global en su intención, pero su impacto en LatAm puede ser más fuerte porque muchos medios dependen mucho del tráfico orgánico y tienen menos margen para absorber pérdidas. Además, los publishers regionales suelen tener contenido local difícil de reemplazar, lo que les da poder de negociación si organizan bien sus activos.

¿Un medio pequeño puede beneficiarse de CoMP?

Sí, aunque probablemente no negocie igual que un grupo grande. Un medio pequeño puede usar CoMP como base para ordenar su inventario, definir qué contenido licenciar y exigir condiciones más claras. Si su cobertura es local o especializada, puede tener más valor del que parece.

¿Qué debería revisar hoy un equipo editorial?

Debería revisar qué contenido tiene más valor comercial, cómo están configuradas las reglas para bots y si existen políticas claras sobre licencias y reutilización. También conviene hablar con legal o con el área comercial antes de aceptar acuerdos ambiguos sobre entrenamiento o crawling.

Azirgo

¿Listo para construir tu Producto Digital?

Sitios web, apps móviles, software a medida y soluciones blockchain. Cuéntanos qué tienes en mente y armamos un plan claro contigo.

Cotización clara en 48 horas
Equipo en Ecuador, atención en español
Desde un MVP hasta un producto en producción

Empezar cotización Ver portafolio

O escríbenos a contacto@azirgo.com