¿Para qué sirve robots.txt si Google ya es inteligente?

robots.txt no dice a Google qué indexar, sino qué URLs puede rastrear. Sin él, Googlebot intenta acceder a todo —包括 páginas privadas, APIs, archivos de sistema — desperdiciando crawl budget y ralentizando la indexación de lo que realmente importa.

¿Cuál es la diferencia entre sitemap.xml y sitemap-index.xml?

Un sitemap.xml lista hasta 50.000 URLs. Un sitemap-index.xml es un índice que apunta a varios sitemaps individuales. Si tu web tiene más de 50.000 páginas o quieres separar por tipo (posts, páginas, imágenes), necesitas el formato index.

¿Puedo bloquear la IA con robots.txt?

Parcialmente. Puedes bloquear user-agents específicos como GPTBot o Bytespider, pero el cumplimiento es voluntario — no hay garantía de que el bot lo respete. Para control real sobre lo que los agentes IA pueden hacer con tus datos, necesitas agentes.txt.

¿Mi web necesita un sitemap si solo tiene 10 páginas?

Técnicamente no es obligatorio, pero sí recomendado. Un sitemap le dice a Google exactamente qué páginas existen y cuándo se actualizaron. Para webs pequeñas, la diferencia es mínima; para webs con páginas huérfanas (sin enlaces internos), es esencial.

robots.txt y sitemap: la base que Google usa para encontrar tu web

Esta semana revisé mi archivo robots.txt y me di cuenta de algo: llevo 27 años haciendo webs y nunca había escrito sobre el archivo que literalmente controla cómo Google ve mi trabajo. Es como ser mecánico y no explicar qué hace el motor.

Empiezo por aquí porque es la base. En los próximos posts te cuento cómo la web ha evolucionado: de robots.txt a llms.txt y después a agents.txt. Pero todo empieza aquí.

Qué es robots.txt (y qué NO es)

robots.txt es un archivo de texto plano que viven en la raíz de tu web (https://tudominio.es/robots.txt). Le dice a los crawlers qué URLs pueden o no pueden rastrear.

Lo que sí hace:

Bloquear el acceso a directorios (/api/, /admin/, /wp-admin/)
Señalar dónde está tu sitemap
Establecer delays entre requests (algunos bots lo respetan)
Controlar el crawl budget en sitios grandes

Lo que NO hace:

Garantizar que una página no se indexe (para eso está noindex)
Funcionar como firewall (es una petición, no una barrera)
Funcionar si no está en la raíz exacta del dominio

Pro-tip: Si quieres que una página NO aparezca en Google, usa <meta name="robots" content="noindex"> o la cabecera X-Robots-Tag: noindex. robots.txt solo evita el rastreo, no la indexación. Google puede indexar URLs bloqueadas si otras páginas enlazan a ellas.

Mapa digital de URLs conectadas como una ciudad nocturna

El robots.txt de asturwebs.es

Este es el archivo que genero automáticamente con Astro:

User-agent: *
Allow: /
Disallow: /api/

Sitemap: https://asturwebs.es/sitemap-index.xml

Tres líneas que hacen tres cosas:

Allow: / — Todos los bots pueden rastrear todo
Disallow: /api/ — Excepto la API, que es interna y no tiene valor de indexación
Sitemap: — Le dice a Google dónde encontrar el mapa completo

Si tu web no aparece en Google tan rápido como esperas, revisa tu robots.txt — un Disallow: / mal configurado puede bloquear todo el sitio sin que te des cuenta. Puedo auditar tu posicionamiento con datos reales de Search Console.

Qué es un sitemap y por qué necesitas uno

Un sitemap es un archivo XML que lista todas las URLs que quieres que Google indexe, con su fecha de última modificación y prioridad relativa.

sitemap.xml vs sitemap-index.xml

Característica	sitemap.xml	sitemap-index.xml
Máx. URLs	50.000	Ilimitadas (via sub-sitemaps)
Tamaño máx.	50 MB	50 MB por sub-sitemap
Cuándo usarlo	Webs pequeñas (< 50k URLs)	Webs medianas/grandes o con tipos mixtos
Ejemplo	Blog personal con 20 posts	E-commerce con productos, categorías y blog

En mi caso, Astro genera automáticamente un sitemap-index.xml que agrupa las URLs. No tengo 50.000 páginas, pero el formato index es más limpio y escalable.

Crawl budget: por qué importa si tienes muchas páginas

Google no rastrea tu web entera cada vez. Tiene un presupuesto de rastreo (crawl budget) limitado por dominio. Depende de:

Autoridad del dominio (más autoridad = más presupuesto)
Velocidad del servidor (si responde lento, Google reduce la frecuencia)
Calidad del contenido (contenido duplicado desperdicia presupuesto)

Un robots.txt bien configurado + sitemap actualizado = Google gasta su presupuesto en lo que importa.

Situación	Sin robots.txt optimizado	Con robots.txt + sitemap
Web 10 páginas	Sin impacto	Ligeramente más rápido
Blog 200+ posts	Google rastrea tags, feeds, páginas sin valor	Solo rastrea posts y páginas principales
E-commerce 5k+ productos	Desperdicio masivo de crawl budget	Prioriza productos activos y categorías
API activa en `/api/`	Google indexa endpoints internos	Bloqueados, presupuesto invertido en contenido

La evolución: de la web clásica a la web de la IA

robots.txt y sitemap.xml llevan funcionando desde los 90. Son necesarios pero insuficientes en 2026.

La web ha evolucionado en tres capas:

Capa	Archivo	Qué hace
Clásica	robots.txt + sitemap	Controla QUÉ se rastrea
Contexto	llms.txt + llms-full.txt	Dice CÓMO deben entenderte los LLMs
Agéntica	agents.txt + openapi.json	Define QUIÉN eres y QUÉ pueden hacer los agentes IA

Si solo tienes robots.txt, Google te encuentra pero la IA no te entiende. Si solo tienes llms.txt, la IA te lee pero no puede actuar. Las tres capas juntas son la web que viene.

Cómo auditar tu robots.txt en 2 minutos

Abre https://tudominio.es/robots.txt en el navegador
Verifica que no hay Disallow: / suelto (bloquea todo)
Comprueba que el sitemap apunta a una URL real y accesible
Usa Google Search Console → Inspección de URLs para ver si Google puede rastrear tus páginas principales

Mi auditoría SEO con datos reales de Search Console me enseñó que la mitad de mis posts no tenían enlaces internos — Google los encontraba por el sitemap, pero sin links internos su autoridad era mínima.

¿Tu web aparece en Google pero no en las primeras posiciones?

Audito tu posicionamiento con datos reales de Search Console y te digo exactamente qué mejorar.

Audita mi web →

robots.txt y sitemap: la base que Google usa para encontrar tu web

Qué es robots.txt (y qué NO es)

El robots.txt de asturwebs.es

Qué es un sitemap y por qué necesitas uno

sitemap.xml vs sitemap-index.xml

Crawl budget: por qué importa si tienes muchas páginas

La evolución: de la web clásica a la web de la IA

Cómo auditar tu robots.txt en 2 minutos

Preguntas frecuentes

Artículos relacionados

48 horas, 5 disciplinas, 1 persona: la IA cambió las reglas

Core Web Vitals 2026: qué son y cómo mejorarlos

Por qué abandoné WordPress después de 20 años (y por qué no lo hice antes)

¿Y si tu Socio Digital fuera Yo?