robots.txt y sitemap: la base que Google usa para encontrar tu web
Esta semana revisé mi archivo robots.txt y me di cuenta de algo: llevo 27 años haciendo webs y nunca había escrito sobre el archivo que literalmente controla cómo Google ve mi trabajo. Es como ser mecánico y no explicar qué hace el motor.
Empiezo por aquí porque es la base. En los próximos posts te cuento cómo la web ha evolucionado: de robots.txt a llms.txt y después a agents.txt. Pero todo empieza aquí.
Qué es robots.txt (y qué NO es)
robots.txt es un archivo de texto plano que viven en la raíz de tu web (https://tudominio.es/robots.txt). Le dice a los crawlers qué URLs pueden o no pueden rastrear.
Lo que sí hace:
- Bloquear el acceso a directorios (
/api/,/admin/,/wp-admin/) - Señalar dónde está tu sitemap
- Establecer delays entre requests (algunos bots lo respetan)
- Controlar el crawl budget en sitios grandes
Lo que NO hace:
- Garantizar que una página no se indexe (para eso está
noindex) - Funcionar como firewall (es una petición, no una barrera)
- Funcionar si no está en la raíz exacta del dominio
Pro-tip: Si quieres que una página NO aparezca en Google, usa
<meta name="robots" content="noindex">o la cabeceraX-Robots-Tag: noindex.robots.txtsolo evita el rastreo, no la indexación. Google puede indexar URLs bloqueadas si otras páginas enlazan a ellas.

El robots.txt de asturwebs.es
Este es el archivo que genero automáticamente con Astro:
User-agent: *
Allow: /
Disallow: /api/
Sitemap: https://asturwebs.es/sitemap-index.xml
Tres líneas que hacen tres cosas:
Allow: /— Todos los bots pueden rastrear todoDisallow: /api/— Excepto la API, que es interna y no tiene valor de indexaciónSitemap:— Le dice a Google dónde encontrar el mapa completo
Si tu web no aparece en Google tan rápido como esperas, revisa tu robots.txt — un Disallow: / mal configurado puede bloquear todo el sitio sin que te des cuenta. Puedo auditar tu posicionamiento con datos reales de Search Console.
Qué es un sitemap y por qué necesitas uno
Un sitemap es un archivo XML que lista todas las URLs que quieres que Google indexe, con su fecha de última modificación y prioridad relativa.
sitemap.xml vs sitemap-index.xml
| Característica | sitemap.xml | sitemap-index.xml |
|---|---|---|
| Máx. URLs | 50.000 | Ilimitadas (via sub-sitemaps) |
| Tamaño máx. | 50 MB | 50 MB por sub-sitemap |
| Cuándo usarlo | Webs pequeñas (< 50k URLs) | Webs medianas/grandes o con tipos mixtos |
| Ejemplo | Blog personal con 20 posts | E-commerce con productos, categorías y blog |
En mi caso, Astro genera automáticamente un sitemap-index.xml que agrupa las URLs. No tengo 50.000 páginas, pero el formato index es más limpio y escalable.
Crawl budget: por qué importa si tienes muchas páginas
Google no rastrea tu web entera cada vez. Tiene un presupuesto de rastreo (crawl budget) limitado por dominio. Depende de:
- Autoridad del dominio (más autoridad = más presupuesto)
- Velocidad del servidor (si responde lento, Google reduce la frecuencia)
- Calidad del contenido (contenido duplicado desperdicia presupuesto)
Un robots.txt bien configurado + sitemap actualizado = Google gasta su presupuesto en lo que importa.
| Situación | Sin robots.txt optimizado | Con robots.txt + sitemap |
|---|---|---|
| Web 10 páginas | Sin impacto | Ligeramente más rápido |
| Blog 200+ posts | Google rastrea tags, feeds, páginas sin valor | Solo rastrea posts y páginas principales |
| E-commerce 5k+ productos | Desperdicio masivo de crawl budget | Prioriza productos activos y categorías |
API activa en /api/ | Google indexa endpoints internos | Bloqueados, presupuesto invertido en contenido |
La evolución: de la web clásica a la web de la IA
robots.txt y sitemap.xml llevan funcionando desde los 90. Son necesarios pero insuficientes en 2026.
La web ha evolucionado en tres capas:
| Capa | Archivo | Qué hace |
|---|---|---|
| Clásica | robots.txt + sitemap | Controla QUÉ se rastrea |
| Contexto | llms.txt + llms-full.txt | Dice CÓMO deben entenderte los LLMs |
| Agéntica | agents.txt + openapi.json | Define QUIÉN eres y QUÉ pueden hacer los agentes IA |
Si solo tienes robots.txt, Google te encuentra pero la IA no te entiende. Si solo tienes llms.txt, la IA te lee pero no puede actuar. Las tres capas juntas son la web que viene.
Cómo auditar tu robots.txt en 2 minutos
- Abre
https://tudominio.es/robots.txten el navegador - Verifica que no hay
Disallow: /suelto (bloquea todo) - Comprueba que el sitemap apunta a una URL real y accesible
- Usa Google Search Console → Inspección de URLs para ver si Google puede rastrear tus páginas principales
Mi auditoría SEO con datos reales de Search Console me enseñó que la mitad de mis posts no tenían enlaces internos — Google los encontraba por el sitemap, pero sin links internos su autoridad era mínima.
¿Tu web aparece en Google pero no en las primeras posiciones?
Audito tu posicionamiento con datos reales de Search Console y te digo exactamente qué mejorar.
Audita mi web →Preguntas frecuentes
¿Para qué sirve robots.txt si Google ya es inteligente?
robots.txt no dice a Google qué indexar, sino qué URLs puede rastrear. Sin él, Googlebot intenta acceder a todo —包括 páginas privadas, APIs, archivos de sistema — desperdiciando crawl budget y ralentizando la indexación de lo que realmente importa.
¿Cuál es la diferencia entre sitemap.xml y sitemap-index.xml?
Un sitemap.xml lista hasta 50.000 URLs. Un sitemap-index.xml es un índice que apunta a varios sitemaps individuales. Si tu web tiene más de 50.000 páginas o quieres separar por tipo (posts, páginas, imágenes), necesitas el formato index.
¿Puedo bloquear la IA con robots.txt?
Parcialmente. Puedes bloquear user-agents específicos como GPTBot o Bytespider, pero el cumplimiento es voluntario — no hay garantía de que el bot lo respete. Para control real sobre lo que los agentes IA pueden hacer con tus datos, necesitas agentes.txt.
¿Mi web necesita un sitemap si solo tiene 10 páginas?
Técnicamente no es obligatorio, pero sí recomendado. Un sitemap le dice a Google exactamente qué páginas existen y cuándo se actualizaron. Para webs pequeñas, la diferencia es mínima; para webs con páginas huérfanas (sin enlaces internos), es esencial.