robots.txt y sitemap: la base que Google usa para encontrar tu web
Esta semana revisé mi archivo robots.txt y me di cuenta de algo: llevo 27 años haciendo webs y nunca había escrito sobre el archivo que literalmente controla cómo Google ve mi trabajo. Es como ser mecánico y no explicar qué hace el motor.
Empiezo por aquí porque es la base. En los próximos posts te cuento cómo la web ha evolucionado: de robots.txt a llms.txt y después a agents.txt. Pero todo empieza aquí.
Qué es robots.txt (y qué NO es)
robots.txt es un archivo de texto plano que viven en la raíz de tu web (https://tudominio.es/robots.txt). Le dice a los crawlers qué URLs pueden o no pueden rastrear.
Lo que sí hace:
Bloquear el acceso a directorios
/api/, /admin/, /wp-admin/
Senalar dónde está tu sitemap
Google y otros crawlers lo leen automáticamente
Establecer delays entre requests
Algunos bots respetan Crawl-delay (Yandex, Bing, scrapers). Googlebot lo ignora — para limitar a Google, usa el panel de Crawl Rate en Search Console.
Controlar el crawl budget
Especialmente importante en sitios grandes
Lo que NO hace:
Garantizar que una página no se indexe
Para eso está noindex
Funcionar como firewall
Es una petición, no una barrera
Funcionar si no está en la raíz exacta del dominio
Debe estar en https://tudominio.es/robots.txt
Pro-tip
Si quieres que una página NO aparezca en Google, usa <meta name=“robots” content=“noindex”> o la cabecera X-Robots-Tag: noindex. robots.txt solo evita el rastreo, no la indexación. Google puede indexar URLs bloqueadas si otras páginas enlazan a ellas. Regla de oro: para que Google respete un noindex, la URL tiene que estar accesible (no bloqueada) en el robots.txt. Si pones Disallow: /admin/ y un noindex en esas páginas, Googlebot jamás leerá la etiqueta — y mantendrá la URL en el índice como “No hay información disponible”.
El robots.txt de asturwebs.es
Este es el archivo que genero automáticamente con Astro:
User-agent: *
Allow: /
Disallow: /api/
Sitemap: https://asturwebs.es/sitemap-index.xml
Tres líneas que hacen tres cosas:
Allow: / — Todos los bots pueden rastrear todo
Disallow: /api/ — Excepto la API, que es interna y no tiene valor de indexación
Sitemap: — Le dice a Google dónde encontrar el mapa completo
Si tu web no aparece en Google tan rápido como esperas, revisa tu robots.txt — un Disallow: / mal configurado puede bloquear todo el sitio sin que te des cuenta. Puedo auditar tu posicionamiento con datos reales de Search Console.
Qué es un sitemap y por qué necesitas uno
Un sitemap es un archivo XML que lista todas las URLs que quieres que Google indexe, con su fecha de última modificación y prioridad relativa.
sitemap.xml vs sitemap-index.xml
sitemap.xml
- Max. URLs: 50.000
- Tamano max.: 50 MB
- Cuando usarlo: Webs pequeñas (menos de 50k URLs)
- Ejemplo: Blog personal con 20 posts
sitemap-index.xml
- Max. URLs: 2.500 millones (50.000 sitemaps × 50.000 URLs)
- Tamano max.: 50 MB por sub-sitemap
- Cuando usarlo: Webs medianas/grandes o con tipos mixtos
- Ejemplo: E-commerce con productos, categorías y blog
En mi caso, Astro genera automáticamente un sitemap-index.xml que agrupa las URLs. No tengo 50.000 páginas, pero el formato index es más limpio y escalable.
Crawl budget: por qué importa si tienes muchas páginas
Google no rastrea tu web entera cada vez. Tiene un presupuesto de rastreo (crawl budget) limitado por dominio. Depende de:
Más autoridad = más presupuesto
Si responde lento, Google reduce la frecuencia
Contenido duplicado desperdicia presupuesto
Un robots.txt bien configurado + sitemap actualizado = Google gasta su presupuesto en lo que importa.
Sin optimizar
Sin impacto
Con robots.txt + sitemap
Ligeramente más rápido
Sin optimizar
Google rastrea tags, feeds, páginas sin valor
Con robots.txt + sitemap
Solo rastrea posts y páginas principales
Sin optimizar
Desperdicio masivo de crawl budget
Con robots.txt + sitemap
Prioriza productos activos y categorías
Sin optimizar
Google indexa endpoints internos
Con robots.txt + sitemap
Bloqueados, presupuesto invertido en contenido
La evolución: de la web clásica a la web de la IA
robots.txt y sitemap.xml llevan funcionando desde los 90. Son necesarios pero insuficientes en 2026.
La web ha evolucionado en tres capas:
robots.txt + sitemap
Controla QUÉ se rastrea
Si solo tienes robots.txt, Google te encuentra pero la IA no te entiende. Si solo tienes llms.txt, la IA te lee pero no puede actuar. Las tres capas juntas son la web que viene.
Cómo auditar tu robots.txt en 2 minutos
Abre https://tudominio.es/robots.txt en el navegador
Verifica que no hay Disallow: / suelto (bloquea todo)
Comprueba que el sitemap apunta a una URL real y accesible
Usa Google Search Console → Inspección de URLs para ver si Google puede rastrear tus páginas principales
Mi auditoría SEO con datos reales de Search Console me enseñó que la mitad de mis posts no tenían enlaces internos — Google los encontraba por el sitemap, pero sin links internos su autoridad era mínima.
¿Tu web aparece en Google pero no en las primeras posiciones?
Audito tu posicionamiento con datos reales de Search Console y te digo exactamente qué mejorar.
Audita mi webPreguntas frecuentes
¿Para qué sirve robots.txt si Google ya es inteligente?
robots.txt no dice a Google qué indexar, sino qué URLs puede rastrear. Sin él, Googlebot intenta acceder a todo —包括 páginas privadas, APIs, archivos de sistema — desperdiciando crawl budget y ralentizando la indexación de lo que realmente importa.
¿Cuál es la diferencia entre sitemap.xml y sitemap-index.xml?
Un sitemap.xml lista hasta 50.000 URLs. Un sitemap-index.xml es un índice que apunta a varios sitemaps individuales. Si tu web tiene más de 50.000 páginas o quieres separar por tipo (posts, páginas, imágenes), necesitas el formato index.
¿Puedo bloquear la IA con robots.txt?
Parcialmente. Puedes bloquear user-agents específicos como GPTBot o Bytespider, pero el cumplimiento es voluntario — no hay garantía de que el bot lo respete. Para control real sobre lo que los agentes IA pueden hacer con tus datos, necesitas agentes.txt.
¿Mi web necesita un sitemap si solo tiene 10 páginas?
Técnicamente no es obligatorio, pero sí recomendado. Un sitemap le dice a Google exactamente qué páginas existen y cuándo se actualizaron. Para webs pequeñas, la diferencia es mínima; para webs con páginas huérfanas (sin enlaces internos), es esencial.