Saltar al contenido
Esquema visual de un archivo robots.txt y un sitemap conectados con el icono de Googlebot
SEOrendimientodesarrollo web

robots.txt y sitemap: la base que Google usa para encontrar tu web

P Pedro Luis Cuevas Villarrubia

Esta semana revisé mi archivo robots.txt y me di cuenta de algo: llevo 27 años haciendo webs y nunca había escrito sobre el archivo que literalmente controla cómo Google ve mi trabajo. Es como ser mecánico y no explicar qué hace el motor.

Empiezo por aquí porque es la base. En los próximos posts te cuento cómo la web ha evolucionado: de robots.txt a llms.txt y después a agents.txt. Pero todo empieza aquí.

Qué es robots.txt (y qué NO es)

robots.txt es un archivo de texto plano que viven en la raíz de tu web (https://tudominio.es/robots.txt). Le dice a los crawlers qué URLs pueden o no pueden rastrear.

Lo que sí hace:

  • Bloquear el acceso a directorios (/api/, /admin/, /wp-admin/)
  • Señalar dónde está tu sitemap
  • Establecer delays entre requests (algunos bots lo respetan)
  • Controlar el crawl budget en sitios grandes

Lo que NO hace:

  • Garantizar que una página no se indexe (para eso está noindex)
  • Funcionar como firewall (es una petición, no una barrera)
  • Funcionar si no está en la raíz exacta del dominio

Pro-tip: Si quieres que una página NO aparezca en Google, usa <meta name="robots" content="noindex"> o la cabecera X-Robots-Tag: noindex. robots.txt solo evita el rastreo, no la indexación. Google puede indexar URLs bloqueadas si otras páginas enlazan a ellas.

Mapa digital de URLs conectadas como una ciudad nocturna

El robots.txt de asturwebs.es

Este es el archivo que genero automáticamente con Astro:

User-agent: *
Allow: /
Disallow: /api/

Sitemap: https://asturwebs.es/sitemap-index.xml

Tres líneas que hacen tres cosas:

  1. Allow: / — Todos los bots pueden rastrear todo
  2. Disallow: /api/ — Excepto la API, que es interna y no tiene valor de indexación
  3. Sitemap: — Le dice a Google dónde encontrar el mapa completo

Si tu web no aparece en Google tan rápido como esperas, revisa tu robots.txt — un Disallow: / mal configurado puede bloquear todo el sitio sin que te des cuenta. Puedo auditar tu posicionamiento con datos reales de Search Console.

Qué es un sitemap y por qué necesitas uno

Un sitemap es un archivo XML que lista todas las URLs que quieres que Google indexe, con su fecha de última modificación y prioridad relativa.

sitemap.xml vs sitemap-index.xml

Característicasitemap.xmlsitemap-index.xml
Máx. URLs50.000Ilimitadas (via sub-sitemaps)
Tamaño máx.50 MB50 MB por sub-sitemap
Cuándo usarloWebs pequeñas (< 50k URLs)Webs medianas/grandes o con tipos mixtos
EjemploBlog personal con 20 postsE-commerce con productos, categorías y blog

En mi caso, Astro genera automáticamente un sitemap-index.xml que agrupa las URLs. No tengo 50.000 páginas, pero el formato index es más limpio y escalable.

Crawl budget: por qué importa si tienes muchas páginas

Google no rastrea tu web entera cada vez. Tiene un presupuesto de rastreo (crawl budget) limitado por dominio. Depende de:

  • Autoridad del dominio (más autoridad = más presupuesto)
  • Velocidad del servidor (si responde lento, Google reduce la frecuencia)
  • Calidad del contenido (contenido duplicado desperdicia presupuesto)

Un robots.txt bien configurado + sitemap actualizado = Google gasta su presupuesto en lo que importa.

SituaciónSin robots.txt optimizadoCon robots.txt + sitemap
Web 10 páginasSin impactoLigeramente más rápido
Blog 200+ postsGoogle rastrea tags, feeds, páginas sin valorSolo rastrea posts y páginas principales
E-commerce 5k+ productosDesperdicio masivo de crawl budgetPrioriza productos activos y categorías
API activa en /api/Google indexa endpoints internosBloqueados, presupuesto invertido en contenido

La evolución: de la web clásica a la web de la IA

robots.txt y sitemap.xml llevan funcionando desde los 90. Son necesarios pero insuficientes en 2026.

La web ha evolucionado en tres capas:

CapaArchivoQué hace
Clásicarobots.txt + sitemapControla QUÉ se rastrea
Contextollms.txt + llms-full.txtDice CÓMO deben entenderte los LLMs
Agénticaagents.txt + openapi.jsonDefine QUIÉN eres y QUÉ pueden hacer los agentes IA

Si solo tienes robots.txt, Google te encuentra pero la IA no te entiende. Si solo tienes llms.txt, la IA te lee pero no puede actuar. Las tres capas juntas son la web que viene.

Cómo auditar tu robots.txt en 2 minutos

  1. Abre https://tudominio.es/robots.txt en el navegador
  2. Verifica que no hay Disallow: / suelto (bloquea todo)
  3. Comprueba que el sitemap apunta a una URL real y accesible
  4. Usa Google Search Console → Inspección de URLs para ver si Google puede rastrear tus páginas principales

Mi auditoría SEO con datos reales de Search Console me enseñó que la mitad de mis posts no tenían enlaces internos — Google los encontraba por el sitemap, pero sin links internos su autoridad era mínima.


¿Tu web aparece en Google pero no en las primeras posiciones?

Audito tu posicionamiento con datos reales de Search Console y te digo exactamente qué mejorar.

Audita mi web →
P

Pedro Luis Cuevas Villarrubia

Innovation Practitioner, WebMaster, SysAdmin & SEO · AI Agent Architect & Advanced Prompt Engineer

Hablar con Pedro

Preguntas frecuentes

¿Para qué sirve robots.txt si Google ya es inteligente?

robots.txt no dice a Google qué indexar, sino qué URLs puede rastrear. Sin él, Googlebot intenta acceder a todo —包括 páginas privadas, APIs, archivos de sistema — desperdiciando crawl budget y ralentizando la indexación de lo que realmente importa.

¿Cuál es la diferencia entre sitemap.xml y sitemap-index.xml?

Un sitemap.xml lista hasta 50.000 URLs. Un sitemap-index.xml es un índice que apunta a varios sitemaps individuales. Si tu web tiene más de 50.000 páginas o quieres separar por tipo (posts, páginas, imágenes), necesitas el formato index.

¿Puedo bloquear la IA con robots.txt?

Parcialmente. Puedes bloquear user-agents específicos como GPTBot o Bytespider, pero el cumplimiento es voluntario — no hay garantía de que el bot lo respete. Para control real sobre lo que los agentes IA pueden hacer con tus datos, necesitas agentes.txt.

¿Mi web necesita un sitemap si solo tiene 10 páginas?

Técnicamente no es obligatorio, pero sí recomendado. Un sitemap le dice a Google exactamente qué páginas existen y cuándo se actualizaron. Para webs pequeñas, la diferencia es mínima; para webs con páginas huérfanas (sin enlaces internos), es esencial.

Artículos relacionados

¿Y si tu Socio Digital fuera Yo?

Pedro Luis Cuevas Villarrubia · Innovation Practitioner, WebMaster, SysAdmin & SEO · AI Agent Architect & Advanced Prompt Engineer

Hace dos décadas, tener una web era suficiente. Luego llegó el SEO, luego el móvil, luego las redes. Ahora la IA lo cambia todo a velocidad exponencial. No necesitas alguien que te haga la web. Necesitas alguien que conozca tu proyecto, que esté al día del avance tecnológico y que sepa aplicarlo a lo tuyo. Eso es un Socio Digital.

Asesoría Diseño Web SEO Hosting IA Mantenimiento
¿Queda sitio?