Saltar al contenido
Esquema visual de un archivo robots.txt y un sitemap conectados con el icono de Googlebot
SEOrendimientodesarrollo web

robots.txt y sitemap: la base que Google usa para encontrar tu web

P Pedro Luis Cuevas Villarrubia

Esta semana revisé mi archivo robots.txt y me di cuenta de algo: llevo 27 años haciendo webs y nunca había escrito sobre el archivo que literalmente controla cómo Google ve mi trabajo. Es como ser mecánico y no explicar qué hace el motor.

Empiezo por aquí porque es la base. En los próximos posts te cuento cómo la web ha evolucionado: de robots.txt a llms.txt y después a agents.txt. Pero todo empieza aquí.

Qué es robots.txt (y qué NO es)

robots.txt es un archivo de texto plano que viven en la raíz de tu web (https://tudominio.es/robots.txt). Le dice a los crawlers qué URLs pueden o no pueden rastrear.

Lo que sí hace:

SI

Bloquear el acceso a directorios

/api/, /admin/, /wp-admin/

SI

Senalar dónde está tu sitemap

Google y otros crawlers lo leen automáticamente

SI

Establecer delays entre requests

Algunos bots respetan Crawl-delay (Yandex, Bing, scrapers). Googlebot lo ignora — para limitar a Google, usa el panel de Crawl Rate en Search Console.

SI

Controlar el crawl budget

Especialmente importante en sitios grandes

Lo que NO hace:

NO

Garantizar que una página no se indexe

Para eso está noindex

NO

Funcionar como firewall

Es una petición, no una barrera

NO

Funcionar si no está en la raíz exacta del dominio

Debe estar en https://tudominio.es/robots.txt

Pro-tip

Si quieres que una página NO aparezca en Google, usa <meta name=“robots” content=“noindex”> o la cabecera X-Robots-Tag: noindex. robots.txt solo evita el rastreo, no la indexación. Google puede indexar URLs bloqueadas si otras páginas enlazan a ellas. Regla de oro: para que Google respete un noindex, la URL tiene que estar accesible (no bloqueada) en el robots.txt. Si pones Disallow: /admin/ y un noindex en esas páginas, Googlebot jamás leerá la etiqueta — y mantendrá la URL en el índice como “No hay información disponible”.

Mapa digital de URLs conectadas como una ciudad nocturna

El robots.txt de asturwebs.es

Este es el archivo que genero automáticamente con Astro:

User-agent: *
Allow: /
Disallow: /api/

Sitemap: https://asturwebs.es/sitemap-index.xml

Tres líneas que hacen tres cosas:

1

Allow: / — Todos los bots pueden rastrear todo

2

Disallow: /api/ — Excepto la API, que es interna y no tiene valor de indexación

3

Sitemap: — Le dice a Google dónde encontrar el mapa completo

Si tu web no aparece en Google tan rápido como esperas, revisa tu robots.txt — un Disallow: / mal configurado puede bloquear todo el sitio sin que te des cuenta. Puedo auditar tu posicionamiento con datos reales de Search Console.

Qué es un sitemap y por qué necesitas uno

Un sitemap es un archivo XML que lista todas las URLs que quieres que Google indexe, con su fecha de última modificación y prioridad relativa.

sitemap.xml vs sitemap-index.xml

sitemap.xml

  • Max. URLs: 50.000
  • Tamano max.: 50 MB
  • Cuando usarlo: Webs pequeñas (menos de 50k URLs)
  • Ejemplo: Blog personal con 20 posts

sitemap-index.xml

  • Max. URLs: 2.500 millones (50.000 sitemaps × 50.000 URLs)
  • Tamano max.: 50 MB por sub-sitemap
  • Cuando usarlo: Webs medianas/grandes o con tipos mixtos
  • Ejemplo: E-commerce con productos, categorías y blog

En mi caso, Astro genera automáticamente un sitemap-index.xml que agrupa las URLs. No tengo 50.000 páginas, pero el formato index es más limpio y escalable.

Crawl budget: por qué importa si tienes muchas páginas

Google no rastrea tu web entera cada vez. Tiene un presupuesto de rastreo (crawl budget) limitado por dominio. Depende de:

Autoridad del dominio

Más autoridad = más presupuesto

Velocidad del servidor

Si responde lento, Google reduce la frecuencia

Calidad del contenido

Contenido duplicado desperdicia presupuesto

Un robots.txt bien configurado + sitemap actualizado = Google gasta su presupuesto en lo que importa.

10 págs

Sin optimizar

Sin impacto

Con robots.txt + sitemap

Ligeramente más rápido

200+ posts

Sin optimizar

Google rastrea tags, feeds, páginas sin valor

Con robots.txt + sitemap

Solo rastrea posts y páginas principales

5k+ productos

Sin optimizar

Desperdicio masivo de crawl budget

Con robots.txt + sitemap

Prioriza productos activos y categorías

API /api/

Sin optimizar

Google indexa endpoints internos

Con robots.txt + sitemap

Bloqueados, presupuesto invertido en contenido

La evolución: de la web clásica a la web de la IA

robots.txt y sitemap.xml llevan funcionando desde los 90. Son necesarios pero insuficientes en 2026.

La web ha evolucionado en tres capas:

Capa Clásica

robots.txt + sitemap

Controla QUÉ se rastrea

Capa Contexto

llms.txt + llms-full.txt

Dice CÓMO deben entenderte los LLMs

Capa Agéntica

agents.txt + openapi.json

Define QUIÉN eres y QUÉ pueden hacer los agentes IA

Si solo tienes robots.txt, Google te encuentra pero la IA no te entiende. Si solo tienes llms.txt, la IA te lee pero no puede actuar. Las tres capas juntas son la web que viene.

Cómo auditar tu robots.txt en 2 minutos

1

Abre https://tudominio.es/robots.txt en el navegador

2

Verifica que no hay Disallow: / suelto (bloquea todo)

3

Comprueba que el sitemap apunta a una URL real y accesible

4

Usa Google Search Console → Inspección de URLs para ver si Google puede rastrear tus páginas principales

Mi auditoría SEO con datos reales de Search Console me enseñó que la mitad de mis posts no tenían enlaces internos — Google los encontraba por el sitemap, pero sin links internos su autoridad era mínima.


¿Tu web aparece en Google pero no en las primeras posiciones?

Audito tu posicionamiento con datos reales de Search Console y te digo exactamente qué mejorar.

Audita mi web
P

Pedro Luis Cuevas Villarrubia

Innovation Practitioner, WebMaster, SysAdmin & SEO · AI Agent Architect & Advanced Prompt Engineer

Hablar con Pedro

Preguntas frecuentes

¿Para qué sirve robots.txt si Google ya es inteligente?

robots.txt no dice a Google qué indexar, sino qué URLs puede rastrear. Sin él, Googlebot intenta acceder a todo —包括 páginas privadas, APIs, archivos de sistema — desperdiciando crawl budget y ralentizando la indexación de lo que realmente importa.

¿Cuál es la diferencia entre sitemap.xml y sitemap-index.xml?

Un sitemap.xml lista hasta 50.000 URLs. Un sitemap-index.xml es un índice que apunta a varios sitemaps individuales. Si tu web tiene más de 50.000 páginas o quieres separar por tipo (posts, páginas, imágenes), necesitas el formato index.

¿Puedo bloquear la IA con robots.txt?

Parcialmente. Puedes bloquear user-agents específicos como GPTBot o Bytespider, pero el cumplimiento es voluntario — no hay garantía de que el bot lo respete. Para control real sobre lo que los agentes IA pueden hacer con tus datos, necesitas agentes.txt.

¿Mi web necesita un sitemap si solo tiene 10 páginas?

Técnicamente no es obligatorio, pero sí recomendado. Un sitemap le dice a Google exactamente qué páginas existen y cuándo se actualizaron. Para webs pequeñas, la diferencia es mínima; para webs con páginas huérfanas (sin enlaces internos), es esencial.

Artículos relacionados

¿Y si tu Socio Digital fuera Yo?

Pedro Luis Cuevas Villarrubia · Innovation Practitioner, WebMaster, SysAdmin & SEO · AI Agent Architect & Advanced Prompt Engineer

Hace dos décadas, tener una web era suficiente. Luego llegó el SEO, luego el móvil, luego las redes. Ahora la IA lo cambia todo a velocidad exponencial. No necesitas alguien que te haga la web. Necesitas alguien que conozca tu proyecto, que esté al día del avance tecnológico y que sepa aplicarlo a lo tuyo. Eso es un Socio Digital.

Asesoría Diseño Web SEO Hosting IA Mantenimiento
¿Queda sitio?