# robots.txt y sitemap: la base que Google usa para encontrar tu web

> Qué hacen robots.txt y sitemap-index.xml en 2026, cómo afectan al crawl budget y por qué siguen siendo necesarios aunque ya no son suficientes para la era de la IA.

**Autor:** Pedro Luis Cuevas Villarrubia | **Fecha:** 2026-05-12 | **Tags:** SEO, rendimiento, desarrollo web
**URL:** https://asturwebs.es/blog/robots-txt-sitemap-para-que-sirven-2026/

---
Esta semana revisé mi archivo `robots.txt` y me di cuenta de algo: llevo 27 años haciendo webs y **nunca había escrito sobre el archivo que literalmente controla cómo Google ve mi trabajo**. Es como ser mecánico y no explicar qué hace el motor.

Empiezo por aquí porque es la base. En los próximos posts te cuento cómo la web ha evolucionado: de `robots.txt` a `llms.txt` y después a `agents.txt`. Pero todo empieza aquí.

## Qué es robots.txt (y qué NO es)

`robots.txt` es un archivo de texto plano que viven en la raíz de tu web (`https://tudominio.es/robots.txt`). Le dice a los crawlers qué URLs **pueden o no pueden rastrear**.

Lo que **sí hace**:

- Bloquear el acceso a directorios (`/api/`, `/admin/`, `/wp-admin/`)
- Señalar dónde está tu sitemap
- Establecer delays entre requests (algunos bots lo respetan)
- Controlar el crawl budget en sitios grandes

Lo que **NO hace**:

- Garantizar que una página no se indexe (para eso está `noindex`)
- Funcionar como firewall (es una petición, no una barrera)
- Funcionar si no está en la raíz exacta del dominio

> **Pro-tip:** Si quieres que una página NO aparezca en Google, usa `<meta name="robots" content="noindex">` o la cabecera `X-Robots-Tag: noindex`. `robots.txt` solo evita el rastreo, no la indexación. Google puede indexar URLs bloqueadas si otras páginas enlazan a ellas.

![Mapa digital de URLs conectadas como una ciudad nocturna](/images/2026-05-central-robots-sitemap-laberinto.webp)

## El robots.txt de asturwebs.es

Este es el archivo que genero automáticamente con Astro:

```text
User-agent: *
Allow: /
Disallow: /api/

Sitemap: https://asturwebs.es/sitemap-index.xml
```

Tres líneas que hacen tres cosas:

1. **`Allow: /`** — Todos los bots pueden rastrear todo
2. **`Disallow: /api/`** — Excepto la API, que es interna y no tiene valor de indexación
3. **`Sitemap:`** — Le dice a Google dónde encontrar el mapa completo

<div class="not-prose my-8 px-5 py-4 border-l-4 border-primary/30 bg-primary/5 rounded-r-lg">
<p class="text-sm text-gray-700 m-0">Si tu web no aparece en Google tan rápido como esperas, revisa tu robots.txt — un `Disallow: /` mal configurado puede bloquear todo el sitio sin que te des cuenta. <a href="/servicios/seo/" class="text-primary font-semibold hover:underline">Puedo auditar tu posicionamiento con datos reales de Search Console</a>.</p>
</div>

## Qué es un sitemap y por qué necesitas uno

Un sitemap es un archivo XML que lista **todas las URLs que quieres que Google indexe**, con su fecha de última modificación y prioridad relativa.

### sitemap.xml vs sitemap-index.xml

| Característica | sitemap.xml | sitemap-index.xml |
|----------------|-------------|-------------------|
| Máx. URLs | 50.000 | Ilimitadas (via sub-sitemaps) |
| Tamaño máx. | 50 MB | 50 MB por sub-sitemap |
| Cuándo usarlo | Webs pequeñas (< 50k URLs) | Webs medianas/grandes o con tipos mixtos |
| Ejemplo | Blog personal con 20 posts | E-commerce con productos, categorías y blog |

En mi caso, Astro genera automáticamente un `sitemap-index.xml` que agrupa las URLs. No tengo 50.000 páginas, pero el formato index es más limpio y escalable.

## Crawl budget: por qué importa si tienes muchas páginas

Google no rastrea tu web entera cada vez. Tiene un **presupuesto de rastreo** (crawl budget) limitado por dominio. Depende de:

- **Autoridad del dominio** (más autoridad = más presupuesto)
- **Velocidad del servidor** (si responde lento, Google reduce la frecuencia)
- **Calidad del contenido** (contenido duplicado desperdicia presupuesto)

Un `robots.txt` bien configurado + sitemap actualizado = Google gasta su presupuesto en lo que importa.

| Situación | Sin robots.txt optimizado | Con robots.txt + sitemap |
|-----------|--------------------------|--------------------------|
| Web 10 páginas | Sin impacto | Ligeramente más rápido |
| Blog 200+ posts | Google rastrea tags, feeds, páginas sin valor | Solo rastrea posts y páginas principales |
| E-commerce 5k+ productos | Desperdicio masivo de crawl budget | Prioriza productos activos y categorías |
| API activa en `/api/` | Google indexa endpoints internos | Bloqueados, presupuesto invertido en contenido |

## La evolución: de la web clásica a la web de la IA

`robots.txt` y `sitemap.xml` llevan funcionando desde los 90. Son **necesarios pero insuficientes** en 2026.

La web ha evolucionado en tres capas:

| Capa | Archivo | Qué hace |
|------|---------|----------|
| **Clásica** | robots.txt + sitemap | Controla QUÉ se rastrea |
| **Contexto** | [llms.txt + llms-full.txt](/blog/llms-txt-como-preparar-tu-web-para-ia-2026/) | Dice CÓMO deben entenderte los LLMs |
| **Agéntica** | [agents.txt + openapi.json](/blog/agents-txt-openapi-descubrimiento-agentes-ia-2026/) | Define QUIÉN eres y QUÉ pueden hacer los agentes IA |

Si solo tienes robots.txt, Google te encuentra pero la IA no te entiende. Si solo tienes llms.txt, la IA te lee pero no puede actuar. **Las tres capas juntas** son la web que viene.

## Cómo auditar tu robots.txt en 2 minutos

1. Abre `https://tudominio.es/robots.txt` en el navegador
2. Verifica que no hay `Disallow: /` suelto (bloquea todo)
3. Comprueba que el sitemap apunta a una URL real y accesible
4. Usa [Google Search Console → Inspección de URLs](https://search.google.com/search-console) para ver si Google puede rastrear tus páginas principales

Mi [auditoría SEO con datos reales de Search Console](/blog/auditoria-seo-32-posts-datos-reales-search-console/) me enseñó que la mitad de mis posts no tenían enlaces internos — Google los encontraba por el sitemap, pero sin links internos su autoridad era mínima.

---

<div class="not-prose my-12 bg-indigo-50 border border-indigo-100 rounded-2xl p-8 text-center">
<p class="text-xl font-semibold text-gray-900 mb-2">¿Tu web aparece en Google pero no en las primeras posiciones?</p>
<p class="text-gray-600 mb-6">Audito tu posicionamiento con datos reales de Search Console y te digo exactamente qué mejorar.</p>
<a href="/contacto/" class="inline-block bg-primary text-white px-8 py-3 rounded-lg font-semibold hover:bg-primary-hover transition-colors">Audita mi web →</a>
</div>