¿Qué es el rastreo (crawling) en SEO?

Es el proceso por el que los bots de Google (y otros buscadores) descubren y descargan las páginas de tu web siguiendo enlaces. Sin rastreo, Google no puede ver tu contenido ni decidir si lo indexa.

¿Qué es la indexación?

Es cuando Google añade una página a su índice y puede mostrarla en resultados de búsqueda. Una página rastreada no tiene por qué estar indexada; puede ser excluida por directivas (noindex), duplicados o baja calidad.

¿Para qué sirve el robots.txt?

Indica a los rastreadores qué rutas pueden o no rastrear. No bloquea la indexación por sí solo (para eso se usa noindex), pero sí puede limitar el acceso a carpetas o archivos y ahorrar presupuesto de rastreo.

¿Cuándo usar noindex?

Cuando quieres que una URL no aparezca en el índice de Google: páginas de login, thank-you, duplicados internos, contenido fino o temporal. Se puede poner en la cabecera HTML (meta noindex) o en la cabecera HTTP.

¿Cómo reviso la cobertura en Search Console?

En la sección 'Indexación' o 'Cobertura' (según la versión) ves páginas indexadas, excluidas y con errores. Revisa por qué se excluyen (noindex, canonical, bloqueo en robots, error 4xx/5xx) y corrige lo que impida indexar lo importante.

¿Qué es el presupuesto de rastreo?

Es el límite aproximado de URLs que Google rastrea en tu sitio en un periodo. En sitios muy grandes o con muchas URLs irrelevantes, optimizar robots.txt y enlaces internos ayuda a que el presupuesto se use en páginas que quieres indexar.

← Volver al blog

SEO técnico: rastreo e indexación para que Google encuentre tu web

4 min de lectura18 de marzo de 2026

Marco Samplina

El SEO técnico cubre todo lo que hace que los buscadores puedan encontrar, rastrear e indexar tu web correctamente. Si la estructura, las directivas o los errores impiden que Google vea tu contenido, el mejor contenido no rankeará. Aquí verás los conceptos clave de rastreo e indexación y qué revisar en la práctica.

Objetivo: que entiendas cómo funciona el rastreo y la indexación y sepas qué comprobar en tu sitio.

SEO técnico: rastreo, crawling e indexación en Google.

Rastreo (crawling) e indexación: la base

Rastreo: los bots de Google (crawlers) siguen enlaces y descargan el HTML (y recursos) de tus páginas. Así descubren URLs nuevas y actualizaciones. El rastreo es necesario para que Google “vea” el contenido.

Indexación: Google decide si una página rastreada entra en su índice. Solo las páginas indexadas pueden aparecer en resultados de búsqueda. Una página puede ser rastreada pero no indexada (por noindex, canonical a otra URL, contenido considerado de baja calidad o duplicado).

Sin rastreo no hay indexación; sin indexación no hay posicionamiento. El SEO técnico asegura que las páginas importantes sean rastreables e indexables.

robots.txt: qué puede y no puede rastrear

El archivo robots.txt (en la raíz del sitio, accesible en tudominio.com/robots.txt) indica a los rastreadores qué rutas pueden o no rastrear.

Allow: rutas que sí pueden rastrear (por defecto suelen estar permitidas si no hay Disallow).
Disallow: rutas que no deben rastrear (por ejemplo /admin/, /cart/, parámetros de filtros que generan muchas URLs similares).

Importante: robots.txt no impide la indexación por sí solo. Si una URL no se rastrea, no se indexa; pero si está enlazada desde fuera, Google podría indexarla igual con poca información. Para excluir del índice se usa noindex.

No bloquees en robots.txt carpetas con contenido que quieras indexar (por ejemplo /blog/). Revisa que el sitemap esté referenciado en robots.txt (Sitemap: https://tudominio.com/sitemap.xml).

noindex y cuándo usarlo

noindex indica a Google que no incluya esa URL en el índice. Se puede enviar con:

Meta tag: <meta name="robots" content="noindex"> en el <head>.
Cabecera HTTP: X-Robots-Tag: noindex.

Úsalo en:

Páginas de agradecimiento o confirmación (thank-you).
Páginas de login o áreas privadas.
Duplicados internos que no quieras como URL canónica (y que no puedas redirigir).
Contenido muy fino o temporal que no aporte valor en búsqueda.

No pongas noindex en páginas que quieras posicionar. Revisa que plantillas o plugins no añadan noindex por defecto a categorías o listados que sí quieras indexar.

Cobertura en Google Search Console

En Search Console, en la sección de indexación (o “Cobertura” en la versión antigua), ves:

Páginas indexadas: URLs que están en el índice.
Páginas válidas con advertencias: indexadas pero con avisos (por ejemplo sin canonical explícito).
Excluidas: por noindex, canonical a otra URL, bloqueo en robots, redirección, etc.
Errores: no encontrada (404), error de servidor (5xx), etc.

Revisa periódicamente por qué se excluyen páginas: si son las que quieres indexar, corrige directivas o enlaces; si son las que quieres excluir (thank-you, duplicados), está bien. Objetivo: que todo lo importante esté “Indexada” y lo que no quieras en el índice esté “Excluida” por la razón correcta.

Presupuesto de rastreo

Google no rastrea infinitas URLs por sitio; tiene un “presupuesto” de rastreo. En sitios muy grandes o con muchas URLs poco útiles (parámetros, sesiones, duplicados), parte de ese presupuesto se gasta en URLs que no interesan.

Para optimizar:

Reduce URLs irrelevantes (combinando parámetros, usando canonical, noindex en listados duplicados).
Usa robots.txt para no invitar a rastrear carpetas que no aportan (por ejemplo ciertos parámetros de búsqueda).
Refuerza enlaces internos hacia páginas importantes para que los bots las descubran y visiten antes.

En sitios pequeños o medianos el presupuesto suele ser suficiente; en portales con millones de URLs la optimización es más crítica.

Checklist rápido

Sitemap actualizado y enviado en Search Console; referenciado en robots.txt.
robots.txt sin bloquear rutas que quieras indexar; Sitemap declarado.
noindex solo donde quieras excluir del índice (thank-you, login, duplicados elegidos).
Cobertura en Search Console revisada: indexadas vs excluidas vs error; corregir causas de exclusión no deseadas.
Enlaces internos que permitan descubrir todas las páginas importantes desde la home o listados indexables.

Con rastreo e indexación bien encaminados, el resto del SEO (contenido, keywords, experiencia) puede rendir al máximo.

Preguntas frecuentes sobre SEO en 2026

: Es el proceso por el que los bots de Google (y otros buscadores) descubren y descargan las páginas de tu web siguiendo enlaces. Sin rastreo, Google no puede ver tu contenido ni decidir si lo indexa.
: Es cuando Google añade una página a su índice y puede mostrarla en resultados de búsqueda. Una página rastreada no tiene por qué estar indexada; puede ser excluida por directivas (noindex), duplicados o baja calidad.
: Indica a los rastreadores qué rutas pueden o no rastrear. No bloquea la indexación por sí solo (para eso se usa noindex), pero sí puede limitar el acceso a carpetas o archivos y ahorrar presupuesto de rastreo.
: Cuando quieres que una URL no aparezca en el índice de Google: páginas de login, thank-you, duplicados internos, contenido fino o temporal. Se puede poner en la cabecera HTML (meta noindex) o en la cabecera HTTP.
: En la sección 'Indexación' o 'Cobertura' (según la versión) ves páginas indexadas, excluidas y con errores. Revisa por qué se excluyen (noindex, canonical, bloqueo en robots, error 4xx/5xx) y corrige lo que impida indexar lo importante.
: Es el límite aproximado de URLs que Google rastrea en tu sitio en un periodo. En sitios muy grandes o con muchas URLs irrelevantes, optimizar robots.txt y enlaces internos ayuda a que el presupuesto se use en páginas que quieres indexar.