SEO técnico: rastreo e indexación para que Google encuentre tu web
El SEO técnico cubre todo lo que hace que los buscadores puedan encontrar, rastrear e indexar tu web correctamente. Si la estructura, las directivas o los errores impiden que Google vea tu contenido, el mejor contenido no rankeará. Aquí verás los conceptos clave de rastreo e indexación y qué revisar en la práctica.
Objetivo: que entiendas cómo funciona el rastreo y la indexación y sepas qué comprobar en tu sitio.

Rastreo (crawling) e indexación: la base
Rastreo: los bots de Google (crawlers) siguen enlaces y descargan el HTML (y recursos) de tus páginas. Así descubren URLs nuevas y actualizaciones. El rastreo es necesario para que Google “vea” el contenido.
Indexación: Google decide si una página rastreada entra en su índice. Solo las páginas indexadas pueden aparecer en resultados de búsqueda. Una página puede ser rastreada pero no indexada (por noindex, canonical a otra URL, contenido considerado de baja calidad o duplicado).
Sin rastreo no hay indexación; sin indexación no hay posicionamiento. El SEO técnico asegura que las páginas importantes sean rastreables e indexables.
robots.txt: qué puede y no puede rastrear
El archivo robots.txt (en la raíz del sitio, accesible en tudominio.com/robots.txt) indica a los rastreadores qué rutas pueden o no rastrear.
- Allow: rutas que sí pueden rastrear (por defecto suelen estar permitidas si no hay Disallow).
- Disallow: rutas que no deben rastrear (por ejemplo
/admin/,/cart/, parámetros de filtros que generan muchas URLs similares).
Importante: robots.txt no impide la indexación por sí solo. Si una URL no se rastrea, no se indexa; pero si está enlazada desde fuera, Google podría indexarla igual con poca información. Para excluir del índice se usa noindex.
No bloquees en robots.txt carpetas con contenido que quieras indexar (por ejemplo /blog/). Revisa que el sitemap esté referenciado en robots.txt (Sitemap: https://tudominio.com/sitemap.xml).
noindex y cuándo usarlo
noindex indica a Google que no incluya esa URL en el índice. Se puede enviar con:
- Meta tag:
<meta name="robots" content="noindex">en el<head>. - Cabecera HTTP:
X-Robots-Tag: noindex.
Úsalo en:
- Páginas de agradecimiento o confirmación (thank-you).
- Páginas de login o áreas privadas.
- Duplicados internos que no quieras como URL canónica (y que no puedas redirigir).
- Contenido muy fino o temporal que no aporte valor en búsqueda.
No pongas noindex en páginas que quieras posicionar. Revisa que plantillas o plugins no añadan noindex por defecto a categorías o listados que sí quieras indexar.
Cobertura en Google Search Console
En Search Console, en la sección de indexación (o “Cobertura” en la versión antigua), ves:
- Páginas indexadas: URLs que están en el índice.
- Páginas válidas con advertencias: indexadas pero con avisos (por ejemplo sin canonical explícito).
- Excluidas: por noindex, canonical a otra URL, bloqueo en robots, redirección, etc.
- Errores: no encontrada (404), error de servidor (5xx), etc.
Revisa periódicamente por qué se excluyen páginas: si son las que quieres indexar, corrige directivas o enlaces; si son las que quieres excluir (thank-you, duplicados), está bien. Objetivo: que todo lo importante esté “Indexada” y lo que no quieras en el índice esté “Excluida” por la razón correcta.
Presupuesto de rastreo
Google no rastrea infinitas URLs por sitio; tiene un “presupuesto” de rastreo. En sitios muy grandes o con muchas URLs poco útiles (parámetros, sesiones, duplicados), parte de ese presupuesto se gasta en URLs que no interesan.
Para optimizar:
- Reduce URLs irrelevantes (combinando parámetros, usando canonical, noindex en listados duplicados).
- Usa robots.txt para no invitar a rastrear carpetas que no aportan (por ejemplo ciertos parámetros de búsqueda).
- Refuerza enlaces internos hacia páginas importantes para que los bots las descubran y visiten antes.
En sitios pequeños o medianos el presupuesto suele ser suficiente; en portales con millones de URLs la optimización es más crítica.
Checklist rápido
- Sitemap actualizado y enviado en Search Console; referenciado en robots.txt.
- robots.txt sin bloquear rutas que quieras indexar; Sitemap declarado.
- noindex solo donde quieras excluir del índice (thank-you, login, duplicados elegidos).
- Cobertura en Search Console revisada: indexadas vs excluidas vs error; corregir causas de exclusión no deseadas.
- Enlaces internos que permitan descubrir todas las páginas importantes desde la home o listados indexables.
Con rastreo e indexación bien encaminados, el resto del SEO (contenido, keywords, experiencia) puede rendir al máximo.