Todo sobre Robots.txt: qué es, cómo configurarlo y evitar errores

Potencial SEO
20 febrero, 2025
Indexación y Rastreo

Quiero que pienses en los motores de búsqueda como invitados en una fiesta exclusiva: quieren entrar, explorar y decidir qué vale la pena mostrar al mundo. Ahora, imagina que tu web es un gran edificio con numerosas salas. Algunas estás listas para recibir visitas, pero otras son cuartos privados, pasillos de mantenimiento o incluso trasteros llenos de borradores y pruebas que preferirías mantener fuera de la vista.

Aquí es donde entra en juego el robots.txt. No es un portero con autoridad absoluta (porque algunos invitados insistirán en colarse), pero sí es un cartel claro en la puerta que indica qué zonas son de acceso libre y cuáles deberían ser ignoradas.

Lo interesante es que un mal uso de este pequeño archivo puede arruinar la fiesta: puedes acabar cerrando las puertas a invitados importantes (como Googlebot) o, peor aún, dejarlo todo abierto para que rastreen e indexen lo que no deberían.

¿Quieres asegurarte de que los motores de búsqueda naveguen por tu web de forma eficiente? Sigue leyendo y aprenderás cómo funciona el robots.txt, su impacto en el SEO y cómo configurarlo de manera óptima.

¿Qué es el archivo robots.txt y cómo funciona?

El robots.txt es un archivo de texto, ubicado en el directorio raíz de un sitio web, que contiene directrices para informar a los rastreados (bots) cuáles páginas o secciones del sitio son accesibles y cuáles no.

Este, forma parte del Protocolo de Exclusión de Robots, un estándar que permite a los propietarios de sitios web comunicar a los rastreadores qué áreas de su sitio deben ser visitadas.

Aunque estos archivos son principalmente utilizados para gestionar la actividad de bots beneficiosos, como los rastreadores de motores de búsqueda, es importante tener en cuenta que no todos los bots obedecen estas directrices. Por lo tanto, los bots «beneficiosos»buenos» respetarán las instrucciones del robots.txt, mientras que los malintencionados pueden ignorarlas.

Funcionamiento

Cuando un rastreador web llega a un sitio, lo primero que hace es buscar el archivo robots.txt en el directorio raíz, accesible generalmente en https://www.tusitio.com/robots.txt.

Este archivo contiene reglas específicas que indican a los bots qué partes del sitio se pueden rastrear (Allow) y cuáles no (Disallow). Por ejemplo:

User-agent: *
Disallow: /privado/
Allow: /publico/

En este ejemplo, User-agent: * se refiere a todos los bots, Disallow: /privado/ les indica que no deben acceder al directorio /privado/, y Allow: /publico/ les permite rastrear el directorio /publico/.

Debes entender que el archivo robots.txt no impide el acceso directo a las páginas; simplemente comunica a los bots qué áreas deberían evitar durante el proceso de rastreo. Además, una configuración incorrecta puede llevar a que se bloqueen secciones importantes del sitio, afectando así su visibilidad en internet.

Al guiar a los rastreadores hacia las secciones más relevantes y evitar que accedan a contenido duplicado o irrelevante, se optimiza el presupuesto de rastreo (Crawl budget) asignado. Esto significa que los bots dedicarán más tiempo a las páginas que realmente importan, mejorando potencialmente el posicionamiento orgánico.

Pero, ¿qué es el Crawl Budget?

El Crawl Budget es la cantidad de URLs que Googlebot y otros motores de búsqueda están dispuestos a rastrear en un sitio web dentro de un período determinado. Factores como la autoridad del dominio, la frecuencia de actualización y la eficiencia del servidor influyen en este presupuesto.

Sintaxis del archivo robots.txt

El archivo robots.txt sigue una estructura sencilla, se compone de directivas que especifican qué rastreadores pueden acceder a determinadas áreas del sitio. Las reglas siguen esta estructura:

User-agent: [nombre del rastreador]
Disallow: [ruta bloqueada]
Allow: [ruta permitida]
Crawl-delay: [número de segundos]
Sitemap: [URL del sitemap]

Cada bloque comienza con la directiva User-agent, que define a qué rastreador se aplican las reglas. Luego, se incluyen Disallow para bloquear rutas específicas y Allow para permitir excepciones dentro de un directorio restringido.

Directivas principales

A continuación, te explicamos cada uno de las directivas que se usan:

User-agent

Esta directiva indica a qué rastreador se aplican las reglas. Puede usarse de forma específica o general:

Ejemplo para todos los rastreadores:

User-agent: *

Se aplica a cualquier bot que acceda al sitio.

Ejemplo para un bot específico (Goglebot):

User-agent: Googlebot

User-Agents más utilizados en robots.txt

Googlebot – Rastreador de Google
Googlebot-News – Rastreador de Google News
Googlebot-Image – Rastreador de imágenes de Google
Googlebot-Video – Rastreador de videos de Google
Bingbot – Rastreador de Microsoft Bing
Slurp – Rastreador de Yahoo
DuckDuckBot – Rastreador de DuckDuckGo
Baiduspider – Rastreador de Baidu
YandexBot – Rastreador de Yandex
AhrefsBot – Bot de Ahrefs
SemrushBot – Bot de Semrush
MJ12bot – Bot de Majestic
Sogou Spider – Rastreador de Sogou
Exabot – Rastreador de Exalead
FacebookExternalHit – Rastreador de Facebook
Twitterbot – Rastreador de Twitter
Applebot – Rastreador de Apple
Pinterestbot – Rastreador de Pinterest
LinkedInBot – Rastreador de LinkedIn
CCBot – Bot de Common Crawl

Disallow

Sirve para restringir el acceso de los rastreadores a ciertas partes del sitio

Ejemplo de bloqueo de un directorio entero:

User-agent: *
Disallow: /admin/

Ejemplo de bloqueo de una URL específica:

User-agent: *
Disallow: /pagina-privada.html

Allow

Se usa para conceder acceso a una subruta dentro de un directorio bloqueado.

Ejemplo de acceso permitido a una imagen dentro de un directorio restringido:

User-agent: *
Disallow: /imagenes/
Allow: /imagenes/logo.png

Crawl-delay

Algunos rastreadores te dejan especificar un tiempo de espera entre cada solicitud al servidor, evitando una sobrecarga innecesaria.

Ejemplo de limitación del rastreo a una solicitud cada 10 segundos:

User-agent: Bingbot
Crawl-delay: 10

Sitemap

Esta directiva no afecta el rastreo, pero facilita a los motores de búsqueda la ubicación del sitemap.xml del sitio.

Ejemplo de inclusión del sitemap:

Sitemap: https://www.tusitio.com/sitemap.xml

Uso de comodines en robots.txt

Los comodines permiten definir reglas más flexibles para bloquear o permitir el acceso a ciertas URL.

* (asterisco)

Representa cualquier número de caracteres.

Ejemplo para bloquear todas las URL que contienen «privado»:

User-agent: *
Disallow: /*privado*

$ (símbolo de fin de línea)

Indica que la directiva solo se aplica a URLs que terminan exactamente en la ruta especificada.

Ejemplo para bloquear archivos PDF:

User-agent: *
Disallow: /*.pdf$

Ejemplo avanzado de configuración

Para terminar con esta parte, te queremos mostrar un ejemplo más completo para asegurarnos de que lo entiendas:

User-agent: Googlebot
Disallow: /admin/
Allow: /admin/pagina-visible.html
Sitemap: https://www.tusitio.com/sitemap.xml

Se bloquea el acceso a /admin/ para Googlebot.
Se permite acceder a /admin/pagina-visible.html.
Se incluye el sitemap para facilitar la indexación.

Mejores prácticas en la configuración del robots.txt

La configuración adecuada del archivo robots.txt es muy importante para gestionar cómo los motores de búsqueda interactúan con tu web. Ten en cuenta las siguientes buenas prácticas:

1

Ubicación correcta. Asegúrate de que el archivo robots.txt esté en el directorio raíz del dominio y sea accesible desde https://www.tusitio.com/robots.txt.
2

No bloquear archivos esenciales. No restrinjas el acceso a archivos CSS o JavaScript que sean necesarios para la correcta interpretación del sitio.
3

No ocultar información privada. El archivo robots.txt es público. Si necesitas restringir acceso a contenido sensible, usa autenticación o restricciones en el servidor.
4

Incluir la directiva Sitemap. Facilita la indexación de las páginas clave añadiendo la ruta de tu sitemap.xml en robots.txt.
5

Evitar bloqueos accidentales. Revisa el archivo antes de implementarlo para asegurarte de no bloquear secciones importantes por error.
6

Usar Crawl-delay con moderación. Algunos rastreadores como Bing y Yandex la respetan, pero valores demasiado altos pueden afectar la frecuencia de rastreo.
7

Probar y actualizar regularmente. Usa herramientas como Google Search Console para validar la configuración y revisar el archivo periódicamente.

Herramienta para generar archivos robots.txt gratis

Crear un archivo robots.txt no es complicado. Basta con abrir un editor de texto y guardarlo con la extensión .txt. De todas formas, para hacerlo aún más sencillo, desde Potencial SEO hemos desarrollado una herramienta gratuita para generarlo en cuestión de segundos.

Con solo seleccionar unas cuantas opciones, obtendrás un archivo optimizado y listo para usar en tu sitio web, sin necesidad de escribir las directivas manualmente. ¡Te recomendamos echarle un vistazo!

Generador de archivo robots.txt

Herramientas para validar y probar tu archivo robots.txt

Para asegurarte de que tu documento está correctamente configurado y no bloquea contenido importante, es recomendable validarlo con herramientas especializadas. Estas pruebas te ayudarán a detectar posibles errores de sintaxis, conflictos en las reglas o restricciones no deseadas.

Aquí te compartimos un gran arsenal de herramientas que puedes probar de forma sencilla:

Google Search Console

Herramienta oficial para analizar y probar reglas de acceso de los rastreadores.

Probar

SE Ranking

Analiza si las configuraciones establecidas impiden el acceso de los motores de búsqueda.

Probar

Website Planet

Verifica si hay errores de sintaxis o conflictos en las restricciones establecidas.

Probar

Sitechecker.pro

Valida la configuración y asegura que las reglas no bloqueen contenido importante.

Probar

TechnicalSEO

Prueba si una URL específica tiene restricciones aplicadas por el archivo de control.

Probar

Bueno, llegados a este punto, estamos seguros de que ya conoces el archivo robots.txt a la perfección. Recuerda que su configuración define que partes de tu web son rastreables, que un error en su uso puede dejar fuera de juego páginas importantes y que siempre es recomendable validarlo con estas herramientas.

Ahora bien, si después de todo esto sigues mirando tu robots.txt como si fuera un jeroglífico egipcio, no te preocupes. En Potencial SEO nos encargamos de optimizar estos y otros aspectos técnicos con nuestras auditorías SEO completas.

Si quieres que analicemos tu web y te ayudemos a mejorar su rendimiento, ponte en contacto con nosotros.

¿Quieres aprender más? Navega por nuestras categorías:

Solicita una auditoría SEO gratis

Realizamos un chequeo rápido de tu página web a manos de un especialista SEO. Te enviamos un informe con consejos que puedes aplicar en 48 horas.

Más contenidos que pueden interesarte

Indexación y Rastreo

Lleva tu página web al siguiente nivel con una estrategia SEO

En Potencial SEO trabajamos para que tu negocio aparezca donde te buscan: en Google. Si quieres atraer más visitas y conseguir más clientes, hablemos.

(+34) 641 75 22 90

Habla con un experto

contacto@potencialseo.com

Te respondemos lo antes posible

Todo sobre Robots.txt: qué es, cómo configurarlo y evitar errores

¿Qué es el archivo robots.txt y cómo funciona?

Funcionamiento

Pero, ¿qué es el Crawl Budget?

Sintaxis del archivo robots.txt

Directivas principales

User-agent

Disallow

Allow

Crawl-delay

Sitemap

Uso de comodines en robots.txt

* (asterisco)

$ (símbolo de fin de línea)

Ejemplo avanzado de configuración

Mejores prácticas en la configuración del robots.txt

Herramienta para generar archivos robots.txt gratis

Herramientas para validar y probar tu archivo robots.txt

¿Quieres aprender más? Navega por nuestras categorías:

Solicita una auditoría SEO gratis

Más contenidos que pueden interesarte

Contenido duplicado: guía completa para detectar, evitar y solucionar el problema en tu web

¿Qué es el PageRank de Google (PR)?

¿Qué es el Guest Posting o Guest Blogging?

¿Qué es el Link Juice (Link Equity) y cómo afecta al SEO?

¿Qué son las redes privadas de blogs (PBN) y cómo se utilizan en SEO?

¿Qué es spinear un texto?

¿Qué es un enlace sitewide y cómo afecta al SEO?

¿Qué es el backorder de dominios y cómo funciona?

Lleva tu página web al siguiente nivel con una estrategia SEO