Inicio / Herramientas / Todo sobre Robots.txt: qué es, cómo configurarlo y evitar errores

Todo sobre Robots.txt: qué es, cómo configurarlo y evitar errores

qué es el archivo robots
Contenidos

Quiero que pienses en los motores de búsqueda como invitados en una fiesta exclusiva: quieren entrar, explorar y decidir qué vale la pena mostrar al mundo. Ahora, imagina que tu web es un gran edificio con numerosas salas. Algunas estás listas para recibir visitas, pero otras son cuartos privados, pasillos de mantenimiento o incluso trasteros llenos de borradores y pruebas que preferirías mantener fuera de la vista.

Aquí es donde entra en juego el robots.txt. No es un portero con autoridad absoluta (porque algunos invitados insistirán en colarse), pero sí es un cartel claro en la puerta que indica qué zonas son de acceso libre y cuáles deberían ser ignoradas.

Lo interesante es que un mal uso de este pequeño archivo puede arruinar la fiesta: puedes acabar cerrando las puertas a invitados importantes (como Googlebot) o, peor aún, dejarlo todo abierto para que rastreen e indexen lo que no deberían.

¿Quieres asegurarte de que los motores de búsqueda naveguen por tu web de forma eficiente? Sigue leyendo y aprenderás cómo funciona el robots.txt, su impacto en el SEO y cómo configurarlo de manera óptima.

todo sobre robots txt

¿Qué es el archivo robots.txt y cómo funciona?

El robots.txt es un archivo de texto, ubicado en el directorio raíz de un sitio web, que contiene directrices para informar a los rastreados (bots) cuáles páginas o secciones del sitio son accesibles y cuáles no.

Este, forma parte del Protocolo de Exclusión de Robots, un estándar que permite a los propietarios de sitios web comunicar a los rastreadores qué áreas de su sitio deben ser visitadas.

Aunque estos archivos son principalmente utilizados para gestionar la actividad de bots beneficiosos, como los rastreadores de motores de búsqueda, es importante tener en cuenta que no todos los bots obedecen estas directrices. Por lo tanto, los bots «beneficiosos»buenos» respetarán las instrucciones del robots.txt, mientras que los malintencionados pueden ignorarlas.

Funcionamiento

Cuando un rastreador web llega a un sitio, lo primero que hace es buscar el archivo robots.txt en el directorio raíz, accesible generalmente en https://www.tusitio.com/robots.txt.

Este archivo contiene reglas específicas que indican a los bots qué partes del sitio se pueden rastrear (Allow) y cuáles no (Disallow). Por ejemplo:

User-agent: *
Disallow: /privado/
Allow: /publico/

En este ejemplo, User-agent: * se refiere a todos los bots, Disallow: /privado/ les indica que no deben acceder al directorio /privado/, y Allow: /publico/ les permite rastrear el directorio /publico/.

Debes entender que el archivo robots.txt no impide el acceso directo a las páginas; simplemente comunica a los bots qué áreas deberían evitar durante el proceso de rastreo. Además, una configuración incorrecta puede llevar a que se bloqueen secciones importantes del sitio, afectando así su visibilidad en internet.

Al guiar a los rastreadores hacia las secciones más relevantes y evitar que accedan a contenido duplicado o irrelevante, se optimiza el presupuesto de rastreo (Crawl budget) asignado. Esto significa que los bots dedicarán más tiempo a las páginas que realmente importan, mejorando potencialmente el posicionamiento orgánico.

Pero, ¿qué es el Crawl Budget?

El Crawl Budget es la cantidad de URLs que Googlebot y otros motores de búsqueda están dispuestos a rastrear en un sitio web dentro de un período determinado. Factores como la autoridad del dominio, la frecuencia de actualización y la eficiencia del servidor influyen en este presupuesto.

Sintaxis del archivo robots.txt

El archivo robots.txt sigue una estructura sencilla, se compone de directivas que especifican qué rastreadores pueden acceder a determinadas áreas del sitio. Las reglas siguen esta estructura:

User-agent: [nombre del rastreador]
Disallow: [ruta bloqueada]
Allow: [ruta permitida]
Crawl-delay: [número de segundos]
Sitemap: [URL del sitemap]

Cada bloque comienza con la directiva User-agent, que define a qué rastreador se aplican las reglas. Luego, se incluyen Disallow para bloquear rutas específicas y Allow para permitir excepciones dentro de un directorio restringido.

Directivas principales

A continuación, te explicamos cada uno de las directivas que se usan:

User-agent

Esta directiva indica a qué rastreador se aplican las reglas. Puede usarse de forma específica o general:

Ejemplo para todos los rastreadores:

User-agent: *

Se aplica a cualquier bot que acceda al sitio.

Ejemplo para un bot específico (Goglebot):

User-agent: Googlebot

User-Agents más utilizados en robots.txt

  • Googlebot – Rastreador de Google
  • Googlebot-News – Rastreador de Google News
  • Googlebot-Image – Rastreador de imágenes de Google
  • Googlebot-Video – Rastreador de videos de Google
  • Bingbot – Rastreador de Microsoft Bing
  • Slurp – Rastreador de Yahoo
  • DuckDuckBot – Rastreador de DuckDuckGo
  • Baiduspider – Rastreador de Baidu
  • YandexBot – Rastreador de Yandex
  • AhrefsBot – Bot de Ahrefs
  • SemrushBot – Bot de Semrush
  • MJ12bot – Bot de Majestic
  • Sogou Spider – Rastreador de Sogou
  • Exabot – Rastreador de Exalead
  • FacebookExternalHit – Rastreador de Facebook
  • Twitterbot – Rastreador de Twitter
  • Applebot – Rastreador de Apple
  • Pinterestbot – Rastreador de Pinterest
  • LinkedInBot – Rastreador de LinkedIn
  • CCBot – Bot de Common Crawl

Disallow

Sirve para restringir el acceso de los rastreadores a ciertas partes del sitio

Ejemplo de bloqueo de un directorio entero:

User-agent: *
Disallow: /admin/

Ejemplo de bloqueo de una URL específica:

User-agent: *
Disallow: /pagina-privada.html

Allow

Se usa para conceder acceso a una subruta dentro de un directorio bloqueado.

Ejemplo de acceso permitido a una imagen dentro de un directorio restringido:

User-agent: *
Disallow: /imagenes/
Allow: /imagenes/logo.png

Crawl-delay

Algunos rastreadores te dejan especificar un tiempo de espera entre cada solicitud al servidor, evitando una sobrecarga innecesaria.

Ejemplo de limitación del rastreo a una solicitud cada 10 segundos:

User-agent: Bingbot
Crawl-delay: 10

Sitemap

Esta directiva no afecta el rastreo, pero facilita a los motores de búsqueda la ubicación del sitemap.xml del sitio.

Ejemplo de inclusión del sitemap:

Sitemap: https://www.tusitio.com/sitemap.xml

Uso de comodines en robots.txt

Los comodines permiten definir reglas más flexibles para bloquear o permitir el acceso a ciertas URL.

* (asterisco)

Representa cualquier número de caracteres.

Ejemplo para bloquear todas las URL que contienen «privado»:

User-agent: *
Disallow: /*privado*

$ (símbolo de fin de línea)

Indica que la directiva solo se aplica a URLs que terminan exactamente en la ruta especificada.

Ejemplo para bloquear archivos PDF:

User-agent: *
Disallow: /*.pdf$

Ejemplo avanzado de configuración

Para terminar con esta parte, te queremos mostrar un ejemplo más completo para asegurarnos de que lo entiendas:

User-agent: Googlebot
Disallow: /admin/
Allow: /admin/pagina-visible.html
Sitemap: https://www.tusitio.com/sitemap.xml
  • Se bloquea el acceso a /admin/ para Googlebot.
  • Se permite acceder a /admin/pagina-visible.html.
  • Se incluye el sitemap para facilitar la indexación.

Mejores prácticas en la configuración del robots.txt

La configuración adecuada del archivo robots.txt es muy importante para gestionar cómo los motores de búsqueda interactúan con tu web. Ten en cuenta las siguientes buenas prácticas:

  • 1
    Ubicación correcta. Asegúrate de que el archivo robots.txt esté en el directorio raíz del dominio y sea accesible desde https://www.tusitio.com/robots.txt.
  • 2
    No bloquear archivos esenciales. No restrinjas el acceso a archivos CSS o JavaScript que sean necesarios para la correcta interpretación del sitio.
  • 3
    No ocultar información privada. El archivo robots.txt es público. Si necesitas restringir acceso a contenido sensible, usa autenticación o restricciones en el servidor.
  • 4
    Incluir la directiva Sitemap. Facilita la indexación de las páginas clave añadiendo la ruta de tu sitemap.xml en robots.txt.
  • 5
    Evitar bloqueos accidentales. Revisa el archivo antes de implementarlo para asegurarte de no bloquear secciones importantes por error.
  • 6
    Usar Crawl-delay con moderación. Algunos rastreadores como Bing y Yandex la respetan, pero valores demasiado altos pueden afectar la frecuencia de rastreo.
  • 7
    Probar y actualizar regularmente. Usa herramientas como Google Search Console para validar la configuración y revisar el archivo periódicamente.

Herramienta para generar archivos robots.txt gratis

Crear un archivo robots.txt no es complicado. Basta con abrir un editor de texto y guardarlo con la extensión .txt. De todas formas, para hacerlo aún más sencillo, desde Potencial SEO hemos desarrollado una herramienta gratuita para generarlo en cuestión de segundos.

Con solo seleccionar unas cuantas opciones, obtendrás un archivo optimizado y listo para usar en tu sitio web, sin necesidad de escribir las directivas manualmente. ¡Te recomendamos echarle un vistazo!

Herramientas para validar y probar tu archivo robots.txt

Para asegurarte de que tu documento está correctamente configurado y no bloquea contenido importante, es recomendable validarlo con herramientas especializadas. Estas pruebas te ayudarán a detectar posibles errores de sintaxis, conflictos en las reglas o restricciones no deseadas.

Aquí te compartimos un gran arsenal de herramientas que puedes probar de forma sencilla:

Google Search Console

Herramienta oficial para analizar y probar reglas de acceso de los rastreadores.

Probar

SE Ranking

Analiza si las configuraciones establecidas impiden el acceso de los motores de búsqueda.

Probar

Website Planet

Verifica si hay errores de sintaxis o conflictos en las restricciones establecidas.

Probar

Sitechecker.pro

Valida la configuración y asegura que las reglas no bloqueen contenido importante.

Probar

TechnicalSEO

Prueba si una URL específica tiene restricciones aplicadas por el archivo de control.

Probar

Bueno, llegados a este punto, estamos seguros de que ya conoces el archivo robots.txt a la perfección. Recuerda que su configuración define que partes de tu web son rastreables, que un error en su uso puede dejar fuera de juego páginas importantes y que siempre es recomendable validarlo con estas herramientas.

Ahora bien, si después de todo esto sigues mirando tu robots.txt como si fuera un jeroglífico egipcio, no te preocupes. En Potencial SEO nos encargamos de optimizar estos y otros aspectos técnicos con nuestras auditorías SEO completas.

Si quieres que analicemos tu web y te ayudemos a mejorar su rendimiento, ponte en contacto con nosotros.

Artículos recientes: