Robots.txt y SEO: Todo lo que deberías saber

Robots.txt y SEO: Todo lo que deberías saber

Uno de los elementos que antes aprende a dominar un SEO es el del robots.txt de cualquier forma, siempre es interesante hacer un repaso a como funciona y además añadir algunos puntos extra que todo SEO debería saber.

¿Qué es el robots.txt?

El fichero robots.txt es un archivo de texto, que suele ocupar poco tamaño que sirve para evitar que los robots de los motores de búsqueda que rastrean tu web pasen por determinados sitios.

robots.txt
robots.txt

¿Cómo se crea?

Muy fácil, lo único que tienes que hacer es subir a tu directorio raíz un archivo de texto llamado robots.txt. En wordpress existen plugins como WP Robots txt que te permiten hacer esto fácilmente.

¿Qué texto debe contener este archivo?Repasemos los comandos básicos del robots.txt:

Las dos ordenes principales que tiene un archivo robots.txt son

  • User-agent: Que indica si esa orden es para todos los motores de búsqueda o alguno específico. Cada motor de búsqueda tiene un robot Google-gooblebot, Bing-bingbot, Yandex-yandexbot…
  • Allow/Disallow: Siendo allow que se le permite el paso por la carpeta especificada y disallow lo contrario.

Si no se especifica nada en el robots.txt se entiende que se le está permitiendo el paso al robot por toda tu web. Así pues os ponemos varios ejemplos:

Esto está indicando que le dejas paso por toda tu web a todos los robots de los motores de búsqueda:

User-agent: *
Allow: /

Con esto estarías indicando a todos los motores de búsqueda (*) que no pueden pasar por tu sitio (Disallow):

User-agent: *
Disallow: /

Si nos interesa que pase por toda nuestra web excepto por una carpeta determinada (Carpeta ejemplo)

User-agent: *
Disallow: /ejemplo/

Si tuviesemos la misma situación que el caso anterior pero además nos interesa que el robot de Google sí indexe una determinada página de esa carpeta:

User-agent: Googlebot
Disallow: /ejemplo/
Allow: /ejemplo/myfile.html

Como vemos las combinaciones pueden ser varias, pero principalmente lo que hacemos es indicar carpetas por las que no queremos que pase. Es importante que sepamos que si especificamos una orden determinada para un robot, ese robot ignorará el resto de órdenes qeu se le ha dado en la parte de User-agent: *. Es decir irá directamente a las que les especificas a él y sólo tomará esa orden.

Ya hemos repasado lo básico, ahora toca saber lo más importante para cualquier SEO y su archivo robots.txt

1) Que incluyas una carpeta en tu archivo robots.txt no significa que Google no vaya a indexarlo. Si Google encuentra enlaces externos a una determinada aunque tú estés bloqueándola en el robots.txt puede indexarse. Si quieres evitar que una URL de verdad se indexe te recomentamos la meta etiqueta No index.

2) Siempre recomendamos tener robots.txt. Aunque pienses que quieres darle acceso a todos los motores de búsqueda a tu sitio, siempre recomendamos tener este archivo.

3) Introduce el sitemap al final del robots.txt: Es una buena práctica que ayudará a mejorar la indexación de tu sitio. Lo puedes introducir precedido de sitemap:

4) Puedes testear tu robots.txt en Webmaster Tools.

5) Si pones disallow a una carpeta, todo lo que hay dentro de esa carpeta, subcarpetas, archivos estará siendo bloqueado.

robots.txt