Gu铆a de Robots.txt para WordPress

Gu铆a de Robots.txt para WordPress

Si est谩s leyendo esto es que algo has o铆do hablar sobre el archivo robots.txt, pero antes de entrar en materia es importante que entendamos a qui茅n va destinado este archivo. Su funci贸n principal es facilitar el trabajo a los buscadores, indicando en qu茅 p谩ginas de la web no deben perder el tiempo en visitar.聽

Los motores de b煤squeda buscan y organizan el contenido de las webs con el objetivo que mostrar el contenido m谩s relevante en la p谩gina de resultados (SERPs) para el usuario ante una determinada b煤squeda. Para realizar esta clasificaci贸n, los buscadores realizan tres funciones:聽

 

  • Rastreo o crawling: los bots, tambi茅n llamados crawlers o ara帽as, exploran el contenido de diferentes p谩ginas web y descubren nuevas p谩ginas a trav茅s del enlazado. Pero 隆ojo! para que una web sea rastreada, debe ser accesible. Y aqu铆 es donde entra en juego robots.txt, como podr谩s ver m谩s adelante.聽

 

  • Indexaci贸n: el contenido rastreado se almacena, organiza y cobra sentido al analizarse. En este punto, los buscadores determinan la relevancia o no de la p谩gina para mostrarse en los resultados de b煤squeda, entrando en juego factores como la autoridad o las etiquetas de control de indexaci贸n como <meta name=”robots” content=”noindex”> o <link rel=鈥漜anonical鈥 href=鈥漸rl鈥>.

 

  • Clasificaci贸n: los buscadores ponderar谩n los contenidos y los ordenar谩 en los resultados de b煤squeda.聽

 

驴Qu茅 es robot.txt?

El robots.txt es un archivo en el que se proporcionan unas serie de instrucciones sobre las p谩ginas que no queremos que el bot rastree -y, por tanto, no indexe-, adem谩s de otros par谩metros como la ubicaci贸n del sitemap.xml, que es el 铆ndice de las p谩ginas de la web.聽

 

Para qu茅 sirve robots.txt

Cuando un bot llega a un sitio web, en principio, lo primero que busca es el robots.txt. Si tenemos un robots.txt bien configurado, le facilitaremos la tarea a los buscadores. Estas son las cosas que puedes definir en el robots.txt:

  • Bloqueo de partes de nuestra web que no queremos que el crawler rastree ni indexe porque no son relevantes. De esta manera, los bots no perder谩n presupuesto de rastreo (crawl budget) en rastrear p谩ginas de nuestro sitio web que no nos interes indexar, sino que centrar谩n los esfuerzos en las p谩ginas m谩s relevantes para nosotros.聽

 

  • Bloqueo de web en desarrollo. Hasta ahora, era com煤n tambi茅n el uso de directivas en el robots.txt para bloquear el rastreo de indexaci贸n de una web en construcci贸n que est谩 en la red, ya sea mediante el bloqueo completo del dominio o mediante el bloqueo de carpetas en las que se encuentre la nueva web (cuando tenemos una web publicada y alojamos otra en el mismo dominio).聽

 

  • Bloqueo de partes internas de la web. Puede ser que en nuestra web tengamos p谩ginas de gesti贸n interna a la que solamente acceden nuestros empleados o, en el caso de un ecommerce, nuestros clientes mediante logueo. En el caso de WordPress, adem谩s, existe un directorio dedicado a la administraci贸n del sitio, WP-ADMIN, que no tiene sentido que el crawler rastree.聽

 

  • Direcci贸n del sitemap.xml. Como hemos dicho anteriormente, el sitemap.xml es el 铆ndice de las p谩ginas de nuestra web, por lo que es 煤til que le indiquemos al bot la ubicaci贸n en la que puede encontrarlo en el primer archivo que rastrea cuando entra a nuestro sitio web. Pero 隆ojo! recuerda tener tambi茅n configurar el sitemap.xml correctamente.聽

 

  • Bloqueo de ciertos bots. En el robots.txt se puede establecer bloqueos por tipo de bot. De esta manera, podemos definir qu茅 bot no queremos que rastree determinadas p谩ginas o, lo m谩s com煤n, bloquear el rastreo del sitio completo. Esto es utilizado para no desperdiciar recursos en bot que no nos interesan o para evitar el rastreo de herramientas de marketing que pueda utilizar la competencia para analizar nuestro sitio web. Pero hay que tener en cuenta que no todos los bots respetan las directivas del robots.txt.

 

驴C贸mo generar un robots.txt en WordPress?

Cuando instalamos un WordPress, se genera autom谩ticamente un archivo robots.txt, ubicado en la carpeta ra铆z del sitio web, y al que podr谩s acceder poniendo en el navegador:聽鈥渢udominio.com/robots.txt鈥. Si no has configurado par谩metros adicionales, encontrar谩s un archivo como el siguiente:聽

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

En versiones anteriores de WordPress, cuando activabas la casilla 鈥淒isuade a los motores de b煤squeda de indexar este sitio鈥, pensada para evitar la indexaci贸n de contenido mientras la web estaba en fase de desarrollo. Al marcar la casilla, WordPress creaba un robots.txt como el siguiente:聽

User-agent: *

Disallow: /

Esta regla lo que hace es bloquear el acceso a todos los bots a todo el sitio web. Sin embargo, la versi贸n WordPress 5.3 cambia la forma de indicar a los motores de b煤squeda que eviten el indexado del sitio web. En lugar de poner una directiva en el robots.txt, en los sitios con la opci贸n 鈥淒isuade a los motores de b煤squeda de indexar este sitio鈥 activada se generar谩 la metaetiqueta <meta name=’robots’ content=’noindex,nofollow’ />.聽

Esto se debe a que, aunque lo m谩s com煤n es que de la indexaci贸n se pase a la clasificaci贸n, lo cierto es que una p谩gina bloqueada por robots.txt puede ser mostrada en los resultados de b煤squeda por ejemplo, si se encuentran enlaces apuntando a ella. En palabras de Joost de Valk, fundador de Yoast SEO:

鈥淣o es necesario rastrear un sitio para que aparezca en la lista. Si un enlace apunta a una p谩gina, dominio o donde sea, Google sigue este enlace. Si el archivo robots.txt en ese dominio impide que un motor de b煤squeda rastree esa p谩gina, seguir谩 mostrando la URL en los resultados鈥

聽Por ello, si lo que se desea es evitar la indexaci贸n de la p谩gina, lo ideal es meter una etiqueta <meta name=”robots” content=”noindex,nofollow”> en la cabecera del contenido que no queremos indexar, ya que Google lo leer谩 al rastrear ese contenido.聽

 

Reglas de robots.txt

El robots.txt, tanto en WordPress como en el resto de CMS, se construye determinando, por un lado, el bot al que van destinadas las reglas y, por otro, las que reglas que ha de seguir el bot. Estos son los par谩metros utilizados:

  • User Agent: especifica para qu茅 bots est谩n destinadas las reglas que se pongan a continuaci贸n.聽
  • Disallow: es la regla que especifica el bloqueo de acceso. Tras 鈥淒isallow: 鈥 se pondr谩 la ruta que queremos bloquear.
  • Allow: es la regla que realiza excepciones a disallow. Es decir, a帽ade rutas a las que el bot si podr谩 entrar aunque est茅n dentro de las carpetas excluidas anteriormente. Tras 鈥淎llow: 鈥 se pondr谩 la ruta que queremos desbloquear.
  • Crawl-delay: determina el tiempo entre peticiones que el bot hace en el sitio web; sin embargo, su efectividad es casi nula, ya que bots como Googlebot no toman en cuenta esta directiva.聽
  • Sitemap: especifica la ruta en el que se encuentra el sitemap del sitio web.聽

Adem谩s, existen par谩metros comodines que te ayudar谩n a configurar tu robots.txt:

  • Asterisco (*): es un comod铆n que se utiliza para incluir 鈥渢odos鈥. Por ejemplo:
    • User-agent: * > Estamos indicando que las reglas se aplicar谩n a todos los bots.
    • Disallow: / > Estamos indicando que estar谩n bloqueados todos los directorios.
  • D贸lar ($): se utiliza en las extensiones para indicar que la regla se aplica a todos los archivos que acaben en una extensi贸n concreta. Por ejemplo:
    • /*.html$ > Estamos indicando que la regla ser谩 aplicada a todos los archivos html.聽

Si no se especifica nada en el robots.txt se entiende que se le est谩 permitiendo el paso al robot por toda tu web.

Reglas del robots.txt para WordPress

Adem谩s de las reglas concretas que requiera la web, existen algunas reglas comunes que suelen usarse en WordPress:

#Bloqueo b谩sico

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /xmlrpc.php

Con estas reglas estamos bloqueando recursos del CMS no relacionados directamente con el contenido (que estar谩 en la carpeta wp-content). Sin embargo, el bloqueo de /wp-includes/ puede dar problemas en GSC debido al bloqueo de recursos. Para permitir que Google rastree CSS y JavaScript, que tambi茅n gestionan y muestran el contenido, se debe a帽adir 鈥渁llow鈥 a estos recursos:聽

Allow: /wp-includes/*.js

Allow: /wp-includes/*.css

 

Editar robots.txt de WordPress de manera manual

Como hemos visto, WordPress crea autom谩ticamente un robots.txt en tu sitio web, pero ahora que sabes m谩s sobre este archivo, posiblemente quieras crear uno a medida de tu web.

Generalmente, este archivo se encuentra en la carpeta raiz del dominio, que encontrar谩s en tu FTP como www o public_html. Para editar este robots.txt, solo deber谩s crear uno a tu medida desde cero y subirlo a la carpeta ra铆z de tu web a trav茅s del FTP para reemplazar el anterior.聽

robots filezilla

 

Editar robots.txt en wordpress con plugin

Aunque es muy sencillo editar el archivo robots.txt de manera manual, si no quieres tocar las tripas de tu web, puedes hacerlo utilizando un plugin. Existen una infinidad de plugins que editan el robots.txt. Aqu铆 te dejamos algunos de los m谩s utilizados:

 

  • Robots.txt en Yoast SEO

Si est谩s metido en el mundo SEO en WordPress, seguramente ya conozcas este plugin. Se trata del plugin de SEO m谩s utilizado debido, entre otras cosas, a su facilidad de uso. Para acceder al robots.txt, ve a la pesta帽a SEO > Herramientas > Editor de archivos (si no te aparece esta opci贸n, revisa que tengas todos los permisos en el plugin). Al pulsar en 鈥淐rear robots.txt鈥, acceder谩s al editor del robots sin salir de tu escritorio. Una vez que hayas metido las reglas que quieras, pulsa 鈥淕uardar cambios en robots.txt鈥 y 隆voil脿! este robots anular谩 las reglas que tengas en el robots.txt de tu carpeta ra铆z.聽

 

  • Robots.txt en All in One SEO

Es otro de los plugins SEO m谩s populares que, como no pod铆a ser de otra manera, tambi茅n incluye la opci贸n de editar el robots.txt desde la interfaz de WordPress. Y m谩s sencillo si cabe que con Yoast SEO. Podr谩s hacerlo entrando en 鈥淕estor de utilidades鈥 del men煤 izquierdo > Robots.txt.聽

robots.txt-all-in-one

脷nicamente tendr谩s que seleccionar el tipo de regla, poner el bot al que se destina y la ruta que quieres bloquear o desbloquear. Adem谩s, este plugin te permite bloquear directamente bots maliciosos. Sencillo 驴no?

 

Probar robots.txt聽

Como hemos comentado anteriormente, para ver el robots.txt solo tienes que acceder a tudomino.com/robots.txt. Pero si adem谩s de verlo quieres testearlo, puedes hacerlo entrando en: https://www.google.com/webmasters/tools/robots-testing-tool. Se trata de una herramienta integrada en Google Search Console,por lo que tendr谩s que tener una cuenta y la propiedad en GSC.

Una vez logueado, elige la propiedad y te aparecer谩 el sitemap.xml del sitio web en cuesti贸n. Pero lo m谩s 煤til de esta herramienta es la posibilidad de saber si una URL concreta est谩 bloqueada por los par谩metros que metemos en el robots.txt, lo que resulta muy 煤til cuando estamos usando par谩metros generales o muchas reglas.

robots google search console

 

Conclusi贸n

Si lo que buscas es aumentar el posicionamiento y visibilidad de tu web, debes asegurarte de que los bots, y muy especialmente Googlebot, rastree el contenido que m谩s te interesa mostrar de tu web. Y el robots.txt puede ayudarte. Eso s铆, aseg煤rate de configurarlo correctamente. Y recuerda:

1)Que incluyas una carpeta en tu archivo robots.txt no significa que Google no vaya a indexarlo.聽Si Google encuentra enlaces externos a una determinada aunque t煤 est茅s bloque谩ndola en el robots.txt puede indexarse. Si quieres evitar que una URL de verdad se indexe te recomentamos la meta etiqueta “no index”.

2)聽Siempre recomendamos tener robots.txt.聽Aunque pienses que quieres darle acceso a todos los motores de b煤squeda a tu sitio, siempre recomendamos tener este archivo.

3)聽Introduce el sitemap al final del robots.txt: es una buena pr谩ctica que ayudar谩 a mejorar la indexaci贸n de tu sitio (sitemap: tudominio.com/sitemap.xml).

4)聽Puedes testear tu robots.txt en Webmaster Tools.

5)聽Si pones disallow a una carpeta, todo lo que hay dentro de esa carpeta, subcarpetas y archivos estar谩 siendo bloqueado.

Si necesitas ayuda en esto o quieres aumentar el posicionamiento de tu p谩gina web, no lo dudes: 隆ponte en contacto con nosotros!



Deja un comentario

Tu direcci贸n de correo electr贸nico no ser谩 publicada. Los campos obligatorios est谩n marcados con *