¿Qué es el crawl budget o presupuesto de rastreo de Google?

por | Jul 26, 2018 | seo | 0 Comentarios

Esta vez en Online Zebra queremos hablarte de un elemento que tiene una incidencia fundamental en el SEO, pero que a veces no se le presta la atención necesaria: el crawl budget de Google. El presupuesto de rastreo (o crawl budget) es el tiempo que Google  asigna para rastrear nuestro site. Dependiendo de si este tiempo es mayor o menor, Google podrá rastrear más partes de nuestra web y, como consecuencia de esto, podrá indexar más o menos páginas según las considere relevantes o no para el usuario… Ya empezamos a deducir la importancia y transcendencia que este factor va a tener para la visibilidad online de una web y para su estrategia SEO.

 

¿Por qué lo llaman laberinto? No hay giros, ni esquinas, ni nada, sólo sigue y sigue… O quizá no… quizá estoy dando por sentado que es así… (Labyrinth, 1986)

Factores que influyen en el crawl budget

Como siempre, Google no ha declarado específicamente qué factores exactos son los que condicionan el presupuesto de rastreo, pero gracias a varias pruebas y análisis de los Seos podemos aventurar algunos:

 

  • Velocidad de carga: Ya es de sobra conocida la importancia que Google otorga al tiempo de carga de una web. Los impacientes usuarios quieren webs que se vean y se carguen rápido. El uso mayoritario del móvil ha propiciado esta obsesión por crear sites optimizados en WPO y sin duda, la velocidad de carga es ya un factor de posicionamiento para Google. Además, cuanto menos tiempo tarde el bot de Google en rastrear tu web mayor presupuesto de rastreo (por lo general) te va a otorgar.
  • Arquitectura web: Una buena arquitectura de la web en directorios, carpetas, enlazado interno, estructura de urls, es decir, un orden lógico en la estructura y jerarquía de la web, va a favorecer que Googlebot rastree con mayor facilidad una web y por lo tanto lo vea como un factor positivo para el crawl budget.
  • El robots.txt: cómo esté definido el archivo robots.txt va a marcar la pauta de cómo nos rastrea Googlebot, por qué partes de la web pasará y por cuáles no.
  • La autoridad de la web (PA): No está declarado pero parece obvio que cuanta mayor autoridad tenga una web Google le dará más cariño, lo que se traduce en un mayor presupuesto de rastreo, pues suelen ser webs cde confianza y con muchas visitas orgánicas.
  • La actualización: A Google le gustan las webs con vida, que actualicen continuamente contenidos de la misma, lo que quiere decir que se mantienen operativas. Es otro de los factores que casi con seguridad mejoran el crawl budget.

Crawl Demand + Crawl Limit = Crawl Budget

El Crawl Demand son los factores que están relacionados directamente con la querencia que tiene Google para rastrear tu web. En este caso son la autoridad del site y la frecuencia de actualización de los contenidos ya indexados lo que define este crawl demand.

El Crawl Limit tiene que ver con el límite de url que establece Googlebot para rastrear tu web y tiene que ver con la capacidad de servicio de los servidores. Una alta frecuencia de rastreo puede llegar a tumbar un servidor que no tenga mucha carga dedicada y además permite a Google ahorrar en recursos de rastreo.

 

¿Cómo optimizar el crawl budget para mejorar el SEO de una web?

Después de los factores que cuentan para el presupuesto de rastreo ya nos hacemos una idea de que un Seo se tendrá que poner manos a la obra para optimizar lo que haga falta con tal de mejorar este elemento.  Como siempre, esta optimización tiene que tener un objetivo y estar dentro de una estrategia SEO, no vale con mejorar a diestro y siniestro porque perderemos el foco. Aquí veremos, por ejemplo, que no siempre un mayor presupuesto de rastreo significa mejor posicionamiento o mejor lectura de la web. A veces, menos es más.

Imaginemos que ya tenemos una web o que nos viene dada por lo que poco podemos hacer en un principio para mejorar la arquitectura. También tiene una autoridad que, aunque podamos mejorar con el tiempo, no es algo que podamos forzar rápidamente. Entonces ¿Dónde dirigimos nuestros esfuerzos, por dónde empezamos?

 

  • Analizar el crawl budget: Lo primero es ver cómo nos está visitando Googlebot (sus versiones de escritorio y móvil). Lo más fácil y rápido es acudir a Search Console al apartado “Rastreo > Estadísticas de rastreo”.  Aunque es un campo muy importante para ir revisando el presupuesto de rastreo diario en relación a la velocidad de carga, no nos ofrece una información demasiado desgranada. Nos sirve en todo caso para observar grandes alteraciones que puedan darnos pistas de que algo bueno o malo está sucediendo en la relación de Google con nuestro site.

 

Crawl budget en Search Console

 

 Un análisis mucho más potente nos lo ofrecen los logs de acceso. Si conseguimos un buen paquete de logs de un periodo acotado (ojo, los logs son los registros de todas las entradas a la web y por lo tanto en webs muy grandes son miles y miles de datos que ocupan mucho espacio), podemos analizarlos con herramientas del tipo SEO Log File Analyzer, un complemento de Screaming Frog. Con los logs podemos saber por dónde pasan exactamente  los bots de Google. Esta información es oro puro para saber si se está rastreando lo que se quiere o necesita o, en cambio, los bots desperdician el presupuesto de rastreo en páginas sin relevancia o rotas. Este análisis nos va a llevar a realizar las optimizaciones más precisas.

 

Herramienta de ánálisis de logs

 

  • Optimizar el robots.txt: Si hemos hecho un buen análisis y descubrimos que Googlebot está desperdiciando parte de su crawl budget de forma recurrente en directorios o páginas que no nos interesan, es el momento de incluir directrices en el robots.txt que bloqueen este rastreo. También nos puede ayudar para justamente lo contrario, y es que en el análisis nos demos cuenta de que no está pasando por tal o cual ruta y a lo mejor lo tenemos bloqueado por error en el robots.txt. Algunas directrices en robots.txt para limitar la frecuencia de rastreo no son aplicables para Google y las ignorará, es el caso de la directriz Crawl delay. Con esta directriz puedes estipular la velocidad en la que un user agent rastrea tu web aplicándole un tiempo: Crawl delay: 30 (por ejemplo); por otro lado, directriz muy útil si queremos que algunos rastreadores no tumben nuestra web. Pero como hemos indicado, Google pasa de ella.

 

  • Configuración de Search Console:  Existe a través de Search Console la forma de limitar el rastreo de Google, aunque no es muy recomendable es posible que en algunos casos un alto rastreo pueda ocasionar problemas en la velocidad del servidor. Una vez en la cuenta, en la esquina superior derecha podemos ir a “Configuración del sitio”, una vez allí, nos aparecerá el campo de “Frecuencia de rastreo” y dos opciones: Permitir que Google se optimice para mi sitio (recomendada) y Limitar la frecuencia de rastreo máxima de Google.

 

  • Códigos de respuesta: el análisis de logs también nos puede indicar si Googlebot gasta parte del crawl budget rastreando páginas redireccionadas (301, 302, etc). Esto no es malo, pero siempre ralentiza y gasta recursos. Un sitio con pocas redirecciones será más fluido para los bots. Los 404 ya es otro tema. Si percibimos que tenemos muchos enlaces internos rotos que arrojan 404, entonces si que deberíamos intentar o bien eliminarlos o bien redirigirlos a la página adecuada; si no, Googlebot malgastará parte del presupuesto de rastreo en 404 que no aportan nada.

 

  • Enlazado interno: aquí entramos en el tema quizá más técnico y peliagudo porque ¿Cómo evitar que Google siga enlaces internos que son necesarios para el buen funcionamiento de la web a nivel usuario (U/X), pero que no nos interesan a nivel SEO (Menus, footer, Sides)? La solución que proponen los maestros del SEO es la ofuscación de enlaces a través de Java. Esta técnica avanzada solo es recomendable en casos muy excepcionales, ya que es una forma de ocultarle a Google partes de tu web que sí ve el usuario, por lo que es de prever que Google esté trabajando en entender cada vez mejor el código java y acabe, más pronto que tarde, por detectar estos enlaces y quién sabe si en penalizar esta técnica.

 

¿Por qué es importante el crawl budget para la web de una Pyme?

Pareciera que el Crawl Budget es muy importante para los sites más grandes y, realmente, lo es. Saber cómo y por dónde navega Google en un sitio enorme ayuda a disminuir esfuerzos y afinar la estrategia de forma brutal, pero ¿Y para las Pymes o webs más modestas? También. Primero porque puede suponer un análisis que te diferencia de la competencia y llegues a conclusiones mucho más acertadas o precisas. Segundo porque ajustar e incrementar el presupuesto de rastreo es un objetivo insoslayable dentro de la estrategia SEO si queremos que Google indexe y posicione lo que realmente importa.

 

¿Cómo ver el crawl budget de mi web en Search Console?

Desde hace algún tiempo, la herramienta Search Console facilita la información del rastreo de los diferentes bots de Google. Una información que se agradece y mucho, porque de esta forma tenemos de primera mano los datos de rastreo o de cuánto cariño no da Google. Tan solo tendremos que ir al campo de «AJUSTES» y una vez dentro, pulsar en «ABRIR INFORME» Una vez dentro veremos una gráfica en la que se nos muestra cuántas veces acceden los bots de Google a nuestra web durante un periodo de tiempo. También tenemos información sobre cuánto bytes se descarga en cada acceso, a qué urls accede y qué código de respuesta dan, qué tipos de códigos rastrea (html, javascript, css,…) y qué tipo de bot de Google es el que ha rastreado (smartphones, escritorio, imágenes,…).

Rastreo de Google en Search Console

Por supuesto, todas estas patas de la mesa están sosteniendo una estrategia SEO con objetivos bien definidos que partirán de un estudio de mercado online (Competencia, nichos, keyword research).

 

Esperamos que haya quedado bien clara la importancia y lo qué es el crawl budget o presupuesto de rastreo de Google. Te animamos a dejar cualquier comentario. Además, puedes contar con nuestros servicios de SEO si así lo necesitaras.

Adrián Pulido Sanjurjo

Adrián Pulido Sanjurjo

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Suscríbete a la Zebraletter

Información básica sobre el tratamiento de sus datos personales: Responsable: ONLINE ZEBRA MARKETING, S.L. Finalidad: Enviarle información comercial de nuestras actividades y servicios por medios electrónicos. Derechos: Tiene derecho a acceder, rectificar, oponerse y suprimir sus datos, así como a la limitación y portabilidad de sus datos, dirigiendo comunicación a info@onlinezebra.com Para más información: consulte nuestra política de privacidad.