No somos del todo conscientes de la gran cantidad de información que nos proporciona Internet. Todo este volumen de datos es revisado por los bots de Google, con la intención de poder recopilarlo y clasificarlo para ser mostrado en las resultados de búsqueda.
Este proceso de puesta en conocimiento de Google de la información que se encuentra en Internet, se denomina rastreo, y a continuación te explicaremos más detalladamente en qué consiste, así como las principales diferencias con respecto al término indexación, puesto que ambos se confunden normalmente.
Contenidos
¿Qué es el rastreo?
Internet se asemeja a una gran biblioteca en continuo crecimiento, donde se encuentran millones y millones de archivos. Para encontrar este tipo de archivos públicos, los bots de Google hacen uso del rastreo en el mayor número de URLs posible. En el caso de Google este software es denominado «rastreador web» y se encarga de descubrir todas aquellas páginas web que son de dominio público. El rastreador más conocido se llama «Googlebot«”.
El proceso de rastreo comienza a partir de una lista de direcciones web, las cuales se han obtenido en anteriores rastreos, así como de los propios archivos sitemaps que han sido elaborados por los propietarios de los sitios web. Al visitar cada uno de ellos, el rastreador va siguiendo los enlaces que encuentra a su paso, llegando a URLs que ya conocía o por el contrario, descubriendo nuevo contenido.
Aquí entra en juego, lo que se conoce como «crawl budget» o presupuesto de rastreo. Se trata del tiempo que Google asigna a rastrear nuestra página y dependiendo de éste, Google podrá explorar más o menos páginas de nuestro sitio en cada rastreo.
Aquellas páginas web que pueden ser rastreadas por los motores de búsqueda son denominan comúnmente como páginas rastreables. Por otro lado, aquellas donde no llegarán los bots de Google, serán páginas no rastreables.
¿Por qué es importante que Google rastree tu página web?
Una vez que el contenido de nuestra web esté listo para ser lanzado a Internet, es necesario que realicemos las acciones necesarias para que el «Googlebot» pase por nuestro sitio. Esto resulta de vital importancia, más aún si tenemos en cuenta que casi el 90% del tráfico web es canalizado a partir de Google. Si en este caso, nuestra web es nueva, Google aún no la conoce. Por ello, debemos asegurarnos de haber captado esa atención, para que Google rastree nuestra página.
Una vez que hayamos puesto en conocimiento de Google la existencia de nuestro contenido, a través del rastreo, pasaremos al siguiente eslabón, la indexación. Una vez Google haya descubierto nuestra web, la incluirá en su índice, clasificándola.
Diferencias entre rastreo e indexación
Es posible que llegados a este punto, tengas dudas sobre las diferencias entre rastreo e indexación. Debes comprender, que se trata de dos partes diferenciadas del proceso a través del cual Google recopila y almacena la información que encuentra en nuestro sitio web.
Estos dos conceptos se encuentran relacionados entre sí. Por una parte, la rastreabilidad definirá la capacidad del motor de búsqueda para poder llegar al contenido ubicado en determinada página web, rastreandolo. Si tu página web no tiene problemas de rastreabilidad, las «arañas de Google» podrán llegar fácilmente a tu contenido. Si por el contrario, a su paso encuentran enlaces rotos o páginas sin enlazado interno, puede provocar cierta incapacidad de los motores de búsqueda para rastrear tu web.
Por otro lado, la indexabilidad, hace referencia a la capacidad que tienen los motores de búsqueda de añadir las páginas anteriormente rastreadas, a su índice de contenidos, puesto que de ésta manera, podrán ser clasificadas y gracias a técnicas SEO, nuestro contenido será visible para los usuarios con una intención de búsqueda concreta. De esta manera, a pesar de que Google puede llegar a rastrear la totalidad de nuestro sitio web, no es necesario que todas esas URLs sean indexadas.
Podemos diferenciar entre los siguientes supuestos que pueden darse en una URL en nuestro sitio web. A partir de ellas, indicaremos a Google cómo debe actuar:
- Rastreables e indexables: Son URLs a las cuales Google puede acceder y ver su contenido, además podrá llegar a ser indexada por los motores de búsqueda. Esto no quiere decir que por ser rastreable, sea siempre indexada, puesto que depende de Google decidir si la indexa o no.
- Rastreables y no indexables: Google puede acceder a ella y visualizar su contenido, sin embargo, al indicarle al motor de búsqueda que no queremos que la indexe, no será mostrada en los resultados de búsqueda. No obstante, esto no quiere decir que Google no acceda a ella con frecuencia.
- No rastreable e indexable: Son aquellas URLs donde no queremos que Google acceda (normalmente definidas en el archivo robots.txt) y por tanto, no podrá leer el valor del meta-robots que le hayamos asignado. Pero si podrán ser indexables a través de otros medios (sitemaps, enlaces externos,…). Este es el conocido caso que todos podemos ver en algunos proyectos de Search Console y que Google define como «Aunque un archivo robots la ha bloqueado la url se ha indexado».
- No rastreable y no indexable: URLs bloqueadas al acceso de los bots y además definidas como <noindex> para que no puedan (o no deban) ser rastreadas ni indexadas.
Ahora que conoces las diferencias entre rastreo e indexación, te recomendamos que lleves a cabo un estudio de tu proyecto web, de manera que entiendas la diferenciación sobre el tipo de contenido de tu sitio web, pudiendo así, indicarle a Google las directrices a seguir al pasar por tu página.
En Online Zebra trabajamos con proyectos de posicionamiento web, optimizando al máximo el contenido. De esta manera, nos aseguramos de que Google realice rastreos de nuestra página de manera frecuente, así como de indicarle qué contenidos nos interesa que incluya en su índice. Si estás interesado y quieres conocer más sobre todo tipo de técnicas SEO para tu proyecto, no dudes en ponerte en contacto con nosotros.