Cómo scrapear una web para extraer las páginas por fechas

por | Jun 21, 2024 | Herramientas SEO | 0 Comentarios

No te ha pasado que quieres optimizar una web o el blog de un proyecto y necesitas ordenar por fechas las urls. Tranqui, te voy a decir un truco sencillo. Sólo vas a necesitar Screaming Frog.

Paso 1: Descargar e instalar Screaming Frog SEO Spider

Si aún no tienes Screaming Frog instalado, descárgalo e instálalo desde screamingfrog.co.uk.

Échale un vistazo a nuestro mega tutorial de Screaming Frog.

Paso 2: Configurar Screaming Frog para extraer URLs y fechas

  1. Abrir Screaming Frog: Abre la aplicación Screaming Frog SEO Spider.
  2. Configurar el User-Agent: Asegúrate de que el User-Agent esté configurado de manera que el sitio web lo permita. Puedes configurarlo en Configuration > User-Agent.
  3. Configurar la extracción personalizada:
    • Ve a Configuration > Custom > Extraction.
    • Haz clic en Add para agregar una nueva extracción personalizada.
    • Configura la extracción para buscar la meta etiqueta de la fecha de publicación. Por ejemplo, si la fecha está en una etiqueta meta como <meta property="article:published_time" content="2022-01-01" />, configúralo como sigue:
      • Name: Fecha de Publicación
      • Type: XPath
      • XPath: //meta[@property='article:published_time']/@content

Scrapear una web con screaming frog

Paso 3: Realizar el rastreo de la web

  1. Introducir la URL del sitio web: Ingresa la URL del sitio web que deseas rastrear en la barra de búsqueda de Screaming Frog.
  2. Iniciar el rastreo: Haz clic en el botón de Start para comenzar el rastreo del sitio web.

Paso 4: Exportar los resultados

  1. Exportar los datos:
    • Una vez que el rastreo se haya completado, ve a Bulk Export > Custom > Extraction > All URLs.
    • Guarda el archivo CSV exportado en tu computadora.

Paso 5: Ordenar las URLs por fecha

  1. Abrir el archivo CSV en Excel o Google Sheets:
    • Abre el archivo exportado en Excel o Google Sheets.
  2. Convertir las fechas:
    • Asegúrate de que la columna de fecha esté en un formato de fecha correcto. Puedes necesitar convertir las fechas si no están ya en un formato reconocible por Excel/Google Sheets.
  3. Ordenar por fecha:
    • Selecciona la columna de la fecha y usa la opción de Sort para ordenarla por fecha. En Excel, puedes seleccionar la columna y utilizar Data > Sort Oldest to Newest o Data > Sort Newest to Oldest.
  4. Filtrar por año:
    • Si deseas separar las URLs por año, puedes utilizar una función de filtro o una tabla dinámica para agrupar las URLs por año de publicación.

Paso 6: Guardar el archivo ordenado

  1. Guardar el archivo:
    • Una vez ordenado, guarda el archivo como un nuevo CSV con las URLs ordenadas por fecha.

IMPORTANTE

Si las fechas de publicación no están disponibles en meta etiquetas y en cambio están en el contenido de la página, el XPath deberá ser ajustado para capturar el contenido correcto. La precisión de la extracción de fechas depende de la consistencia del formato de la fecha en todo el sitio web.

Si tienes alguna pregunta adicional o necesitas ayuda con un paso específico, no dudes en escribirnos en comentarios.

Álvaro Cuevas García

Álvaro Cuevas García

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Suscríbete a la Zebraletter

Información básica sobre el tratamiento de sus datos personales: Responsable: ONLINE ZEBRA MARKETING, S.L. Finalidad: Enviarle información comercial de nuestras actividades y servicios por medios electrónicos. Derechos: Tiene derecho a acceder, rectificar, oponerse y suprimir sus datos, así como a la limitación y portabilidad de sus datos, dirigiendo comunicación a info@onlinezebra.com Para más información: consulte nuestra política de privacidad.