El formato más común de contenidos en las páginas web que encontramos es lista o listado. Aquí algunos ejemplos.
Identificar listas es rápido y fácil con la función de autodetección de Octoparse. Mediante algoritmos avanzados, Octoparse es capaz de detectar automáticamente los elementos de una lista y generar flujos(workflow) de tareas automáticamente.
Esta página web consta de elementos que comparten la misma estructura. Cada elemento contiene un título, fecha, palabra clave, artículo, etc.
Nuestro objetivo es obtener datos extraídos en Excel como abajo manera:
1. Scrapear una lista(un listado) con Auto-detectar
Puedes crear una tarea con una URL del sitio web como arriba ejemplo. Seleccionas auto-detectar en Tips. Pronto verás que la función de autodetección te proporciona algunos resultados, normalmente tendrás 5 opciones. Puedes seleccionar la que más útil para ti y luego confirmar para crear un flujo de tarea (workflow).
Después de seleccionar la opción que deseas, puede configurar los campos, por ejemplo, eliminando los que no desees o cambiando el nombre de los campos(doble clic).
2. Scrapear la lista manualmente
A veces auto-detectar no detecta los campos o resultados de datos deseados. Podemos crear manualmente un flujo (workflow)
Método 1:
Colocar el cursor sobre el primer elemento hasta que toda la sección se resalte en azul
Continuar haciendo clic en el segundo elemento hasta todo lo que necesitas en una página que ha sido seleccionado.
Elegir "Texto" y Octoparse va a crear un flujo de bucle.
Ahora puedes seleccionar los campos deseados, como el nombre del producto, la fecha y otras palabras clave.
Elegir título y hacer clic en Texto
Repetir ese paso manualmente para otros campos
Doble clic es para renombrar el campo
Método 2:
Colocar cursor sobre el primer elemento hasta que toda la sección se resalte en azul. Octoparse va a reconocer los subelementos en ese elemento
Elegir todos los subelementos
Elegir todos los grupos similares
Elegir datos del elemento