Muchos usuarios han encontrado casos en los que Octoparse omite algunas páginas al realizar la extracción de un sitio web y, como resultado, obtienen menos datos. Por ejemplo, después de extraer con éxito las dos primeras páginas, salta directamente a la página 5, luego tal vez a la página 10, pero no sigue el orden de las páginas.

Esto se debe a que el XPath generado automáticamente para el bucle de paginación no siempre encuentra el botón de la página siguiente en cada página.

Echa un vistazo al siguiente ejemplo: https://www.kijiji.ca/b-apartments-condos/canada/house/c37l0a29276001?ad=offering&unit-type=house

En la primera página, puedes ver que el XPath del bucle de paginación localiza perfectamente el botón siguiente.

Sin embargo, en la segunda página, el XPath localiza la página 10.

Así que después de terminar de extraer la segunda página, Octoparse irá directamente a la página 10, omitiendo muchos datos en las páginas intermedias.

¿Cómo solucionar este problema de omisión de páginas?

Es fácil resolver este problema: simplemente modifica el XPath para asegurarte de que siempre localice el botón "Siguiente".

Inspecciona el botón siguiente en un navegador normal para verificar el código fuente.

Hay un atributo de título en la etiqueta A. Podemos usar este atributo para escribir el XPath: //a[@title='Next'] (Consulta cómo escribir un XPath aquí).

Introduce el XPath en Octoparse para comprobar si siempre puede localizar el botón siguiente.

Nota: Después de crear un bucle de paginación en una tarea, es mejor hacer clic manualmente en la acción de Paginación y Hacer clic para paginar para ir a varias páginas, como se muestra en este tutorial, para comprobar si el XPath generado automáticamente puede localizar con precisión el botón siguiente.

¿Por qué Octoparse salta páginas durante la extracción?

¿Cómo solucionar este problema de omisión de páginas?