「URLリスト」のループモードでは、Octoparseは「次のページをクリック」や「アイテムをクリック」をクリックしなくてもアイテムページに移動できます。その結果、抽出速度が高速化されます。特にクラウド抽出の場合には有効です。「URLリスト」を使用して構築されたタスクをクラウドで実行する場合、タスクは複数のサブタスクに分割され、さまざまなクラウドサーバーで同時に実行されます。
1. URLリストを使用してページネーションを高速化する
スクレイピングのタスクが複数のページからデータを取得する必要がある場合、1つずつ「ページ送り」をクリックする代わりに、URLリストを使用してスクレイピングすることができます。これにより、タスクをより効率的に実行することができます。
以下のURLを例にしてみましょう:
このウェブサイトには合計849ページがあります。各ページのURLを観察すると、同じ構造を共有していることがわかります。この場合、「バッチ生成」を使用して各ページのURLを自動生成することができます。
以下の手順に従ってください:
サイドバーメニューから+新規作成をクリックし、カスタマイズタスクを選択します。
バッチ生成を選択し、URLフォーマットバーに最初のページのURLを入力し、パラメーター追加を選択します。
タイプ: 数字
初期値: 1
毎回: +1
回数: 849
はいをクリックします。
ページの後ろにある数字「1」を削除することを忘れないでください。URLを生成した後の出力は以下のようになります:
ヒント:1つのタスク/クローラーに最大100万個のURLをバッチでインポートする方法は3つあります:
ローカルファイルからのURLをバッチインポート
別のタスクからURLをバッチインポート
手動で入力する
詳細については、このチュートリアル「URLの一括インポート」をご覧ください。
2. URLリストを使用して詳細ページのスクレイピングを高速化する
リスト上のアイテムをクリックしてそれに対応する詳細ページをスクレイピングする必要がある場合、1つずつすべてのアイテムをクリックするのに時間がかかります。この場合、まずリストされたすべてのアイテムのURLをスクレイピングすることが賢明です。詳細ページのURLをすべて取得した後、前のタスクからスクレイピングしたすべてのURLを入力して新しいタスクを開始することができます。