すべてのコレクション
よくある質問
URLリストを使用してスクレイピングを高速化する
URLリストを使用してスクレイピングを高速化する
一週間前以上前にアップデートされました

「URLリスト」のループモードでは、Octoparseは「次のページをクリック」や「アイテムをクリック」をクリックしなくてもアイテムページに移動できます。その結果、抽出速度が高速化されます。特にクラウド抽出の場合には有効です。「URLリスト」を使用して構築されたタスクをクラウドで実行する場合、タスクは複数のサブタスクに分割され、さまざまなクラウドサーバーで同時に実行されます。


1. URLリストを使用してページネーションを高速化する

スクレイピングのタスクが複数のページからデータを取得する必要がある場合、1つずつ「ページ送り」をクリックする代わりに、URLリストを使用してスクレイピングすることができます。これにより、タスクをより効率的に実行することができます。

以下のURLを例にしてみましょう:

このウェブサイトには合計849ページがあります。各ページのURLを観察すると、同じ構造を共有していることがわかります。この場合、「バッチ生成」を使用して各ページのURLを自動生成することができます。

以下の手順に従ってください:

  • サイドバーメニューから+新規作成をクリックし、カスタマイズタスクを選択します。

  • バッチ生成を選択し、URLフォーマットバーに最初のページのURLを入力し、パラメーター追加を選択します。

  • タイプ: 数字

  • 初期値: 1

  • 毎回: +1

  • 回数: 849

  • はいをクリックします。


ページの後ろにある数字「1」を削除することを忘れないでください。URLを生成した後の出力は以下のようになります:

ヒント:1つのタスク/クローラーに最大100万個のURLをバッチでインポートする方法は3つあります:

  • ローカルファイルからのURLをバッチインポート

  • 別のタスクからURLをバッチインポート

  • 手動で入力する

詳細については、このチュートリアル「URLの一括インポート」をご覧ください。


2. URLリストを使用して詳細ページのスクレイピングを高速化する

リスト上のアイテムをクリックしてそれに対応する詳細ページをスクレイピングする必要がある場合、1つずつすべてのアイテムをクリックするのに時間がかかります。この場合、まずリストされたすべてのアイテムのURLをスクレイピングすることが賢明です。詳細ページのURLをすべて取得した後、前のタスクからスクレイピングしたすべてのURLを入力して新しいタスクを開始することができます。

こちらの回答で解決しましたか?