Octoparseでは、24時間365日のタスク実行にCloudサーバーを提供しており、ローカル抽出よりも最大6-20倍高速になります。高速な抽出はOctoparse Cloud抽出のハイライトの1つですが、クラウドの速度が満足できない場合もあります。このチュートリアルでは、クラウド上のタスクを高速化する原則とタスクを高速化する方法について説明します。
クラウド上のタスクを高速化する原則
Octoparse クラウドは、1つのタスクを複数のサブタスクに分割し、それらのサブタスクを複数のクラウドサーバーで実行することで高速化します。1つのサブタスクには1つのクラウドサーバーが必要であり、その速度はアカウントがどれだけのクラウドサーバーを持っているか、およびタスクが分割可能かどうかに依存します。
スタンダードプランには6つのクラウドサーバーがあり、プロフェッショナルプランには20つあります。より高速化するためには、より高いプランにアップグレードすることができます。しかし、プランを変更したくない場合は、タスクを分割可能に変更することが非常に重要です。
どのようなタスクが分割可能ですか?
Octoparseでは、どのような種類のループ項目を作成しようとするかに基づいて、自動的にループモードが割り当てられます。これは選択したアイテムとそれらが一般的なウェブページの構造とどのように相互作用するかによって決まります。
具体的には、Octoparseには3つの分割可能なループモードがあります。
1. URLリスト
URLループは、複数のURLを使用して抽出タスクを開始する場合に使用されます。特に、目的のデータが同じページ構造を共有する複数のウェブページにまたがっている場合に便利です。URLのリストを簡単に設定して、各ページを順番に処理できます。OctoparseはURLを1つずつ読み込み、各ページで同じ一連の抽出アクションを実行します。
URLループは分割可能です。したがって、URLのリストで構築されたタスクがクラウドで実行されるように設定されると、Octoparseはより高速かつ効果的な抽出を複数のサブタスクに分割します。
URLリストについて詳しくは、「URLの一括インポート」を参照してください。
2. テキストリスト
テキストリストループは、URLリストループと同様に動作しますが、URLのリストではなく、事前に定義されたテキスト値のリストをループ処理します。
テキストリストループの詳細については、「テキストを入力」を参照してください。
3. 定数リスト
多くのウェブページ(例:ECサイト)は、共有されたHTMLパターンを持つ繰り返し要素のコレクションとしてウェブページのコンテンツ(製品情報など)を整理しています。
このような要素(たとえば、製品タイトル)をキャプチャする際に、Octoparseは共有されたHTMLパターンを持つすべての要素を検出し、同じ種類のすべての要素を特定するXPathのコレクションを生成します。
これらの3つの分割可能なループモードに加えて、分割できない2つのループモードがあります:単一の固定要素ループと変数リストループです。これらのループモードはいずれも単一のXPathのみを使用するため、さらにサブタスクに分割して高速化することはできません。
タスクを分割可能にするにはどうすればよいですか?
1. 変数リストを使用して要素リストをクリックするタスクの場合
各要素のXPathをリストアップすることにより、定数リストに変更します。
ページにクリックせずに要素のURLのみをスクレイプし、その後、URLを使用して詳細データを取得する別のタスクを作成します。
2. 複数のページからスクレイピングするタスクの場合
各ページのURLを使用してワークフローを構築します:URLリストを使用してスクレイピングを高速化する
タスクの加速モードの確認方法
実行中
タスク実行時には、パネルに表示されるサブタスクの数から、分割モードが有効かどうかを判断できます。
実行後
タスク実行完了後、最近実行されたタスクの状態のみを確認できます。