リスト一覧ページとは、カテゴリページで絞り込まれた商品、サービス、記事などが一覧形式で表示されるページのことです。このページに表示されている情報をもとに、各詳細ページへ遷移することも可能です。
以下に一覧ページの一例を示します。
例えば、エンゲージの一覧ページから、各企業の会社名、業種、所在地、平均年収、残業時間などの情報を取得するには、どのようにすればよいでしょうか?
本記事では、以下の2つの方法をご紹介します。
(ページURL:食品・飲料業界の企業・会社の一覧 - エンゲージ会社の評判)
1. 自動検出機能を利用する
自動検出機能を使えば、このような一覧ページからデータを簡単に取得することが可能です。
WebページのURLを入力し、自動識別を起動すると、Octoparseがページ上のデータを自動的に検出し、ワークフローを自動生成してくれます。
詳しい操作は次の記事をご参照ください。
2. 手動で設定する
1. WebページのURLを入力した後、1つの項目全体が水色で強調表示されるまで、マウスを項目の上に移動させます。
2. 抽出したいすべてのデータが、その強調表示された領域に含まれているかを確認します。以下の画像は、項目全体が選択されていない例です。
3. 項目全体が水色になったらクリックし、その項目が選択され、中に含まれるデータも識別されます。その後、「操作提案」から「すべての子要素を選択」を選択します。
4. 続いて、「類似グループをすべて選択」をクリックすると、他の項目のデータも自動的に識別されます。
5. すべての項目が緑色で強調表示された状態になったら、「要素データ」を選択します。これにより、リスト抽出用のループアイテムが自動的に生成されます。
6. 「データプレビュー」画面では、フィールド名の変更や不要なフィールドの削除を行うことができます。