メインコンテンツにスキップ

レッスン5:データを取得する

3週間以上前に更新

前回では、初めてのスクレイピングタスクを作成しテストしました。このレッスンでは、タスクを実行して実際のデータを抽出しましょう!


1. データを取得する方法

タスクを実行するには2つの方法があります。

  1. ローカル抽出(ご自分のパソコンで実行する)

  2. クラウド抽出(クラウドサーバーで実行する)

ご自分パソコンでタスクを実行する場合、抽出中にOctoparseアプリを開く必要があります。 ブラウザと実行ログから抽出状況が確認できます。

一方、クラウドでタスクを実行すると、タスクはOctoparseクラウドプラットフォームで実行されます。つまり、Octoparseアプリまたはパソコンをシャットダウンして、抽出が完了したらデータをチェックすることができます。ローカル抽出と比べると、クラウドで実行されるタスクは、通常6倍~20倍速くなります。クラウド抽出は有料機能で、料金プランをご参照ください。

ヒント:

一部のタスクには、ローカルとクラウド実行の両方に「通常モード」「高速モード」のオプションがあります。通常モードと高速モードの違いについては、こちらをご確認ください。


2. 実行を開始する

タスクの作成が完了したら、「実行」ボタンをクリックして実行を開始できます。

または、ダッシュボードでタスクを見つけ、タスクを実行/停止することもできます。


3. データを確認する

タスクの実行が完了したら、データを確認することができます。

ダッシュボードでタスクを見つけ、表示されるデータ件数をクリックすると、データプレビュー画面に移動します。

CLICK.png

または、ダッシュボードの「そのほか」アイコンをクリックし、「データプレビュー」「ローカルデータ」「クラウドデータ」のどちらを表示するかを選択することもできます。

PREVIEW.png


4. データをエクスポートする

データに問題がなければ、データビュータブの右下隅にある「エクスポート」をクリックして、データをエクスポートすることができます。 Octoparseは、次の3つの方法でデータをエクスポートできます:

  • ファイルエクスポート:データをExcel、CSV、HTML、JSON、またはXMLファイルとしてエクスポートします。

  • データベースにエクスポート:データをGoogleスプレッドシート、PostgreSQL、SQL Server、MySQL、またはOracleなどのデータベースにエクスポートします。

  • クラウドストレージにエクスポート:データをGoogle Drive、Dropbox、またはAmazon S3のようなクラウドストレージプラットフォームにエクスポートします。

データ範囲の指定について

クラウドデータをエクスポートするとき、 データ範囲を指定する必要があります。デフォルトは「すべてのデータ」です。

  • すべてのデータ:クラウドサーバーに保存されているすべてのデータです。

  • エクスポート待ちデータ:タスクが複数回で実行された場合で使います。例えば、昨日抽出されたデータは昨日でエクスポートされたが、今日実行すると新しいデータが抽出され、今日の分をエクスポートするには、「エクスポート待ちデータ」を選択することができます。

ヒント:

  • クラウド抽出データ: アカウントにログインすれば、どのデバイスからでもアクセス可能です。

  • クラウドデータの保存期間: クラウド上のデータは最大3か月間保存され、それ以降は削除されます。削除される前に必ずデータをエクスポートしてください。

  • データ行数が20,000行を超える場合: データは1ファイルにつき最大20,000行で分割され、複数のファイルにエクスポートされます。

  • ローカルデータについて: ローカル抽出が行われたデバイスでのみアクセス可能です。

  • クラウドデータの重複削除: 同じタスクで収集されたデータはクラウド上でまとめて保存され、重複が削除されます。ただし、同じタスクを再実行すると、一時的に重複したデータが表示される場合がありますが、重複は自動的に削除されます。


次へ

レッスン6:定期実行をスケジュールする

こちらの回答で解決しましたか?