Webスクレイピングのプロジェクトでは、抽出したデータを必要な形式に整えることがあります。Octoparseでは 10種類のデータ再フォーマットオプション を提供しており、スクレイピング中にデータを直接整形することができます。
どんな場合にデータを再フォーマットするのか?
特定のフィールドを希望の形式で取得したい場合、Octoparseの 「データを再フォーマット」 機能を使ってください。
Octoparseはスクレイピングと同時にフィールドを整形するため、エクスポートした後に再度加工する必要がありません。
再フォーマットを設定する方法
データプレビューで、再フォーマットするデータフィールドの「ほかのオプション」アイコンをクリックし、「データを再フォーマット」を選択します。
「ステップを追加」をクリックし、データをどのように処理するかを選択します。データが要件を満たすまで複数のステップを追加することができます。
再フォーマットの処理
1. 置換
抽出されたデータ内の特定の文字列を、新しい文字列に置き換えます。
2. 正規表現による置換
特定の正規表現を使って、抽出されたデータ内の一致した文字列を必要な文字列に置き換えます。
3. 正規表現によるマッチング
正規表現を使って、一致した文字列だけを抽出します。
W3schoolsなどで正規表現を学ぶことができます。
4. スペースの削除
抽出されたデータの最初または最後から不要なスペースを削除します。
5. 接頭辞の追加
抽出されたデータの最初に文字列を追加します。
6. 接尾辞の追加
抽出したデータの最後に文字列を追加します。
7. 日時のフォーマット
抽出された日付/時刻を特定のフォーマットに変更します。
8.タイムスタンプの変換
Unixタイムスタンプを、読みやすい日付形式に変換します。
9. タイムゾーンの変換
抽出した日付/時間を、希望のタイムゾーンに変換します。
クラウド実行の表示時間は、UTC+0のため、所在地のタイムゾーンに変換すると便利です。
10. HTML
特定のHTMLタグを自動的にプレーンテキストに変換します。
例: 「&」 → 「&」
Octoparse 正規表現ツール
Octoparseには AI正規表現ジェネレータ と 簡易ルール生成機能 が用意されており、自動で必要な正規表現を作成することが可能です。
正規表現ツールの使い方についての詳細はこちらをご覧ください。