メインコンテンツにスキップ

抽出したデータを再フォーマットする

2週間以上前に更新

Webスクレイピングのプロジェクトでは、抽出したデータを必要な形式に整えることがあります。Octoparseでは 10種類のデータ再フォーマットオプション を提供しており、スクレイピング中にデータを直接整形することができます。

どんな場合にデータを再フォーマットするのか?

特定のフィールドを希望の形式で取得したい場合、Octoparseの 「データを再フォーマット」 機能を使ってください。

Octoparseはスクレイピングと同時にフィールドを整形するため、エクスポートした後に再度加工する必要がありません。


再フォーマットを設定する方法

データプレビューで、再フォーマットするデータフィールドの「ほかのオプション」アイコンをクリックし、「データを再フォーマット」を選択します。

mceclip0.jpg

「ステップを追加」をクリックし、データをどのように処理するかを選択します。データが要件を満たすまで複数のステップを追加することができます。

mceclip1.jpg

再フォーマットの処理

1. 置換

抽出されたデータ内の特定の文字列を、新しい文字列に置き換えます。

2. 正規表現による置換

特定の正規表現を使って、抽出されたデータ内の一致した文字列を必要な文字列に置き換えます。

ヒント:

正規表現がわからない方のために:

  • よく使う表現を直接選んで適用可能

  • AI正規表現ジェネレータ で自動生成も可能

3. 正規表現によるマッチング

正規表現を使って、一致した文字列だけを抽出します。

W3schoolsなどで正規表現を学ぶことができます。

4. スペースの削除

抽出されたデータの最初または最後から不要なスペースを削除します。

07.png

5. 接頭辞の追加

抽出されたデータの最初に文字列を追加します。

6. 接尾辞の追加

抽出したデータの最後に文字列を追加します。

7. 日時のフォーマット

抽出された日付/時刻を特定のフォーマットに変更します。

8.タイムスタンプの変換

 Unixタイムスタンプを、読みやすい日付形式に変換します。

9. タイムゾーンの変換

抽出した日付/時間を、希望のタイムゾーンに変換します。

クラウド実行の表示時間は、UTC+0のため、所在地のタイムゾーンに変換すると便利です。

10. HTML

特定のHTMLタグを自動的にプレーンテキストに変換します。

例: 「&」 → 「&」

ヒント

  • 追加した整形ステップは後から編集・削除できます。


Octoparse 正規表現ツール

Octoparseには AI正規表現ジェネレータ簡易ルール生成機能 が用意されており、自動で必要な正規表現を作成することが可能です。

正規表現ツールの使い方についての詳細はこちらをご覧ください。

こちらの回答で解決しましたか?