こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
CAPTCHAは、多くのウェブサイトでさまざまな形で適用され、よく見られるスクレイピング防止対策です。
スクレイピングの効率を上げるために、Octopraseは現在、hCaptcha, ReCaptcha V2, 画像Captchaの3種類のCaptchaを自動的に処理することができます。
hCaptcha と ReCaptcha V2 は同じように解決できますが、画像Captcha の解決はより複雑です。
このチュートリアルに従えば、それぞれの Captcha の基本を理解し、Octoparse で識別させることができるようになります。
hCaptcha、ReCaptcha V2とは?
hCaptchaは通常、次のような組み合わせになっています。
- 「私は人間です 」ボタンとhCaptchaのロゴ
- 人間には簡単、機械には難しい質問が提示されます。
ReCaptcha V2
ReCaptcha V2には通常、「私はロボットではありません」というボタンがあります、時にはhCaptchaと同様の簡単な質問が含まれている場合があります。
hCaptchaとRecaptcha V2を識別させる方法
ワークフローの「+」アイコンを押します。
CAPTCHAを検出を選びます。
CAPTCHAを検出 プロセスをクリックします。
CAPTCHAタイプを選びます。
「保存」を押して保存します 。
注意:
hCaptchaとReCaptchaは、実際の抽出が行われるまで自動的に解決されません。したがって、タスクを作成する際にはブラウズモードをオンにして手動で解決し、進行する必要があります。
Octoparseは、送信ボタンが付いているこれら2種類のキャプチャの解決のみをサポートしています。送信ボタンがないものについては、キャプチャの解決が機能しない場合があります。
画像Captchaとは?
画像Captchaは、人間が認証されるためのオリジナルの方法です。既知の単語やフレーズ、あるいは数字や文字のランダムな組み合わせを使用することができます。また、画像Captchaには、大文字小文字のバリエーションがあるものもあります。
画像Captchaを識別させる方法
チュートリアルに沿って画像Captchaを解決するためには、以下のURLをご利用ください。
https://democaptcha.com/demo-form-eng/image.html
Captchaの入力ボックスと画像を選択します
Captcha用の入力ボックスをクリックします。
操作提案から[Captcha認証]を選択します。
認証失敗の流れをOctoparseに覚えさせます
エラーメッセージをクリックします(この例では - Some errors were detected in your form...)
ヒントパネルの「確認エラー」をクリックします
認証成功の流れをOctoparseに覚えさせます
「検出成功の流れを設定する」をクリックし、最後のステップに進みます。
認証画像に表示されているテキストを入力してください。
「ウェブページに適用し、配置を完了します」をクリックし、設定を完了します。
Octoparseは現在画像Captchaを自動的に識別できるようになりました。また、ワークフローにCAPTCHAを識別ステップが追加され、変更することもできます。
注意:
hCaptchaおよびReCaptcha V2は自動的に検出されるため、XPathを設定する必要はありません。画像CAPTCHAはXPathなしでは検出できませんので、設定内のXPathに注意してください。
千回のCAPTCHA解決ごとに1ドルの費用がかかります。1回のCAPTCHA解決試行は1つのCAPTCHAバイパス回数としてカウントされます。したがって、1つのCAPTCHAを成功させるためにはいくつかのCAPTCHA代行解決残回数が必要です。残高を追加するには「残高反映 チャージ>」をクリックしてチャージすることができます。残回数は返金されません
Standard/Pro/ENTプランのユーザーにはテスト用に一部のバイパス回数を提供しています。残高にチャージする前にテストしていただけます。