失敗したクロールへの対応
クロールで検出した問題 | 考えられる原因 | 対応方法 | |
許可されていないURLがない、または1つのみ | Robots.txtが全てをブロックしている | 詳細設定>テスト設定>robotsの上書き からRobotsの上書き機能を使って、robots.txtファイルをカスタマイズすることができます。 | |
200ステータスコードを返すインデックス可能なURLが1つ | サイト全体または一部でJavaScriptを使用している |
正確なクロール結果を得るには、JavaScriptレンダリングのアドオンを購入して、レンダリングが有効化されたクロールの実行が必要です。 | |
指定したURLパスがプライマリドメインからリンクされていない |
詳細設定>スコープ>スタートURL から、指定URLへのリンクを含むページをスタートURLに追加してください。 | ||
ログインポータルが存在する場合はサイトのクロールにCookieが必要となる可能性がある。 | セッションCookieとプロジェクトへの追加については、カスタマーサポートもしくは、deepcrawl-support@gmotech.jpにお問い合わせください。 | ||
ステータスコード401もしくは403のURLが1つ | サイトがDeepCrawlをIPでブロックしている | 詳細設定>スパイダーの設定>クローラーIP設定 でデフォルトIP(52.5.118.182) が選択されていることを確認した後、サイト管理者にホワイトリストにそのIPを登録するよう依頼してください。 |
|
3xxのステータスコードを返すURLが1つ | プライマリドメインがクロール範囲外のURLへリダイレクトしている | プロジェクト詳細設定で[HTTP / HTTPSを両方クロール]、[すべてのサブドメインをクロール]を選択するか、特定のセカンダリドメインを追加して、リダイレクト先のURLがクロール対象であることを確認してください。そのリダイレクト先のURLをスタートURLとして追加する方法でもこれは解決できます。 | |
curl_GotNothingでクロールされた、もしくはリンクや指標が全く無いURLが1つ | 本物になりすました偽のクローラをブロックするサイトのセキュリティ機能によるもの | ページの処理に失敗した場合、詳細設定でユーザーエージェントをGooglebotからDeepCrawlに変更することで解決できます。 | |
error_Curl_Err_SSLCertificateErrorや類似した失敗理由のURLが1つ |
このサイトへのSSL認証が無効。検証環境でよく発生する問題。 | 詳細について外部の検証ツールもしくはアドレスバーで正当性を確認することができます。もしくは、詳細設定>スコープ>クロール制限の「無効なSSL証明書を無視する」をチェックしてください。 |
|
すべてのURLまたはほとんどのURLがステータスコード403を返している(ページタイトルの例:Attention Required! | Cloudflare) | 本物になりすました偽のクローラーをブロックするサイトのセキュリティ機能によるもの | ページの処理に失敗した場合、詳細設定でユーザーエージェントをGooglebotからDeepCrawlに変更することで解決できます。 |