失敗したクロールへの対応

クロールで検出した問題 考えられる原因 対応方法
許可されていないURLがない、または1つのみ Robots.txtが全てをブロックしている 詳細設定>テスト設定>robotsの上書き からRobotsの上書き機能を使って、robots.txtファイルをカスタマイズすることができます。
200ステータスコードを返すインデックス可能なURLが1つ サイト全体または一部でJavaScriptを使用している
正確なクロール結果を得るには、JavaScriptレンダリングのアドオンを購入して、レンダリングが有効化されたクロールの実行が必要です。
指定したURLパスがプライマリドメインからリンクされていない
詳細設定>スコープ>スタートURL から、指定URLへのリンクを含むページをスタートURLに追加してください。
ログインポータルが存在する場合はサイトのクロールにCookieが必要となる可能性がある。 セッションCookieとプロジェクトへの追加については、カスタマーサポートもしくは、deepcrawl-support@gmotech.jpにお問い合わせください。
ステータスコード401もしくは403のURLが1つ サイトがDeepCrawlをIPでブロックしている

詳細設定>スパイダーの設定>クローラーIP設定 でデフォルトIP(52.5.118.182) が選択されていることを確認した後、サイト管理者にホワイトリストにそのIPを登録するよう依頼してください。

3xxのステータスコードを返すURLが1つ プライマリドメインがクロール範囲外のURLへリダイレクトしている プロジェクト詳細設定で[HTTP / HTTPSを両方クロール]、[すべてのサブドメインをクロール]を選択するか、特定のセカンダリドメインを追加して、リダイレクト先のURLがクロール対象であることを確認してください。そのリダイレクト先のURLをスタートURLとして追加する方法でもこれは解決できます。
curl_GotNothingでクロールされた、もしくはリンクや指標が全く無いURLが1つ 本物になりすました偽のクローラをブロックするサイトのセキュリティ機能によるもの ページの処理に失敗した場合、詳細設定でユーザーエージェントをGooglebotからDeepCrawlに変更することで解決できます。

error_Curl_Err_SSLCertificateErrorや類似した失敗理由のURLが1つ

このサイトへのSSL認証が無効。検証環境でよく発生する問題。

詳細について外部の検証ツールもしくはアドレスバーで正当性を確認することができます。もしくは、詳細設定>スコープ>クロール制限の「無効なSSL証明書を無視する」をチェックしてください。


すべてのURLまたはほとんどのURLがステータスコード403を返している(ページタイトルの例:Attention Required! | Cloudflare) 本物になりすました偽のクローラーをブロックするサイトのセキュリティ機能によるもの ページの処理に失敗した場合、詳細設定でユーザーエージェントをGooglebotからDeepCrawlに変更することで解決できます。

問題が解決しませんか? お問い合わせ お問い合わせ