クロールソース設定

クロールにデータソースを追加しましょう

クロールを始める前に、クロール設定のステップ２で行う各データソースを追加する意義を理解しておくことをおすすめします。

ウェブクロール：クロール深度の深いページまでリンクに従う形でサイトをクロールします。
ドメインを追加する時にドメインwww有無の設定やhttp/https設定を確認してください。サブドメインについてよく分からない場合、DeepCrawl詳細設定の[ すべてのサブドメインをクロール]を選択すると、サブドメインがリンクされている場合に自動で検出されます。
サイトマップ：一連のサイトマップとサイトマップ上のURLをクロールします。これらのページ上のリンクはクロールの対象外となります。
クロールにXMLサイトマップを追加する方法について、詳細はこちらのページをご覧ください。
アナリティクス：アナリティクスデータをアップロードしてURLをクロールすることにより、サイト上でリンクされていない可能性のあるランディングページを特定します。アナリティクスのデータは様々なレポートに活用されます。
被リンク：クロールに被リンクを追加することで、被リンクのあるURLを検知することができます。被リンクのデータは様々なレポートで利用されています。
DeepCrawlのプラットフォームに追加されたもう一つの機能は、自動的にURLへバックリンクの指標を取り込む Majesticとの連携です。Majesticとの連携は、クロール設定のステップ２で簡単に行うことができ、新しいインデックスから、または過去のインデックスから被リンクのデータの取り込みを行うことができます。

Majesticの被リンク指標をクロールに追加すると、被リンクがあるが孤立しているページ（英文）や、被リンクがあるが壊れている、許可されていない、もしくはリダイレクトされるようになったページなどの問題も発見し、修正することができます。

Googleサーチコンソール：サーチコンソールデータ
サーチコンソールのデータを連携すると、インプレッションのないインデックス可能ページ、インプレッションがあるがインデックスに登録できないページ、トラフィックのある壊れたページなどのインデクサビリティとトラフィックの相互作用を参照したより強力な洞察DeepCrawlのレポートでご利用いただけます。
URLリスト：URLのリストをクロールすることでこれらのページ上のリンクをクロールの対象外とすることができます。
ログファイル：SplunkやLogz.ioなどのログファイル分析ツールにあるログファイルサマリをDeepCrawlにアップロードすることができます。

サイト上のリンクされたURLすべてをクロールすることが理想的ではありますが、大規模なサイトもしくは複雑なサイト構造を持つサイトでは、完全なクロールには膨大な時間がかかってしまう可能性があります。その場合、クロール設定のステップ４の詳細設定で、クロールをサイトの特定の部分に制限するか、特定のURLパターンに限定する必要があります。