特定のページに限定したクロールを行う

サイト全体のクロールを行う代わりに、特定のセクションのみを確認もしくは分析を行うことができます。これは、サイトに新しいチャネルが追加された後に、スクリプトベースのURLとサブドメインをフィルタリングしたり、URLクレジットがサイトの特定のセクションで使われていることを確認する場合に便利です。また、グローバルサイトにおいて特定の国のみを分析したい場合も便利です。クロールの詳細設定で包含ルールと除外ルールを組み合わせて使うことで、クロールを任意のページセットに限定することができます。

指定URL(ポジティブ制限)

詳細設定の「指定URL」機能を使用してクロール対象を単体のURLパスのみに制限します。

URLパスを別の行に追加して、指定したURLパスのみクロール対象に含むように制限します。デフォルトでは、正規表現一致構文が使用されますのでご注意ください。スラッシュは使用可能です。

除外URL(ネガティブ制限)

詳細設定の「除外URL」機能を使用して、レポートに含めたくないページやチャネルをクロール対象から除外します。

指定/除外URLフィルターは、ホスト名やプロトコルを含むURL全体に影響を与えます。以下では、例としてHTTPSサイトをクロールさせない方法をご紹介します。

除外URLのルールは、指定URLのルールよりも優先されることにご注意ください。すべての照合ルールでRubyの正規表現を使用しているため、スラッシュは使用いただけます。すべてのURLパスはワイルドカードで自動的に開始および終了するため、追加する必要はありません。

ページのグループ化

「ページのグループ化」でも、URLパターンに基づいた各ページグループに対して、どのくらいの割合のURLをクロールするか制限を設定できます。グループ名、正規表現もしくはディレクトリ、クロールするURLの割合の上限を指定してください。そのグループに合致したURLは全てカウントされます。カウントが上限に達した以降のURLはクロールされませんが、「ページグループ制限付きURL」のレポートに反映されることとなり、クロールされません。

問題が解決しませんか? お問い合わせ お問い合わせ