自分の運営しているウェブページが検索結果に表示されないようにするには?

インターネットの基本的な概念や一般的な認識として、「一度インターネット上に公開した情報は、世界中の誰からでも見られる」ことになっています。
したがって、一般に公開されているウェブページについては、基本的には「閲覧を許可しているウェブページ」と見なし、ページへの「アクセス」や「リンク」を暗黙のうちに許可したことになります。
しかし現実的にはサイト運営者の立場や意思によって、そうではない場合もあります。
自分の運営するウェブページを検索できないようにする方法は、以下のとおりです。

  • 情報に対するセキュリティやプライバシーを強固にする
  • 具体的には、特定のサイト(ページ)にアクセスするために「ID」と「パスワード」による認証を求める方法です。
    この場合、ロボットは該当サイトのIDとパスワードを持たないため、アクセスができなくなります。
    この方法は、ロボットのアクセスを直接排除する最も強力な手法になりますが、サイトを利用するユーザも当然、IDとパスワードによる認証が必要になるため、手間になります。
    まれに、「IDとパスワードで保護されたウェブページが情報収集されている」とのお問い合わせがありますが、公開されているほかのページから保護されているページにリンクが設定されているか、セキュリティレベルが低いページが存在しない限り、ロボットはパスワードなどで技術に保護されているウェブページにはアクセスできません。
    したがってこのような場合には、保護されているウェブページへのリンクを公開ページから許しているか、またはセキュリティ設定が一部誤っている可能性があります。

  • 「robots.txt」ファイルを設置してロボットのアクセスを拒否する
  • 「robots.txt」というファイルにロボットのアクセスに関するルールを定義して、ロボットの動作をコントロールする方法です。
    これは「国際標準規格」として標準化されており、ロボットの動作に関するルールをフォーマットに従って定義した「robots.txt」ファイルをウェブサイトの最上位(サーバのルートディレクトリ)に設置することにより機能します。
    「robots.txt」をサブディレクトリに設置した場合には、まったく機能しません。
    たとえば、「www.yourhost/~mypage」の下位ディレクトリに「robots.txt」があってもまったく効果がありません。
    ロボットは、ルートディレクトリに存在する「robots.txt」のみを参照しています。
    また、「robot.txt」のように、「s」の1文字が抜けている場合や、ファイル名に「大文字」「小文字」が混在している場合にも効果がなくなってしまいます。
    「robots.txt」を利用するためには、「国際標準規格」に従ったフォーマットを熟知する必要があります。
    ロボットのアクセスをどこまで許可するかによって、「robots.txt」に定義する内容は異なります。

    1. すべてのロボットのアクセスを制限したい場合
    2. User-agent: *
      Disallow: /

    3. すべてのロボットのアクセスを許可したい場合
    4. この場合、「robots.txt」を設置していない状態と同様になります。
      User-agent: *
      Disallow:
      または、
      User-agent: *
      Allow: /

    5. すべてのロボットに対して、一部のディレクトリへのアクセスを制限したい場合
    6. User-agent: *
      Disallow: /my_photo/
      Disallow: /my_diary/
      この場合、ロボットは「my_photo」「my_diary」というディレクトリ以下にあるウェブページにアクセスできません。

    7. すべてのロボットに対して、一部のディレクトリへのアクセスを許可したい場合
    8. User-agent: *
      Disallow: /
      Allow : /informaton/
      この場合、ロボットは「information」というディレクトリ以下にあるウェブページにのみアクセスできます。

    9. 特定のロボットのアクセスを制限したい場合
    10. User-agent: EvilRobot
      Disallow: /
      この場合、「EvilRobot」という名前のロボットのみアクセスできません。

    11. 特定のロボットのアクセスを許可したい場合
    12. User-agent: GoodRobot
      Disallow:
      User-agent: *
      Disallow: /
      この場合、「GoodRobot」という名前のロボットのみアクセスできます。

    サーバのルートディレクトリへのアクセス権限が無く、「robots.txt」の設置が難しい場合には代替方法として、各ウェブページのHTMLの〜のタグの間にというタグを追加する方法もあります。
    この場合、ロボットは上記のタグが明記されているウェブページにアクセスはできますが、情報は収集しません。
    この方法は、情報の収集を制限したいひとつひとつのウェブページすべてに明記する必要があるため、面倒ではありますが、ページごとに細かく設定できます。
    このほか、ロボットのアクセス制限に関する具体的なフォーマットについては、「http://www.robotstxt.org」をご覧ください。

  • インターネット上からページを削除する
  • 弊社検索はGoogle検索を使用した検索となりますので、 Google社にお問い合わせいただきますよう、お願いいたします。

    お問い合わせはこちら