AI駆動の検索エンジン「Perplexity」がrobots.txtを無視して情報を収集しているのではないかという指摘が6月に報道されていた。現在の状況はどうなのか、実際にPerplexityで検証した。 robots.txtとは robots.txtは、ウェブサイト管理者がサーチエンジンのクローラーやボット(ウェブページを自動的に巡回して情報を収集するプログラム)に対して、サイトのどの部分にアクセスしてよいかを指示するテキストファイルだ。通常、ウェブサイトのルートディレクトリに置かれ、「https://www.example.com/robots.txt」のようなURLでアクセスできる。 このファイルの主な目的は、サイトの特定部分をクロールから除外したり、サーバーの負荷を軽減したり、プライバシーや機密情報を保護したりすることだ。 ただし、robots.txtは「紳士協定」的な性質を持つ。
![AI検索「Perplexity」はクロール禁止のサイトから情報を取っているのか](https://cdn-ak-scissors.b.st-hatena.com/image/square/25e5205e58289610be4096a281e114167a22471b/height=288;version=1;width=512/https%3A%2F%2Fascii.jp%2Fimg%2F2024%2F07%2F09%2F3761769%2Fxl%2F2c6e71f6550cd43b.png%3F20200122)