Web集客等のマーケティング・コンサルティング-マーケティングツール開発
合同会社緑商
TEL: 087-816-7317
9:00~16:00(月〜金)

WEBクローラー・スクレイピングの合法性

WEBクローラー・スクレイピングは合法か?

WEBクローラーを使って、クローリング、スクレイピングすることに合法性はあるのでしょうか?

結論から言えば対象サイトの規約に従えば基本合法ということになります。要は対象サイトの規約次第ということです。現在普通にクローリングして問題になるようなサイトは少数ですが、アマゾンのように禁止のところも出てきています。

以下で細かく見ていきます。

クローリングとスクレイピング の違い

クローリングとスクレイピングの違いについておさらいしますと
クローリングは複数のurlのリストからWEBページをたどっていく行為をいいます。
スクレイピングは、表示されたページから、必要な情報を抜き出す行為です。

ここではクローリングしながら、スクレイピングをするツールのことをクローラーと呼んでいます。 (各社様々な呼び方があります。)

スクレイピングは表示したものをコピーしているだけ

クローリングは、WEBページを巡回する機能です。
それでは スクレイピング は具体的に何をしているのでしょうか?

スクレイピングは何か特殊なことをしているわけではありません。


WEBブラウザでURLを入力すると、ページの内容が返ってきます。
ページの内容が返ってきた段階で、対象の情報はすでにコンピュータに入ってきています。
スクレイピング行為では、そのページ全体の内容から、必要な部分だけを切り取って、コピペしているだけです。
そしてコピペしたものを、データベースに保存しているだけです。


したがって要はやっているのは、コピペそのものです。
切り取り・コピペを、高速、大量に、機械でやっています。

WEBを巡回しコピペをしているだけ


クローラーは、WEBを巡回(クロール)しながら、スクレイピング(抽出して保存)しているだけです。

クローリング・スクレイピングの肝要「robots.txt」

WEBサイト側がクローリング・スクレイピングに関しての規約を記述できる場所があります。
robots.txt というファイルです。
通常、ドメインのトップに置かれています。
このrobots.txt に、
どのようなクローラーなら受け付けるか。
頻度はどうしたらよいか。
クロールの禁止、許可ページの情報。
サイトマップ
などが書かれています。
このrobots.txt は、クローラーを制御するメタタグで書かれています。
半分、機械相手のようなものです。

このrobots.txt も重要ですが、ほかに、文章で書かれた利用規約などもよく読んでおく必要があります。

クローラーで起こる問題

相手サイトに負荷がかかる

クローラーで問題があるとしたら、機械でサイトを巡回していくため、それにより、相手サイトに負荷がかかることです。

そのため、クローリングでは「1秒以上は間隔をあけるようにする。」といったマナーが存在するようです。
規約などに間隔が書かれている場合があります。
場合によっては5秒以上開けることも考えられます。

2次利用は問題

もう一つの大きな問題は収集したしたデータの著作権です。

収集したデータを自社内だけで利用する場合は問題ありません。

コンテンツなどに2次利用する場合は注意が必要です。

この辺りは「ダウンロード違法化」の法整備などとも絡んで重要です。
慎重に対処する必要があります。

機械で巡回することの合法性

まとめますと、機械で巡回することの合法性は

WEBサイトの規約次第

規約を守ってクローリング・スクレイピングする

ということが重要です。

最後に

クローリング・スクレイピングは、ただデータの塊を取ってくるだけ。

「ただのデータの塊」を「分析」して、「意味のある傾向を知る」必要があります。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です