インターネットでできること(1) ~ 検索エンジンの仕組みと使い方 ~
インターネットでウェブサイトを閲覧するためには、基本的に前項までに学習した「ブラウザ」というソフトが必ず必要です。
そして、インターネットでウェブページを閲覧するためには、もうひとつ必ずといっていいほど利用しなければならないものがあります。言い換えると、WWW上の膨大なウェブサイトの山の中から「目的のサイトを探す」という作業が必ず必要になってきます。
もうご存知のとおり、それが「検索サイト」と呼ばれるウェブサイトになります。
検索サイトは、世界中の膨大なウェブページの情報を蓄積していて、我々ユーザーは、その情報のなかから検索して目的のページを教えてもらっています。
情報の検索は、たいていユーザーが「キーワード」をテキストボックスに打ち込んで検索します。このため、こういった検索スタイルは、
検索エンジン
と呼ばれ、検索エンジンを備えたサイト自体をそう呼んでいましたが、現在では検索窓のみではなく、さまざまなサービスや機能が追加されていって、日々何千万人規模のアクセスがある、とてつもないサイトに成長した検索エンジンもあります。
そして現在では、検索エンジンがWWWの「入口」となるという意味で、
ポータルサイト
と呼ばれています。主なポータルサイトには、「Yahoo!JAPAN」「Google」「goo」「Infoseek」「MSN」などがあります。
しかし、ポータルサイトとなっても、そのサービスの中心はやはり「検索エンジン」です。検索エンジンの機能の優劣というのは、インターネットの世界では大変重要視されています。世界一の検索エンジンをもっているサイト(会社)が、インターネットの覇者といっても過言ではないくらいです。
では、まず検索エンジンの仕組みを簡単に知っておきましょう。
検索エンジンの仕組みを一言でいうと、世界中のウェブページの情報を集めて整理した膨大なデータベースから、ユーザーの検索結果を返すというものです。
つまり、ユーザーが検索ボックスにキーワードを入力して検索ボタンを押したとき、インターネット上を駆け巡ってページを探しているわけではありません。インターネット上の膨大なページの情報を集めて整理したデータベースを検索しているのです。
図書館で本を探すことを想像してください。やみくもに本棚を探しに行かないはずです。必ず、どの棚にはどんな本があるという「索引」が存在し、索引から本を探します。この索引こそが、検索エンジンのデータベースなのです。
検索エンジンは当初、「ディレクトリ型」と「ロボット型」という2系統に分かれていました。簡単にいうと、ディレクトリ型は人の手でページをチェックして整理するシステム、ロボット型はプログラムが自動的にページの情報をあつめて整理するシステムになります。
ディレクトリ型は、人の目で精査してきっちりディレクトリ(カテゴリ)分類して整理するので、探しやすくページの信頼性が高いという特徴がありますが、人の目で膨大なページを網羅するのは限界があるという欠点があります。
このため現在では、完全なディレクトリ型の検索エンジンはほとんどないと思います。Yahoo!JAPANがディレクトリ型の代表格でしたが、現在はロボット型を主体としたディレクトリ型の併用になっています。
ロボット型は、収集プログラムがインターネット上を常に回っているので、膨大なページにも対応できること、新しく作成されたページでも素早く見つけて検索結果に反映させることができるといった特徴がありますが、ディレクトリ型に比べてページの信頼性が低いという欠点があります。
このページの信頼性というのはとても重要で、この信頼性こそが現在の検索エンジンの性能の優劣を決めます。信頼性というのは、
検索エンジンによって返された検索結果が、有意義なページなのかどうか
ということです。つまり、ユーザー側の立場に立つと、結果として表示されるページが役に立たないページだったら意味がないということです。
したがって、検索結果として上位表示されるページは信頼性の高い情報を提供するページでなければならず、その精度が検索エンジンの性能として評価されるというわけです。
インターネット上には、きっちりと作り込まれた有意義なページばかりあるわけではありません。不正確な情報や古い情報、法に触れる恐れがある情報などもあります。そういったページを検索結果で返しているようでは、その検索エンジンをだれも利用しなくなります。
こういった信頼性の低下がロボット型の大きな欠点です。このため、ロボット型の検索エンジンでは、検索結果として表示するサイトの順位決定に独自の基準を設けて、信頼性の高いサイトを表示させるようにしています。この基準のことを、
アルゴリズム
といいます。基準といっても、プログラムが行う自動判定です。複雑な方程式のようなものだと考えればよいでしょう。ただし、アルゴリズムは検索エンジンのキモであり、その方程式の詳細はなかなか知ることができません。
このような、検索エンジンの検索結果で上位表示をめざすことを「SEO(Search Engine Optimization)」といいます。たとえば、通信販売を行う企業のサイトでは「通販」というキーワード検索で、上位表示させるようなサイトを作ることです。(上位にページが表示されると売り上げが伸びる)
SEOは、アルゴリズムを予測してサイトを作成していきます。これ以上の説明は割愛しますが、有名なアルゴリズムは「被リンク数」つまり、どれだけリンクされているページなのかを重要視し、その数が多いほど上位に表示するといったアルゴリズムがあります。
過去にSEO業者が裏で暗躍し、意味のないサイトが検索結果で軒並み上位表示された過去があることから、現在のアルゴリズムは複雑を極めているようです。
そして現在では、Googleのアルゴリズムが最も優れているとされています。意外と知られていませんが、Yahoo!JAPANの検索エンジンはGoogleの検索エンジンを使っています。(平成25年現在、Googleの国内シェアは9割以上となるようです)
ブラウザを使う(1) で解説した「RageRank」もGoogle独自のアルゴリズムでランク付けされています。
さて、では検索エンジンの仕組みが理解できたところで、実際に使ってみましょう。Yahoo!JAPANのページを開いてください。
下図は、Yahoo!JAPANの検索ボックスになりますが、ここに検索したい「キーワード」を入力して検索します。
検索の操作方法はもう説明不要と思いますが、いくつものキーワードを組み合わせて検索する場合の仕組みを理解しておきましょう。
たとえば、「東京オリンピックが決定した瞬間」の映像を見たい場合、「オリンピック」「決定」「瞬間」といったキーワードをいれて検索します。具体的には、下図のようにキーワードの間にスペースをいれて検索します。
この場合、検索エンジンは「オリンピック」「決定」「瞬間」の三つのキーワードを「すべて含む」ページを検索します。これは、キーワードの数に関係なく、すべての語を含むページを検索するわけです。これを、
AND(アンド)検索
といいます。たいていの検索エンジンでは「スペース」でキーワードを区切って検索すると、自動的に「AND検索」で検索されます。
AND検索の検索結果は、下図のとおり、オリンピックが東京に決定した瞬間のニュースや映像のページが上位表示されています。
このように、検索エンジンはAND検索が基本となっていますが、じつはAND検索以外の検索にも対応しています。先ほどの「オリンピック」「決定」「瞬間」のキーワードをもう一度つかって実験してみましょう。
AND検索は、専門的にいうと「A」かつ「B」と表現され「AもBも両方」という意味になりますが、「A」または「B」つまり「AかBかどちらか」という意味の検索も可能です。つまり、両方ではなくどちらか一方の語を含んでいるページを検索します。これを、
OR(オア)検索
といいます。OR検索をするには、下図のように検索ボックスに「OR」を記述します。「オリンピック OR 決定 OR 瞬間」と記述して検索します。
すると、検索結果は下図のように「オリンピック」のみを含むページが上位表示され、AND検索とは異なっています。
このOR検索は、あまり用途はないかもしれませんが、たとえば探しているページが見つからない場合など、いろいろなキーワードでひっかけたい場合等に有効な検索です。
また、「あるキーワードを含まない」検索というのも可能です。
これは、いろいろな検索をしていると大手の企業のページが上位に表示されて、オフィシャルページが下位に埋もれてしまっているというケースがまれにあります。そんなときに、その企業のページを除いて検索することができます。
たとえば「伊勢神宮周辺の食事どころ」を探すとしましょう。「伊勢神宮」と「食事」というキーワードで検索すると、「食べログ」や「ぐるなび」といった大手のグルメサイトのページが上位表示され、「伊勢市観光協会」のオフィシャルページが埋もれてしまいます。
こういった場合に、「食べログ」や「ぐるなび」のページを除いて検索することができます。このような検索方法を、
NOT(ノット)検索
といいます。NOT検索をするには、下図のように検索ボックスに「-(半角のマイナス記号)」を記述します。「伊勢神宮 食事 -食べログ -ぐるなび」と記述して検索します。
すると、検索結果は下図のように、「食べログ」と「ぐるなび」は含まれない検索結果が表示され、「伊勢市観光協会」のオフィシャルページは上位表示されました。
これら「AND」「OR」「NOT」が、検索の基本的な考え方になります。こうした方法を知っておくと、思わぬところで役立つことがあるものです。
ただし、検索方法はこれだけではありません。検索エンジンにはまだまだいろいろな検索方法や面白い機能があります。すべてとはいきませんが、それらを列挙してみましょう。
サイト内検索「site:」
これは、インターネット全体ではなく、あるサイト内だけを検索する方法です。
たとえば、このサイト「基礎からわかる!パソコン入門・再入門」を検索してみましょう。検索ボックスに「site:」と入力し、次に検索したいサイトのアドレスを記述します。アドレスは「http://」の部分は不要です。ドメイン部分だけでかまいませんので、「site:yamanjo.net」と記述します。
これで、そのアドレスのサイト内だけを検索せよという命令文になります。アドレスの後にスペースをいれて、検索したいキーワード(ここでは「ドメイン」にします)を入力して検索します。
すると、下図のようにサイト内のみの検索結果が表示されます。
フレーズ検索「""」
これは、ダブルクォーテーションでキーワードを囲んで検索する方法で、フレーズ検索と呼ばれます。フレーズ検索は、通常のキーワードによる検索というより、フレーズの名のとおり短い「文」による検索だと考えた方がよいかもしれません。
ダブルクォーテーションで囲んだ部分は「その部分に完全一致する記述」を検索せよという命令文になります。
たとえば、「ジョンHワトソン」というキーワードで検索するとしましょう。ワトソンは、かの有名なシャーロック・ホームズの相棒ですが、和訳では「ワトソン」と「ワトスン」の両方が使われています。
通常のAND検索を行うと、下図のように「ワトスン」のページが表示されます。
これにダブルクォーテーションをつけて「"ジョンHワトソン"」としてフレーズ検索を行うと、下図のように「ワトソン」と一致するページが表示されます。
最上位のWikipediaのページのタイトルは「ワトスン」の表記ですが、ページ内部に「ワトソン」の文字が記述されているので正しい検索結果です。
フレーズ検索は、たとえばパソコン画面に表示されたエラーの内容などを正確に検索したい場合等にも非常に便利な検索方法です。
また、複数の語句を囲んだ場合、そのとおりの順番で記述されているページが検索されるので、ページの絞り込みに便利です。
電卓
検索エンジンは、電卓として使用することもできます。検索ボックスに計算式を記述して検索ボタンを押してみましょう。ここでは、「2333+(250/6)」と記述してみました。
すると下図のように、検索結果の1番上位に「電卓」の図柄とともに計算結果が表示されます。
画像検索
大手のポータルサイトでは、たいてい検索ボックスのまわりに「画像」「動画」「辞書」「地図」といった語句が並んでいます。
これは、検索ボックスにキーワードを打ち込んで、たとえば「画像」をクリックすると、Web全体から「画像」のみを検索してくれるという便利なサービスです。
検索ボックスに「安西先生」と記述して「画像」ボタンをクリックしてみましょう。
すると、下図のように「安西先生」の画像だけが抽出された画像のサムネイルページが結果として表示されます。
画像には著作権等の問題がありますが、この機能を使うと、イラストサイトなどで探さなくても、Web全体から探してきてくれるので大変便利です。
さて、これでひとまず検索エンジンの仕組みと基本的な検索方法については学習できたと思います。インターネットを利用するうえでかならずお世話になるのがポータルサイトです。賢い使い方をマスターして、インターネットの世界をより便利に楽しんでください。
更新履歴
- 2013年9月12日
- ページを公開。
- 2018年1月9日
- ページをSSL化によりHTTPSに対応。
参考文献・ウェブサイト
当ページの作成にあたり、以下の文献およびウェブサイトを参考にさせていただきました。
- 文献
- なし
- ウェブサイト
- なし
- 管理人のつぶやき
- Twitterのフォローお願いします!