Wikipedia:検索エンジンによる調査
この文書は手引き書です。ウィキペディア日本語版での活動の参考にされていますが、方針やガイドラインではありません。 |
この文書の要旨:
|
注‥これは英語版の手引き﹁en:Wikipedia:Search engine test﹂の仮訳です。日本語版で運用されているものではありません。また、この日本語訳が正しいかどうか十分な検証はまだなされていません。
検索エンジンによって、ユーザーはインターネットのウェブページを検索することができますが、また同様にある文字表現がいつどのように使われているか確かめることもでき、記事などさまざまな事柄について信頼できる情報源を見つけ出したり、特筆性を確立させたり、検証を行ったり、記事名について話し合ったりするのに役立ちます。
このページでは、検索ツールについて、最大活用する方法、有用な検索ツール、活用例およびチュートリアル、避けるべき落とし穴、一般的な偏見と限界についてそれぞれ解説します。
一般的な検索エンジンには、Google (リンク) (newsgroups、 scholar、ニュース、ブックなども含む)、アレクサ・インターネット(リンク)、インターネットアーカイブ(The Wayback Machine, リンク)、Yahoo!(リンク)などがあります。
このページでは例としてGoogleを挙げていますが、同様の方針は他のほとんどの検索エンジンに対して適用できます。
検索エンジンによる調査[編集]
検索エンジンによる調査の使い方[編集]
検索エンジンを使用した確認は、以下のような疑問解決のためのものです。
(一)通俗性 - 対象が、どれだけの人々に流行しているか(していないか)を調べます。
(二)用法 - 対象となる用語が、通常どこでどのように誰が用いるものか調べます。
(三)真偽 - 対象が本当のことかデマ(もしくは誤報・百科辞典的ではない記述)か調べます。
(四)特筆性 - 対象が独立した情報源によって発表されているか、もしくは内輪だけの情報かを調べます。
(五)信頼できる情報源 - 対象の情報源(ウェブサイト)があるか、あるとすれば何かを調べます。
(六)追加情報 - 記事に用いることができる、特筆性のある事実や出典を発掘します。
(七)用語 - 別名や用語法など、対象の名前を調べます。
(八)著作権状態の確認 - 文章がウェブページからの直接的もしくはほとんど直接的なコピーかどうかを調べます。著作権保有者やライセンスの状態を調べることもあります。
検索エンジンによる調査はきわめて有用なこともあれば、誤解や役に立たない結果を生み出してしまうこともあります。これはどういった対象に、どのくらい注意深く用いたかに依存します。大抵の場合、検索エンジンによる調査は最初に用いられるヒューリスティクスあるいは経験則となります。
一般的な検索エンジン[編集]
Type Examples 一般のサーチエンジン Google検索、Yahoo! JAPAN, Bing, etc ウェブサイトの通俗性の指標 アレクサ・インターネット、en:Hitwise 一般情報 All About プロフェッショナルによる研究の指標 MEDLINE (医学)、科学、法律、Google Scholar ニュースとメディア Google News アーカイブ検索 ウェブページの過去のアーカイブ インターネットアーカイブ、en:Web cache (ウェブページのさまざまな時点での様子や内容、削除されたかどうか) 書籍・過去の記述 プロジェクト・グーテンベルク、Google ブック検索, Amazon.com 大学などの高等教育機関 4icu.org (大学ウェブサイト検索エンジン)
Googleグループ(usenet)などの情報源は日付管理されており、20年以上にわたってアーカイブされているため、歴史的記録として有用です。
検索エンジンにできること、できないこと[編集]
検索エンジンは、他人がインターネット上に掲載したウェブページや文章を、本の裏表紙にある目次のように一覧表示することができます。 検索エンジンにできること ●上記の目的を助ける情報を提供したり、上記の目的を助けるページへ誘導してくれます。 ●情報源によりますが、﹁誰々の報告によれば何々﹂の部分の確認ができます(中立的な引用のために有用です)。 ●引用元となった情報源の完全版を見られることもしばしばあります。 ●ある表現がどのくらい通俗的に使用されているか、大まかに確かめることができます。 ●特定のウェブサイトを対象としたり、検索語を変えたり組み合わせたり(検索結果を混乱させる語を除外したり)といった、さらに詳しい検索も可能です。 検索エンジンにできないこと ●検索結果が信頼できる、もしくは﹁事実﹂であることを保証できません(検索エンジンは、その真偽にかかわらず、任意でインターネット上に掲載されたあらゆる文章を集成しています) ●対象について多くが述べられている﹁理由﹂を確認することはできません。インターネットマーケティングや、インターネット上の流行、スパム、宣伝ではなく、その重要性によって多くが述べられているかどうかの保証はできません。 ●意図していた利用法に沿った結果が返ってくることを保証できません(例‥ある特定の個人であるジョン・スミスを検索語として検索した場合、検索者が意図していない同姓同名の他人や、﹁ジョン﹂と﹁スミス﹂が別々に登場する多くのページが検索結果に選ばれることがあります。また、﹁ジョン・M・スミス﹂や﹁ジョン・マイケル・スミス﹂名義でまとめられた有用な出典がすべて除外されてしまうこともあります)。 ●検索語選択の段階で、言及すべき必須項目の見落としがないことを保証できません。 ●対象についての記述が少ないからといって、対象が重要ではないとは保証できません。 ●検索結果が転載・抜粋・引用・誤引用・著作権侵害にあたらない﹁オリジナル﹂の記述であるかは保証できません。 通常、検索エンジンがしないこと ●急速に進行中の事象について、雑誌や書籍並みの詳しい調査は行いません。 ●中立性を保ちません。 検索エンジンによる調査によって、検索結果の解釈や、検索結果が実際は何を示しているかを判断する作業を避けることはできません。結果の一覧表示だけでは、通常は何の証明にもなりません。検索エンジンによる調査と、ウィキペディアの方針[編集]
検証可能性[編集]
検索エンジンによる調査結果は、架空のものであったり、偏見があったり、うわさ話であったりすることがあります。情報に頼る前に、それが信頼できる情報源からくるものか考慮することが重要です。信頼できない情報源は、記述について読者がどれだけ信頼を置くことができるかについて、情報に基づく中立的な理解を得るためには、役に立たなかったり、基礎や状態の明確化が必要になる場合があります。
中立性[編集]
Googleその他の検索エンジンは、中立性を目標としていませんが、Wikipediaはこれを目標にしています。Google自身が生成する一覧ページやメディアページには、中立性の方針はありません。ウィキペディアは必須項目として中立性の方針をとっており、これはすべての記事および記事に関係する編集活動に適用されます。 よって、Googleは中立的なタイトルの情報源とはならず、通俗性のあるタイトルの情報源にとどまります。他がどうあろうと、Wikipediaにおいては中立性は必須項目であり、対象の名前を決定する際にも同様です。中立性は、通俗性に優先します。特筆性[編集]
検索結果のヒット数をそのまま用いるのは、重要性の評価方法としてはきわめて粗雑です。理由は以下で述べますが、重要ではないけれど多くのヒット数をもつ項目もあれば、特筆性があるのにほとんどあるいは全くヒットしない項目もあります。 ヒット数の種類、検索の目的、検索の方法、検索結果にどのような解釈をすべきかといったさらに進んだ議論がなければ、ヒット数単独では、特筆性に関する何かをまれに証明することがあるにすぎません。一方、ヒット数の﹁種類﹂を調べることによって特筆性に関する有用な情報が得られることはしばしばあります。 さらに、検索エンジンは曖昧さの回避を行わず、また部分的な検索にマッチすることが多くあります。岩窟の聖母(Madonna of the Rocks)は百科辞典的で特筆性のある題材ですが、ポップカルチャーの象徴ではありません。しかし歌手のマドンナ(Madonna)など、岩窟の聖母に関係しないMadonnaへの言及も部分的な検索にマッチしますので、GoogleやYahoo検索のヒット数を、岩窟の聖母と同様に特筆性のあるルネサンス絵画と比較するのは不適切です。検索エンジンの使用[編集]
検索エンジンの表現(例とチュートリアル)
- この節ではGoogleのweb検索における検索表現について記述しています。Googleの他の検索サービスや、他の検索エンジンの多くに同様の方法が使えますが、検索エンジンの機能や操作はそれぞれ異なることも多いので、より詳しい情報は検索エンジンのヘルプをご覧ください。
Googleなどの検索エンジンは、簡単な検索と高度な検索の、両方の検索機能を備えています。高度な検索を使えば、高度なオプションを入力しやすくなり、調べものの助けになる可能性があります。以下の折りたたみセクションには、Wikipediaに関して検索エンジンを使う際の、基本的な例とヘルプがあります。
医学論文アーカイブなど、特殊な検索方法を備えている専門的な検索エンジンについては、ここでは触れていません。
基本的な検索 | |||||||
---|---|---|---|---|---|---|---|
ほとんどの検索サービスでは、単語('acid')による検索、語句('war on terrorism')による検索、これらの組み合わせによる検索('war on terror' OR 'war on terrorism' 、John AND Smith)、他にも特定の語を除外する(Bush NOT George)検索が可能です。二重引用符(")によって語句を表したり、「(」と「)」の丸括弧によって語句をグループ化したりできます。表現は通常大文字小文字を区別しません。よって、以下の検索語はすべて、Googleにおいて正当な検索語となります。
|
「NOT」の使い方 | ||||||
---|---|---|---|---|---|---|
「NOT」 (Googleでは「-」(半角ハイフン)でも代用できます)は、この語を含むページを除外するという意味になります。検索語とは実際の関係ない語句のために、ページが除外される危険性があります。「NOT」はGoogleでは「加えて、……を除外する」という意味になるとは限らないのです。「NOT」を最もうまく活用できるのは以下のような状況です。
|
高度な検索と著作権状態の確認 | ||||
---|---|---|---|---|
Googleでは、単語・語句・OR・NOT・丸括弧のいかなる組み合わせも可能です。これはきわめて詳細な検索にも使えます。
|
うろ覚えの情報や馴染みのない用語を探す | ||||||||
---|---|---|---|---|---|---|---|---|
|
ニュース・ニュースグループなどの情報源 |
---|
en:Template:Expand section
|
特殊なオプション(Wikipedia自身を含める・除外する、など) | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Googleは、特定のウェブサイト対象として検索する・しないを選んだり、そのウェブサイト内を検索したりできます。このオプションは、あらゆる検索語の後に追加することができ、検索もとの場所を指定することができます。
上記のようなやり方・検索語を使って特殊な検索ができますが、特殊なアーカイブ内を確認したり、独特のオプションを試用したりすることもあります。
|
Wikipediaでの具体的な検索エンジン使用法[編集]
●Google グループなどのタイムスタンプのあるメディアは、検索語が言及され始めたタイミングや文脈を調べるのに使うことができます。 ●Google ニュースは、対象がニュースとしての価値があるかを調べる役に立ちます。Google ニュースは、自己宣伝による情報の操作の影響をあまり受けませんが、広告収入集めや、特定の議論を煽るなどの目的で作られた疑似ニュースサイトの出現により、一般大衆の興味という点では、この調査の信頼性は他と比較してあまり高くありません。Googleニュースが集成する﹁ニュース﹂情報源の多くは、特定の価値観を反映しています。ニュースアーカイブは数年前までさかのぼることができますが、特定の期間を過ぎると有料となることがあります。ニュース検索結果の結果には、中立的で独立した情報源とはいえないプレスリリースが含まれることがよくあります。 ●Google ブック検索は、全体的に見て、Webよりも旧来の百科事典に沿った情報収集を行う傾向があります。システム上の偏りがあったとしても、Google ウェブ検索とは異なったものです。そのままの語句がGoogle ブック検索に複数ヒットした場合、語句や概念の使用実績についての説得力のある証拠となるでしょう。Google ブック検索は、人・出来事・概念に関する、紙媒体で出版された証言を拾うことができます。また情報源が挙げられていない﹁常識的﹂な事実を、出版された情報源を持つ事実と入れ替えるのにも使えます。 ●一般大衆によって通俗的に言及されているため特筆性があるとされている事柄に関しては、検索エンジンによってその通俗性や言及の種類を確認することができます。特筆性があるとされる事柄に対し、インターネット上で数百件の言及しかなければ、その事柄にはあまり特筆性がないと考えられます。本当に有名なインターネット上の流行ならば、数百万や数千万の言及がある[1]こともあり得るのですから。しかし、特筆性のある対象であっても言及がきわめて少ないこともあります。例えば、考古学上の事柄には、それに関する言及が数十件程度しか期待できないものもありますし、インターネット上にまったく反映されないと思われる事柄もあります。 ●事実だとされている話題も、信頼できる対象と無関係な情報源から言及されているかどうか調査することができます。デマなどの判別に有効です。 ●上記のように、ウェブサイトからの著作権侵害を発見できることもよくあります。 ●別の表記や用法についても、ヒット数のチェックにかけることができます(例‥同じくらいの中立性・妥当性をもつ二つの表記のうち、どちらが一般的かの議論に使用) ●Google グループ (USENET ニュースグループ)は、ウェブサイトからの様々なサンプルをとっており、その大部分は、さまざまな話題について英語でかわされた話題から成っています。情報源は様々なので、ヒット数を比較することはできませんが、グループ検索は議論の的になっている可能性がある事柄や、宣伝によりその存在感が意図的に誇張されている可能性のある事柄を調べるのに役立ちます。例えばある語句がWeb検索で10万件ヒットし、グループでは10件しかヒットしなかった場合、宣伝効果が疑われます。特殊な検索エンジン[編集]
Google Scholar は、(1)論文指向で、(2)(ほぼ)全ての主立った意見がインターネット上に揃っている分野に関して有効です。計算機科学者による論文のほとんどはインターネット上に掲載されますが、技術的に今日性の低い分野になるほど、Google Scholarにおける掲載の信頼性は少なくなります。﹁サイエンス﹂誌でさえ、オンラインの論文は1996年までです。よって、Google Scholarが特筆性の欠如の証明に使われることはほとんどありません。 現在PubMedの一部となったMEDLINEは、様々な分野をカバーする独自の検索エンジンです。MEDLINEのサービス開始は1964年ですが、さらに古い論文をも集成しています。よって、オンラインで掲載されていない古い論文、特に医学・生物学論文については、PubMedの"associated articles"(関連する記事) をGoogle Scholarの代理で使うことができます。例‥﹁Stroke﹂誌は1970年代までの論文をオンラインで掲載しています。1978年のこの論文に関し、Google Scholarはこれを引用している記事を[100件リストアップしています。一方PubMedは関連する記事を89件リストアップしています。 Library of Congress、 アメリカ議会図書館、 Indiana Supreme Court インディアナ州最高裁判所、 FindLaw (アメリカ)、 ケント大学法律ライブラリ・資料集 (UK)(イギリス)など数多くのオンラインの法律ライブラリが、さまざまな国に存在します。結果の解釈[編集]
概説[編集]
ヒット数そのものを特筆性の証明として用いるべきではありません。検索結果として何が見つかったか(書籍・ニュース記事・学術論文・ウェブページ)や、特筆性あるいは特筆性の無さについて、それらの検索結果が実際に触れているかどうかに着目すべきです。ヒット数は、以前から特筆性を測るにはきわめて誤りが多い手段であったし、これからもそうだと考えられます。ヒット数を決定的・最終的な判定方法と考えるべきではありません。
検索結果の解釈にあたっては、他にも以下のようなことを考慮しましょう。
●記事の範囲: 必要とされているのはより範囲を絞った言及ではないか考えましょう。検索結果のページが中立的な観点に基づいているかの判断を試みてください。
●記事の主題: もしも記事の主題が歴史上の人物であった場合、信頼できる情報源からの言及が数件あれば特筆性の判定には十分であるといえるかもしれません。しかしインターネット上の新語やポップ・ミュージックのたぐいであれば、700件以上言及があってもウィキペディアの目的にかなう特筆性を証明するだけの﹁存在感﹂があるとはみなされない可能性があります。