深層ウェブ

隠されている宝を浮かび上がらせる

マイケル・K・バーグマン著

本調査報告は,米国ミシガン大学の「The Journal of Electronic Publishing」(http://www.press.umich.edu/jep/07-01/bergman.html)にも掲載されている.

この翻訳は,調査報告書「The Deep Web: Surfacing Hidden Value」を,著者であるマイケル・K・バーグマン氏の許諾の下に翻訳工房M&Oが翻訳したものです.原文には一部編集ミスと思われる個所がありますが,印を付け訳者の一存で変更してあります.また,目次と表の体裁も和文表記の通例に合わせて改めました.こうした点を含め,訳文のミスは挙げて訳者の責に帰せられるべきものです.訳文に関するご意見は当工房にお寄せください

◆注記:ご覧の画面は,古いブラウザー用の表示です◆


目次

  1. はじめに
  2. 深層ウェブ
  3. 表層ウェブの基本特性
  4. 調査方法
  5. 調査結果と考察
  6. 残された問題
  7. 結論
  8. 本調査報告書で利用したリンク先

はじめに

 今日のインターネットでの検索は,大洋の表層を網で引いているようなものである.すなわち,網には多くの魚がかかるだろうが,深海にはさらに多くの価値ある魚が満ち溢れている.つまりは,そうした獲物を取り損なっているのである.その原因は極めて単純である.ウェブ上に蓄積されている情報のほとんどは,ウェブページを動的に生成するタイプのサイトの奥深くにあり,通常の検索エンジンでは捕捉できないからである.

 従来型検索エンジンは,表層ウェブページを探査して目録化する.ページが捕捉されるためには,ページが静的であり,他のページからリンクされていなければならない.従って,従来型検索エンジンは,深層ウェブにあるコンテンツを「見る」,つまり探知することができない.深層ウェブのページは利用者の検索によって動的に作成されるため,その瞬間まで存在しないからである.従来型検索エンジンは,表層の下にある情報源を捕捉できず,そのため深層ウェブはこれまでベールに包まれてきたのである.

 深層ウェブは,表層ウェブとは本質的に異なる.深層ウェブでは,コンテンツは公開データベースに格納されており,このデータベースに対する照会に応じて検索結果のウェブページが動的に生成される.しかし,データベースに対する照会は「一回ずつ」行わなければならず,すべてのコンテンツを取り出すには多大な労力を要する.BrightPlanetの検索技術はスレッドを利用して十余の照会を同時に自動実行し,「深層」と「表層」のそれぞれにあるコンテンツを検知・取得・定性・分類・編纂する.これは,現時点で,唯一の検索技術である.

 情報時代に最も重要なものがその名の通り情報であるなら,深層ウェブにあるコンテンツには計り知れない価値がある.そうした考えから,BrightPlanetは,2000年3月13日〜30日に収集したデータに基づき,深層ウェブの規模と有用性の定量的評価を試みた (1).結論の概要は,以下の通り.

 今回明らかとなった事実の意味を考えるために,Natureに掲載されたNEC Research Instituteの論文 (7a)を引用する.この論文の推計によれば,膨大なウェブページを目録化している最大級の検索エンジン(GoogleやNorthern Lightなど)でも,それぞれ表層ウェブの高々16%しか目録化していない.しかも,そこで対象とされた検索エンジンの性質上,この数字には深層ウェブは考慮されていない.従って,従来型検索エンジンでインターネットを検索しても,今日利用可能なウェブページのわずか0.03%,すなわち3000分の1しか捕捉していないことになる.明らかに,網羅的な情報検索には,表層と深層にある複数のウェブを検索する必要がある.

深層ウェブ

 インターネット上にあるコンテンツは一般に考えられているよりも広く,遙かに巨大である.この認識の違いを生む原因は,いくつかある.

 第一に,ワールドワイドウェブ(HTTPプロトコル)は時にインターネットと同一視されるが,実際はインターネット上にあるコンテンツの一部にすぎない.ウェブ以外にも,FTP(ファイル転送プロトコル),電子メール,ネットワークニュース,テルネット,ゴーファー(ウェブの出現以前に主流だったプロトコル)などがある.本調査報告では,こうしたウェブ以外のプロトコルについては考察しない (2)

 第二に,ウェブ上にあるコンテンツについてさえ,ほとんどの利用者は検索エンジンや検索ディレクトリーが提示したコンテンツだけしか見ていない.一般利用者が利用する検索エンジンは,ExciteGoogleAltaVistaNorthern Lightなど,検索ディレクトリーは,Yahoo!About.comLookSmartなどである.ウェブの利用者の85%がこうした検索エンジンを使って必要な情報を探しているが,欲しい情報が見つからないことに大きな不満を持つ利用者も同程度存在する (3).市場調査会社NPDが最近行った検索エンジンに対する満足度調査によれば,検索失敗率は1997年以来一貫して増加している (4)

 ウェブ上に存在する情報を収集することの重要性と,検索エンジンの持つ中核的かつ明白な役割.そして,そうした検索エンジンの捕捉率に対する利用者の不満.調査すべき点は,自ずと明らかである.

 1600年代も終わる頃,Van Leeuwenhoek(ヴァン・レーウェンフク)は,初めて,顕微鏡を通して一滴の水を見た.そこには,当時誰も夢想だにしなかった,目には見えぬ「微小動物」の世界があった.過去30年間の深海探査は,何百という奇妙な生き物の存在を明らかにし,生命の起源と発生場所に関するそれまでの考え方を覆そうとしている.発見は,新しい道具を用いて,新しい目で世界を見ることから生まれるのである.BrightPlanetによる本調査は,ウェブ上にある情報の特性を新たな目で見直し,それを特定し整理する方法を改めて考え直すことから始めなければならない.

検索エンジンの動作原理

 検索エンジンが情報を収集する方法は2種類ある.すなわち,ウェブページを書いた当人にそのページを登録してもらう方法と,検索エンジン自体がハイパーリンクを辿って文書を「探査・捕捉」する方法である.後者の方法では,膨大な数の文書を捕捉することができる.探査対象のページを1ページずつ調べ,そこに設定されたハイパーテキストリンクをすべて記録していく.こうして,湖面に広がる波紋のように,起点としたページから次々に探査の範囲を広げていくのである.

 表層ウェブには25億の文書があり,1日750万文書の割合で拡大していると推計されている (5a).大手の検索エンジンは探査範囲を精力的に広げているが,ウェブの拡大は検索エンジンの探査能力を凌いでいる (6a) (7b).実際,検索エンジン自体が提示する目録化済み文書数を上位3つの検索エンジンで見ると,Googleが13.5億文書(ほとんどの場合,5億文書を対象に検索) (8)Fastは5.75億文書 (9),Northern Lightは3.27億文書 (10)に留まっている.

 先に説明したように検索エンジンは無差別に探査の範囲を広げていくが,こうした方法には,当然とも言うべき批判が向けられてきた.最も大きな問題は,この種の検索エンジンがあまりにも多くの文書を提示する点である(例えば,Northern Lightで「Web」を検索すると4700万件もの文書が提示される).また,すでに捕捉した文書に設定されたリンクを辿って探査するため,新規文書よりも引用されている文書の方が目録化されやすいことも理由の一つである.捕捉率は最大8倍程度異なる (5b)

 こうした問題点を解消するために,最新世代の検索エンジン(著名なGoogle)では,無作為にリンクを辿ることを止め,探査を制御し,ページの「人気」に基づいて目録化している.この方法においては,相互参照が多い文書ほど探査でも検索結果の表示でも優先され,単純照会では顕著な効果がある.しかし,リンクの少ない文書を見落とす可能性は高まる (5c)

 問題はまだある.当然のことだが,検索エンジンは億単位の捕捉済みウェブページを更新する必要があり,収集したページを最新状態に保つのは大きな負担となっている.実際,ウェブページの公開からその情報が従来型検索エンジンに取り込まれるまでの時間が延びていることは,多々指摘されている (11a).検索エンジンの鮮度に関する我々の調査では,検索エンジンの持つ目録は3〜4ヶ月あるいはそれ以上に古い.

 さらに,ウェブページの人気を考慮したとしても,起点とすべきページの一覧を作らねばならないことに変わりはない.すなわち,他のウェブ文書からリンクされていないページは永久に捕捉され得ない.検索エンジンの最大の欠点は,ウェブ上にある文書を捕捉するためにリンクを使った点である.

 図1は,典型的な検索エンジンの持つ問題点を表した絵である.捕捉されるコンテンツは表層にあるものだけに限られ,得られる文書はかなり雑駁である.この表層より深いところには,莫大な宝が眠っている.必要な情報はそこにある.ウェブの表層の下に隠されているのである.

[Figure 1]
図1 検索エンジンはウェブの表層で網を引いている

公開データベース――ウェブの奥に隠されている宝

 情報はウェブ上にどのような形で存在し,提供されるのだろうか.黎明期のウェブには文書もサイトもわずかしかなく,すべての文書を静的なページとして公開することは量的に十分可能だった.すべてのページは永続的に存在し常にアクセス可能であるから,今日言う従来型検索エンジンでも容易に探査可能だったのである.Lycos検索エンジンは1994年7月に公開されたが,そのとき目録化されていた文書は54,000件であった (12).爾来,ウェブ文書は年率200%以上で増加し続けている (13)

 サイト上の文書数が数十から数百であれば,内容が固定されたHTMLページを静的ディレクトリー構造として編成するだけで容易に公開することができる.しかし,1996年頃に相前後して起こった3つの出来事が状況を大きく変えた.その第一は,データベース技術のインターネットへの導入である.BluestoneのSapphire/Web(Bluestoneは,後に,HPに買収された),また後に参入したOracleなどのベンダーによる技術である.第二は,ウェブが商用化されたこと.商用化はディレクトリーと検索エンジンで始まったが,急速にeコマースに発展した.第三は,ウェブサーバーがウェブページを「動的に」扱えるようになったこと(MicrosoftのASPやUnixにおけるPHP技術など)である.

 この3つの出来事が,ウェブ,とりわけ大規模サイトに真のデータベース指向をもたらしたのである.今では,インターネットを基盤とする新興企業群は言うに及ばず,U.S. Census Bureau(米国国勢調査局),Securities and Exchange Commission(米国証券取引委員会),Patent and Trademark Office(米国特許商標部)など,データを大量に扱う組織が,ビジネスあるいは情報を送り出す媒体としてウェブを好んで用いるようになった.しかし,そうした組織が情報を提供するために選んだこの方法は,最早,静的ページではなくデータベースに駆動されているという点は,広く認識されてはこなかった.

 見えざるものは定義できず未定義のものは理解できないと言う.ウェブ上の情報コンテンツに対するデータベースの重要性は,まさにその一例である.静的ウェブページを探査する従来のモデル――従来型検索エンジンのパラダイム――は,最早インターネット上の情報コンテンツには適用できない.それは,データベースが見えないがために理解されてこなかったのである.

 Jill Ellsworth博士は1994年に「見えないウェブ(invisible Web)」という言葉を用いて,従来型検索エンジンには「見えない」情報コンテンツの存在を指摘した (14).1997年の始めには,公開データベースの持つ潜在的重要性から,そのための最初の検索サイトAT1エンジンが華々しく登場した (15).しかし,AT1の所有者であるPLSは1998年にAOLに買収され,その後すぐにAT1サービスは放擲されてしまった.

 本調査報告では「見えないウェブ」という言葉を用いていない.それは,この言葉が正確ではないからである.実際,公開データベースが「見えない」のは従来型検索エンジンには目録化も照会もできないからだが,BrightPlanet技術を使えば「見える」のである.

 図2は,BrightPlanet技術によって改善された検索を表した絵である.初めに適切な公開データベース(複数)の存在する場所を特定する.そして,そのデータベースに同時に――ピンポイントの正確さで――照会を行い,必要な情報だけを取得するのである.

[Figure 2]
図2 制御された照会エンジンで深層ウェブと表層ウェブにある情報を取得する

 この絵にはもう一つの意味がある.それこそが本調査における議論の中心なのだが,ここでは,深層ウェブにあるコンテンツが膨大であること――従来型検索エンジンに見えるもののおよそ500倍以上――,そしてあらゆる点で品質が遙かに高いことを指摘するに留めておく.

 BrightPlanet技術は,深層ウェブを探り,そこにある情報を表層に持ち帰るための類例のない技術である.簡単に言えば「制御された照会エンジン」である.得られた情報の定性と分類という強力な機能もあるが,深層ウェブにあるコンテンツを検索可能にするのは,複数の特定検索サイトに同時照会する機能である.

本調査の目的

 本調査は,BrightPlanet技術を活用し,以下の諸点を評価・追究することを目的としている.

 新発見というものが常にそうであるように,深層ウェブも今漸く定義され理解され始めたばかりである.深層ウェブの大きさとコンテンツの豊かさには,本調査を通じて驚きの連続であった.深層ウェブをよりよく理解するためには更なる調査と情報が必要である.これが本調査報告の結論である.

本調査の対象

 本調査では,インターネットコンテンツの内,ウェブ以外の情報源については検討しない.また,ファイアウォールの背後に隠されている非公開のイントラネット情報についても,調査対象には含めない.多くの大企業はテラバイト級を超える社内文書を持っている.しかし,こうした情報へのアクセスは制限されており,定量も定性もできないからである.また,典型的なウェブ文書では,「コンテンツ」の平均44%はHTMLやその他(XMLやJavascriptなど)のコードだが (16a),本調査では,そうしたコードに含まれる情報についても評価しない.但し,全コンテンツの定量では,そうしたコードも含めて評価している(次項を参照).

 深層ウェブの規模の評価には,専門検索エンジンにある情報――大手の従来型検索エンジンには部分的に「隠されて」いると思われる――も,大手検索エンジン自体のコンテンツも含めていない.この後者の持つ情報量はかなり大きい.3大検索エンジンの捕捉する文書数と平均ウェブ文書サイズから,検索エンジンのコンテンツだけでも25TBあるいはそれを超えるものと推定される (17).これは,表層ウェブの規模として知られている数字を幾分上回る規模である.

ウェブの規模に関する評価方法

 深層ウェブについても表層ウェブについても,その規模は総文書数(深層ウェブの場合はデータベースに含まれるレコード数)および総データ量で表す.データ量は「HTMLコードを含めた」ウェブ文書のサイズによる (16b).これには,すべてのHTMLなどのコードと標準テキストのコンテンツが含まれるが,埋め込まれている画像と標準のHTTP「ヘッダー」情報は含まれない.こうすることにより,深層ウェブと表層ウェブの量的比較が可能となる.HTMLコードを含めることにしたのは,次の理由からである.

 比較に用いた文書サイズは,すべて実際のバイト数(1KB=1024B)である.

 従って,深層ウェブ上にある文書の実際のデータ量は,本調査報告で示す数字よりかなり少ないはずである (18).公開データベースから取得されるレコードは,実際には動的ウェブページのテンプレートに埋め込まれており,このテンプレートには標準のヘッダーやフッターあるいは広告などが含まれているからである.このHTMLコードの分だけ公開データベースの規模を過大評価することになるが,表層ウェブに存在する標準的な「静的」情報も同じ方法で構成されている.

 すなわち,ウェブページにHTMLコードを含めることによって,深層ウェブと表層ウェブの規模の比較が可能となる.

BrightPlanet技術の利用とその役割

 本調査では,BrightPlanet技術を用いて検索・収集・定性を行った.この技術はマルチスレッドを利用してデータベースに対し複数の照会を同時に行い,文書をダウンロードした上で,検索したすべての文書(HTMLコードを含む)を目録化する.さらに,4つの評価アルゴリズム,よく知られているベクター空間モデル(VSM),標準および修正拡張ブーリアン情報検索(EBIR) (19)を用いて文書の適合性を評価する.

 この技術にはBrightPlanetの保有するコンテンツHTML評価法を採用した修正版もあり,深層ウェブ検索サイトの自動的な特定と定性で利用している.

表層ウェブの基本特性

 これまでに行われた表層ウェブの規模に関する学術研究のほとんどは,LawrenceとGiles(NEC Research Institute,米国ニュージャージー州プリンストン)の研究に遡る.この研究は,彼ら呼ぶところの「誰でも目録化可能な」ウェブを分析したもので,最初の主要な成果は1998年に雑誌「Science」に発表された.1997年12月のデータを分析したもので,表層ウェブの総量を3億2000万文書と推計している (6b).さらに,別の手法による研究が1999年に雑誌「Nature」に掲載された.この研究では1999年2月のデータが分析されており (7c),誰でも目録化可能なウェブは8億文書,画像とHTTPヘッダーを除いて1ページ平均18.7KBとしている (20)

 その後,NECはInktomiの協力を得てウェブページの推計をやり直し,10億文書という推計値を2000年初めに発表している (21).本調査では,「Nature」に1999年に発表された論文の推計値を採用するが,全表層ウェブの総文書量はこの最新の推計値を用いた.

文書総数 コンテンツの総量(HTMLベース,GB)
1,000,000,000 18,700

表1 表層ウェブの規模に関する基本特性

 表1は,本調査報告で採用した表層ウェブの規模に関する基本特性である(Cyveillanceの調査 (5d)はこれより新しく,表層ウェブの総量を25億文書,1日750万文書の増加と推計している.この推計値の方が実態に近いと思われるが,データ収集時期がNECの推計の方が本調査に近いためNECの推計値を採用した).

 規模のデータの他に,NECの研究で得られた主な知見の内,本調査に関わるものを抜粋する.

大規模深層ウェブサイトの分析手順

 100を超える深層ウェブサイトを定量・定性し,次節に示す60サイトを抽出した.

 サイトの定量・定性は,次の3つの手順による.

  1. サイトに含まれるレコードまたは文書の総数を推定する.
  2. サイトから少なくとも10件の文書を無作為に採取し,HTMLコードを含む文書の平均サイズ(単位はバイト,B)を計算する.この数字とそのサイトの総レコード数の積をもって,そのサイトの規模の推計値(単位はB)とする.
  3. サイトの検索ページのフォームを目録化し特徴を抽出することにより,そのサイトの対象分野を決定する.

 各サイトに含まれる総レコード数の推計は,必ずしも容易ではない.以下,総文書数を決定するために利用した方法を列挙する.後になるほど,重みと信頼性は低下する.

  1. 特定したサイトごとに,そこに掲載されているウェブマスターまたは連絡先に電子メールを送り,総レコード数とデータ量(非圧縮)の開示を求めた.表2に示したサイトのおよそ13%から回答を得た.
  2. サイト自体が公表している総レコード数.各サイトのヘルプページやFAQなど,総レコード数を掲載していそうなページを調べる.
  3. コンファレンスで発表されたものや既存の推計値など,第三者により記述されたサイト規模.文献の探査では,ウェブを網羅的に検索した.
  4. サイト自体の検索機能を利用したレコード数の推定.サイトの中には,照会すると総レコード数を示すところがある.総レコード数を示さないサイトでは,NOT演算子を単独で使える場合,「NOT ddfhrwxxct」などといった,そのサイトには存在しないことがわかっているキーワードを使って照会する.この方法では,真の総レコード数が得られる.どちらの方法も使えないサイトに対しては,そのサイトのほとんどのコンテンツが含まれるような条件を設定して照会を行った.そして,経験的に決定された「捕捉率係数」によって補正した.この係数は,通常,1.2〜1.4の範囲にある (22)
  5. 以上のいずれの方法も使えない場合は測定不能であり,一覧から除外した.

深層ウェブの分析手順

 深層ウェブ全体の分析および定量・定性は,次の手順による.

 次項以下で,各作業を詳述する.

深層ウェブサイトの抽出

 始めに,7つの大手サイトと3つの小さなサイトにある既存の一覧表から,深層ウェブの可能性のある53,220のURLを抽出した (23).この一覧から重複を除くと45,732となった.下調べにより,対象分野に関するページと検索フォームが独立しており1リンク離れているサイトがあることが判明した.そこで,その可能性のあることを予測するための基準を策定した.次に,BrightPlanet技術を利用して,各サイトの分野のページとそこから1回のリンクで結ばれているページの両方について当該ページ全体を取得し目録化した.ページが取得できたのは,43,348のURLである.

 これらのサイトをフィルターに通し,実際に検索サイトであるものを抜き出した.このフィルターは当社独自のもので,各ページのHTMLコードを調べる他,テキストコンテンツも分析する.これにより,深層ウェブの可能性のあるサイトは17,579となった.

 さらに,この深層ウェブサイト候補一覧から700サイトを無作為に選び,実際に目で見ながら更なる絞り込みの条件を探った.700サイトの13.6%に当たる95件は,検索サイトとするには足らなかった.この補正を深層ウェブサイト候補一覧全体に適用して,結果とした.

 700サイトを手作業で調べた際に開発した基準の一部は,BrightPlanetの検索サイト判定技術に含まれている自動テストにも組み込んである.判定の信頼性は98%に達すると当社では考えている.また,この技術の社内バージョンには,本調査に基づいて,検索サイトを発見するための自動ツールも組み込んである.

深層ウェブサイトの総数の推計手順

 深層ウェブサイトの総数を推計するに際しては,「オーバーラップ」分析を基本的な手法として採用した.これは表層ウェブサイズに関する2つの著名な分析でも使われており,広く受け入れられている方法である (6c) (24).本調査では,検索エンジンが捕捉しているサイトと先に述べた深層ウェブサイト候補一覧を利用して,オーバーラップ分析を行った(結果は表3〜表5).以下,図を使って,この方法の概要を説明しておく.

[Figure 3]
図3 「オーバーラップ」分析の概念図

 2つの一覧表a,bがあるとする.オーバーラップ分析では,それぞれの件数na,nbと,両一覧共通の項目すなわちオーバーラップの件数noとを比較する.両一覧が全体からの無作為な抽出であると仮定すれば,この3つの数字から総数Nを推計することができる.つまり,全体に対する表aの捕捉率はno/nbに等しく,これをnaに適用する,すなわち,naをこの捕捉率で割れば総数が得られる.この一対比較を本調査で用いた個々の一覧表について繰り返した.

 具体例を一つ挙げよう.総数を100とする.2つの一覧表a,bに50項目ずつ含まれているとすれば,平均的には,それらの内25項目は両一覧表に共通しており,残り25項目は異なるはずである.前述の式に当てはめれば100 = 50 / (25/50)となる.

 オーバーラップ分析が成立するには,2つの条件が必要である.第一は,一対比較の少なくとも一方の件数が比較的正確に推計されていること.第二は,両一覧表が相互に独立かつ無作為に作成されたものであること.

 この第二の仮定は,深層ウェブに関する本調査では,実際には満たされていない.深層ウェブへのリンク集は目的を持ってサイト情報を収集している.従って,その収集には偏りがある.また,検索エンジンにも公開データベースがリンクされることが多くなっている.これは,公開データベースの情報価値が検索エンジンの検索結果の中で相対的に優位性を高めているためである (5f).従って,オーバーラップ分析は,深層ウェブの総数の下限を表すことになる.どちらの要因も,一対比較で得られるオーバーラップnoの割合を増やす方向に働くからである.

深層ウェブの規模の推計手順

 深層ウェブの総量は,文書数とデータ量の平均を求め,これと総数を乗じて求めた.結果は,後ほど,図4と図5で示す.

 大規模深層ウェブサイトの分析の際と同様に,平均文書数と平均文書サイズを得るのは容易ではなく,各サイトを評価するには相当の時間が必要である.評価時間の現実的な制約から,信頼水準95%,信頼区間±10%とし,100サイトを無作為に抽出して完全に定量・定性することとした (25a)

 そこで,17,000の検索サイト候補一覧を無作為に並べ替え,100サイトに達するまで完全な定量・定性を続けた.各サイトの総レコード数と総文書数の決定は,大規模深層ウェブサイトの分析の場合より負荷の少ない方法によった.

 100サイト分の完全な特性を得るために,無作為化したリストから丁度700のサイトを調べる必要があった.ここで調べた700サイトのすべてについて,サイトの類型と対象分野を評価した.この情報は別の分析で利用した.

 レコードまたは文書の総数を決定できた100サイトについて,平均文書サイズ(HTMLコードを含む)を求めた.各公開データベースに対して無作為に照会し,HTMLページの形式で検索結果を得る.これを10件以上生成してディスクに保存,それを平均してそのサイトの平均ページサイズとした.ただし,文献データベースなどの中に,1つのHTMLページに複数のレコードを掲載するケースが少数あった.そのような場合は,照会結果ページを3ページ取得してディスクに保存し,その3ページ上に報告されている総レコード数で平均した.

コンテンツの対象分野と類型の決定手順

 対象分野は,前述の深層ウェブサイト候補一覧にある17,000の検索サイトのすべてについて調査した(結果は表6).深層ウェブサイトの類型は,手作業で定性した700サイトから決定した(結果は図6).

 深層ウェブサイト候補一覧全体では,その対象分野は広い範囲にわたる.そこで,19の領域に関する照会を発行することで対象分野を決定した.分野には重複があり合計するとサイト数を超えるため,合計で割って各分野の割合を算出した.

 検索データベースの類型を人手によって調べ,以下の12種類に分類した.この12の類型は自由に選ばれており,データベースの類型の多様性を反映している.

  1. 専門データベース――特定のテーマに従って収集された情報.SECの企業情報,医療データベース,特許情報など.
  2. 内部サイト――大規模サイトの一部として動的に生成されるページのための公開データベース.Microsoftのサイトの知識ベースなど.
  3. 記事――現行および過去の記事に対する公開データベース
  4. 商品販売/競売
  5. 案内広告
  6. ポータル――公開データベースの類型を2つ以上含む,対象分野の広いサイト
  7. ライブラリー――組織が保有する資料に関する検索サービス.ほとんどは大学図書館
  8. 人名録・企業名鑑――人物や企業の一覧
  9. 計算表――厳密にはデータベースではないが,計算のために内部データを利用している.ローン計算,辞書検索,翻訳など
  10. 求人――求人と履歴書の送付
  11. メッセージ/チャット
  12. 汎用検索――ほとんどがインターネットで検索したテーマや情報に関連している公開データベース

 これらの700サイトについては,一般公開か購読または有償の別についても調べた.

サイトの閲覧回数とリンク参照の調査手順

 Alexaの提供するサービスであるNetscapeの「What's Related」ブラウザーオプションは,与えられたURLに対する人気ランキングとリンク参照の数を与える (26).深層ウェブサイトの約71%がそうしたランキングの対象となっている.Alexaの人気ランキングと月間閲覧回数は指数分布(対数的成長曲線,対数分布)をしており,ランキングから月間閲覧回数を推定できる (27).「What's Related」には,そのURLへの外部リンクの数も表示される.

 深層ウェブサイトと表層ウェブサイトを無作為に100件抽出し,それに対して,「What's Related」の表示をすべて取得し比較した.

成長率の推計手順

 成長率を測定する最良の方法は,時系列分析である.しかし,深層ウェブはつい最近発見されたばかりであるため,この方法は使えない.

 Whois (28)はドメイン登録の情報を検索するサービスであり,ドメインの所有者の他,ドメインが最初に取得された日付を含む記録を入手できる.このWhoisサービスを利用して,無作為に抽出した深層ウェブサイトと表層ウェブサイト (29)のそれぞれ100件 (25b)について,そのドメイン名からサイトが最初に作られた日付を調べ,その結果をグラフ化して深層ウェブと表層ウェブとを比較した.

品質評価の手順

 深層ウェブと表層ウェブのコンテンツに関する品質は,広い範囲から選んだ5つのテーマに関して,BrightPlanet技術を利用して各サイトに照会した結果によって比較した.対象としたサイトは,3つの検索エンジン(AltaVista,Fast,Northern Light) (30)と,BrightPlanet技術で使うために現在用意されている600サイトの中から各テーマに関する3つの深層ウェブサイトを選んだ.5つのテーマは,農業,医学,財務/ビジネス,科学,法律である.

 照会は,6つのサイトのいずれからも検索結果が200以内に収まるように選んだ (31).これは,各サイトの検索結果をすべて取得できるようにするためである.BrightPlanet技術の設定については,末尾の注を参照されたい (32)

「品質」の評価は,当社技術VSMとmEBIR計算言語評価法 (33) (34)の平均によった.「品質」の閾値は82点とした.これは,これまで数百万の表層ウェブ文書を評価した経験から得た概数である.

 深層ウェブと表層ウェブの評点は,ソースオプションでサイトを指定してBrightPlanet技術を用いることにより,総文書数と,品質閾値を超える文書数によって得た.

調査結果と考察

 本調査は,深層ウェブの定量・定性に関する初めての知見である.これまでの深層ウェブに関する報告あるいは知見は皆無といってよい.その規模と重要性の評価はせいぜい事例的なものでしかなく,かなり過小評価されてきた.例えば,Intelliseekの「見えないウェブ」には,こう記述されている.すなわち,「こうしたデータベースや公開情報源に存在する価値あるコンテンツの総量について現時点で言えることは,8億ページ以上存在する『見えるウェブ』を遙かに超えるということだけである」.また,深層ウェブのサイトの総数を50,000件程度と推計している (35)

 深層ウェブについてわかりやすい解説を書いたKen Wisemanは,知られているウェブと同程度の規模だろうという意味のことを述べ,それに続けて「ウェブの見えない部分を検索するツールが一般に利用可能になる頃には,隠されたウェブは指数関数的に成長を続け(莫大になっている)ことは確実である」と述べている (36).また,1999年の中頃にAbout.comのWeb search guideが行った調査では,深層ウェブの規模は「巨大であり,なお成長を続けている」と結論づけている (37).さらには,最近の図書館学の集会で発表された論文は「検索エンジンでアクセス可能なのはウェブの比較的小さな部分」だけであると示唆している (38)

 深層ウェブは表層ウェブのおよそ500倍であり,文書単位で比較した場合,我々の文書評価法によれば,品質は平均して3倍高い.従って,深層ウェブ全体の品質は,表層ウェブの品質の数千倍を超える.深層ウェブサイトの総数は,現在,200,000件を超えている模様であり,なお急速に成長している (39).深層ウェブのコンテンツは,情報を求めるどのような人にとってもどのような分野にとっても有用であり重要性が高い.しかも,深層ウェブにある情報の95%以上が何ら制限なく一般に公開されている.そして,深層ウェブは,ウェブ上の情報源の中で最も急速に成長していると見られる.

深層ウェブの一般的特性

 深層ウェブのコンテンツは,表層ウェブのコンテンツと重要な違いがある.例えば,深層ウェブにある文書(サイズの平均値13.7KB,中央値19.7KB)は,表層ウェブの文書より平均27%小さい.また,深層ウェブサイトが保持しているレコード数は数十あるいは数百といったレベルから数億レベルまで極めて幅が広い(サイト当たりの平均は543万レコードだが,中央値では4,950レコードにすぎない)が,平均的には,表層ウェブサイトに比べ遙かに巨大である.これ以降,本調査における知見を詳細に述べる.

 平均的な深層ウェブサイトは,ウェブ形式(HTMLコードを含む)のサイズで74.4GB(中央値169MB)のデータベースを持つ.レコード数とサイズの実際の推計は,深層ウェブサイトの1/7で計算可能である.

 深層ウェブサイトの月間トラフィックは,平均で,表層ウェブサイトの1.5倍(月間閲覧回数123,000対85,000).中央値では,一般的な表層ウェブサイトの2倍強(月間閲覧回数843,000対365,000).深層ウェブサイトへのリンクは,平均すると表層ウェブサイトの約2倍(被リンク数6,200対3,700)だが,中央値で見ると逆に少ない(被リンク数66対83).これは,よく知られた深層ウェブサイトの人気は極めて高いが,典型的な深層ウェブサイトはインターネットで検索する人々の間ではあまり知られていないことを示唆する.

 直感に反して,深層ウェブサイトの97.4%が無制限に一般公開されている.さらに,1.6%が部分公開(通常の検索には制限が設けられている.購読または有償なら広範な検索が可能)されており,全面的に要登録または有償としているのはわずか1.1%にすぎない.この数字が直感に反するのは,Dialog,Lexis-Nexis,Wall Street Journal Interactiveといった購読者限定サイトの印象が強いためである.(文書数は,サイト自体または公表された資料による)

 しかし,目につきやすい大規模有償深層ウェブサイトだけではなく,深層ウェブサイト全体を見れば,一般に公開されたものが大半なのである.

深層ウェブの規模は,上位60サイトだけで表層ウェブの40倍

 現在知られている最大規模の深層ウェブサイト上位60を表2に示す.これらのサイト全体のデータ量(HTMLコードを含む)はおよそ750TBで,知られている表層ウェブの規模のざっと40倍に達する.扱う分野は多方面にわたり,科学を始めとして,法律・画像・商品販売まである.レコードまたは文書の件数は850億程度と推計する.

 60サイトのおよそ2/3が一般公開されており,コンテンツの量では約90%になる.これら上位サイトの規模が極めて大きいことは,深層ウェブのサイトが指数分布していることを示している.これは,ウェブサイトの評判 (40)あるいは表層ウェブサイト (41)の分布とは異なる.この種の分布は,サイトの成長に事実上の上限がないことを意味する.

名称 公開の程度 URL ウェブのサイズ(GB)
National Climatic Data Center (NOAA) 一般公開 http://www.ncdc.noaa.gov/ol/satellite/satelliteresources.html 366,000
NASA EOSDIS 一般公開 http://harp.gsfc.nasa.gov/~imswww/pub/imswelcome/plain.html 219,600
National Oceanographic (combined with Geophysical) Data Center (NOAA) 一般公開/有償 http://www.nodc.noaa.gov/, http://www.ngdc.noaa.gov/ 32,940
Alexa 部分公開 http://www.alexa.com/ 15,860
Right-to-Know Network (RTK Net) 一般公開 http://www.rtk.net/ 14,640
MP3.com 一般公開 http://www.mp3.com/ 4,300
Terraserver 一般公開/有償 http://terraserver.microsoft.com/ 4,270
HEASARC (High Energy Astrophysics Science Archive Research Center) 一般公開 http://heasarc.gsfc.nasa.gov/W3Browse/ 2,562
US PTO - Trademarks + Patents 一般公開 http://www.uspto.gov/tmdb/, http://www.uspto.gov/patft/ 2,440
Informedia (Carnegie Mellon Univ.) 一般公開予定 http://www.informedia.cs.cmu.edu/ 1,830
Alexandria Digital Library 一般公開 http://www.alexandria.ucsb.edu/adl.html 1,220
JSTOR Project 制限 http://www.jstor.org/ 1,220
10K Search Wizard 一般公開 http://www.tenkwizard.com/ 769
UC Berkeley Digital Library Project 一般公開 http://elib.cs.berkeley.edu/ 766
SEC Edgar 一般公開 http://www.sec.gov/edgarhp.htm 610
US Census 一般公開 http://factfinder.census.gov 610
NCI CancerNet Database 一般公開 http://cancernet.nci.nih.gov/ 488
Amazon.com 一般公開 http://www.amazon.com/ 461
IBM Patent Center 一般公開/内部用 http://www.patents.ibm.com/boolquery 345
NASA Image Exchange 一般公開 http://nix.nasa.gov/ 337
InfoUSA.com 一般公開/内部用 http://www.abii.com/ 195
Betterwhois (many similar) 一般公開 http://betterwhois.com/ 152
GPO Access 一般公開 http://www.access.gpo.gov/ 146
Adobe PDF Search 一般公開 http://searchpdf.adobe.com/ 143
Internet Auction List 一般公開 http://www.internetauctionlist.com/search_products.html 130
Commerce, Inc. 一般公開 http://search.commerceinc.com/ 122
Library of Congress Online Catalog 一般公開 http://catalog.loc.gov/ 116
Sunsite Europe 一般公開 http://src.doc.ic.ac.uk/ 98
Uncover Periodical DB 一般公開/有償 http://uncweb.carl.org/ 97
Astronomer's Bazaar 一般公開 http://cdsweb.u-strasbg.fr/Cats.html 94
eBay.com 一般公開 http://www.ebay.com/ 82
REALTOR.com Real Estate Search 一般公開 http://www.realtor.com/ 60
Federal Express 一般公開(利用者が希望する場合) http://www.fedex.com/ 53
Integrum 一般公開/内部用 http://www.integrumworld.com/eng_test/index.html 49
NIH PubMed 一般公開 http://www.ncbi.nlm.nih.gov/PubMed/ 41
Visual Woman (NIH) 一般公開 http://www.nlm.nih.gov/research/visible/visible_human.html 40
AutoTrader.com 一般公開 http://www.autoconnect.com/index.jtmpl/?LNX=M1DJAROSTEXT 39
UPS 一般公開(利用者が希望する場合) http://www.ups.com/ 33
NIH GenBank 一般公開 http://www.ncbi.nlm.nih.gov/Genbank/index.html 31
AustLi (Australasian Legal Information Institute) 一般公開 http://www.austlii.edu.au/austlii/ 24
Digital Library Program (UVa) 一般公開 http://www.lva.lib.va.us/ 21
一般公開と部分公開の小計 673,035
DBT Online 有償 http://www.dbtonline.com/ 30,500
Lexis-Nexis 有償 http://www.lexis-nexis.com/lncc/ 12,200
Dialog 有償 http://www.dialog.com/ 10,980
Genealogy - ancestry.com 有償 http://www.ancestry.com/ 6,500
ProQuest Direct (incl. Digital Vault) 有償 http://www.umi.com 3,172
Dun & Bradstreet 有償 http://www.dnb.com 3,113
Westlaw 有償 http://www.westlaw.com/ 2,684
Dow Jones News Retrieval 有償 http://dowjones.wsj.com/p/main.html 2,684
infoUSA 有償/一般公開 http://www.infousa.com/ 1,584
Elsevier Press 有償 http://www.elsevier.com 570
EBSCO 有償 http://www.ebsco.com 481
Springer-Verlag 有償 http://link.springer.de/ 221
OVID Technologies 有償 http://www.ovid.com 191
Investext 有償 http://www.investext.com/ 157
Blackwell Science 有償 http://www.blackwell-science.com 146
GenServ 有償 http://gs01.genserv.com/gs/bcc.htm 106
Academic Press IDEAL 有償 http://www.idealibrary.com 104
Tradecompass 有償 http://www.tradecompass.com/ 61
INSPEC 有償 http://www.iee.org.uk/publish/inspec/online/online.html 16
有償の情報源の小計 75.469
総計 748,504

表2 大規模深層ウェブサイト上位60

 深層ウェブサイトを悉皆調査したわけではないため,この表は予備的性格のものであり,おそらく不完全である.

 深層ウェブサイトを700件無作為抽出した調査では,最初に大規模サイトの候補とした100の中にはない大規模サイトを3つ発見した.この割合を200,000件と推計される深層ウェブサイト全体(次の表を参照)に敷衍すれば,この表に示したサイトの中で真に最大規模と言えるのは,ほんのわずかなものだけであろう.しかし,多くの大規模サイトは事例的に知られており,確度はかなり低いが,現存する最大規模の深層ウェブサイトの10%〜20%がこの表に含まれていると考える.

 今日でも,最大規模の深層ウェブサイトをすべて特定できていないが,これは驚くに当たらない.深層ウェブに気づいたのはごく最近のことであり,それまでほとんど光を当ててこなかったのである.CompletePlanetサイトは大規模サイトを網羅的に収集しているので,是非,推薦していただきたい.

深層ウェブの規模は,表層ウェブの500倍

 3通りのオーバーラップ分析を行い,深層ウェブサイトの総数を推計した.表3に示した第一の方法では,17,000の深層ウェブサイト候補一覧から100のURLを無作為に抽出し,URL検索の可能な検索エンジンに照会した.オーバーラップ分析の結果を次に示す.

検索エンジンA 深層ウェブサイトの推定総数
検索エンジンA URL数 検索エンジンB URL数 共通 Aのみ 捕捉率 データベースのサイズ
AltaVista 9 Northern Light 60 8 1 0.133 20,635 154,763
AltaVista 9 Fast 57 8 1 0.140 20,635 147,024
Fast 57 AltaVista 9 8 49 0.889 27,940 31,433
Northern Light 60 AltaVista 9 8 52 0.889 27,195 30,594
Northern Light 60 Fast 57 44 16 0.772 27,195 35,230
Fast 57 Northern Light 60 44 13 0.733 27,940 38,100

表3 検索エンジンを利用したオーバーラップ分析による深層ウェブサイトの総数の推計

 通常の表層ウェブに関するオーバーラップ分析に比べ,この表にある深層ウェブサイトの推定総数はかなりばらついている.この不安定性は,1)検索エンジンに含まれる標本がかなり少ないこと,2)Northern Lightに含まれる総深層ウェブサイト数の推定値が不正確である可能性が高いこと (42),3)Northern Lightに対するFastとAltaVistaの皮相比に基づく両サイトの深層ウェブサイト捕捉率の外挿に信頼性がないことによるものだろう.従って,この結果に信頼性はほとんどない.

 第二の方法は,Northern Light検索エンジンによる深層ウェブサイトと,表層ウェブについてNECの報告した値 (7d)とを比較する方法である.これらの数字は,無作為抽出した700の深層ウェブサイトに対する人手による評価によって得られた最終適格率でさらに補正した.下表は,その結果である.

検索エンジン 捕捉されている深層ウェブサイト 表層ウェブの捕捉率 適格率 深層ウェブサイトの推定総数
Northern Light 27,195 16.0% 86.4% 146,853
AltaVista 20,635 15.5% 86.4% 115,023

表4 深層ウェブサイトの総数の推計――検索エンジンの捕捉率による

 この方法もまた,Northern Lightの捕捉する深層ウェブサイト数を基礎とすることによる制約を受ける.また,先に論じた検索エンジンの深層ウェブサイト捕捉率を検索エンジンの検索結果から推定する方が確度が高そうだが,これも不明確である.

 第三の方法を表5に示す.この方法は,上の2つより妥当性が高い.

 すでに述べたように,17,000の深層ウェブサイト候補一覧を作成する際,深層ウェブサイトを収集しているサイトを利用した.この方法では,その中から上位3サイトを対象にオーバーラップ分析を行った.収集量に関しては,CompletePlanetサイトを除いて,これら3サイトは我々の知る限り最上位にある.

 この方法には,次の利点がある.

 サイトが実際に深層ウェブの検索サイトであるか否かを最終的に確認するには,比較的大きな標本数が必要だが,それを可能にするだけの絶対数がある.

 この3つの深層ウェブサイト収集サイトはいずれも規模が知られているため,表には,3つの一対比較だけを示した(例えば,AまたはBの総件数に不確定性はない).

データベースA URL数 データベースB URL数 共通 Aのみ Aの捕捉率 データベースAのサイズ 深層ウェブサイトの推定総数
Lycos 5,081 Internets 3,449 256 4,825 0.074 5,081 68,455
Lycos 5,081 Infomine 2,969 156 4,925 0.053 5,081 96,702
Internets 3,449 Infomine 2,969 234 3,215 0.079 3,449 43,761

表5 深層ウェブサイトの総数の推計――公開データベースの収集サイトによるオーバーラップ分析

 すでに論じたように,こうした深層ウェブサイト収集サイトには目的があり,無作為に収集しているわけではない.従って,その標本には偏りがある.しかし,それを考慮してさえ,これらのサイトの独自性は驚異的である.

 LycosとInternetsの一覧は,商用サイトを中心としている点で類似している.Infomineサイトは,学術目的である.このため,Lycos-Infomine一対比較が最も適切だと考える.どちらの収集も偏っているが,意図している対象領域と全体像は異なるからである.

 以上の表には,大きな不確定さがあるのは明らかである.無作為性に欠けるため,これらの推計は深層ウェブサイト数の下限にあると思われる.すべての推計法を通じて,深層ウェブサイト数の平均推計値は76,000,中央値は56,000である.公開データベース収集サイトだけで見れば,平均は約70,000となる.

 無作為性が欠如しているためにこれらの評価は劣評価であることを考慮し,上記の中で最良の推計と思われるもの,すなわち,Lycos-Infomine一対比較から,現在ある深層ウェブサイトの総数は20万台であると,最終的に判断する.

[Figure 4]
図4 各深層ウェブサイトが含む総レコード数の推定分布

 図4および図5は,無作為に抽出して完全に定性した100の深層ウェブサイトについて,その総レコード数とデータベースサイズ(HTMLコードを含む)をプロットしたものである.

 深層ウェブサイトの平均サイズ74.4GBと総数100,000を掛けることにより,深層ウェブ全体の規模は7.44PB,つまり7,440TBとなる (43) (44a).現在の表層ウェブのコンテンツ量は18.7TB(表1を参照)と推定されており,深層ウェブの規模は表層ウェブのおよそ400倍となる.表3〜表5に示した深層ウェブの規模の下限で評価しても深層ウェブの規模は表層ウェブの120倍であり,上限では620倍となる.

[Figure 5]
図5 深層ウェブにあるデータベースの規模の推定分布

 また,深層ウェブサイトの平均文書/レコード数543万件を深層ウェブサイトの総数100,000に乗じれば,深層ウェブには5430億の文書が存在することになる (44b).表1に示した表層ウェブの推計値10億文書に比較し,深層ウェブは550倍大きいことになる.深層ウェブの規模の下限で評価すれば170倍,上限なら840倍となる.

 深層ウェブの規模は不明瞭だが,巨大であることは明らかである.上位60の深層ウェブサイトだけで,表層ウェブ全体の規模の40倍近い大きさがある.従って,200,000の深層ウェブサイトに対するこの数字はかなり合理的だと思われる.データベースの規模でもレコード数でも,深層ウェブは表層ウェブの約500倍の規模を持つと推定する.

深層ウェブの対象範囲は,広大で専門性が高い

 表6は,本調査で用いた深層ウェブサイト候補一覧の全サイト17,000を分類したものである.区分は,CompletePlanetサイトの最上位の分類による.この表から,深層ウェブサイトがすべての分野にわたって,驚く程均等に分布していることがわかる.コンテンツが大きく欠けている分野はない.CompletePlanetサイトが実際にノードごとに調査した結果,いくつかの分野は,他の分野よりも深く広いことがわかっている.しかし,深層ウェブのコンテンツは,情報に対するニーズや各市場に十分に対応していることは明らかである.

深層ウェブの対象分野
農業 2.7%
芸術 6.6%
ビジネス 5.9%
コンピューター/ウェブ 6.9%
教育 4.3%
雇用 4.1%
工学 3.1%
行政 3.9%
健康 5.5%
人文 13.5%
法律/政治 3.9%
生活 4.0%
報道,報道機関 12.2%
人名録,企業名鑑 4.9%
娯楽,スポーツ 3.5%
資料検索 4.5%
科学,数学 4.0%
旅行 3.4%
商品販売 3.2%

表6 深層ウェブサイトの分野別分布

 図6は,深層ウェブサイトの類型別分布である.

[Figure 6]
図6 類型別の深層ウェブサイトの分布

 深層ウェブサイトの大半は,専門データベースである.次に大きな部分を占める内部サイトと記事アーカイブを合わせると,この3類型だけで全深層ウェブサイトの80%近くを占める.購買系サイト――本来のショッピングサイト,および,競売と案内広告――は10%程度を占める.残りの8つの類型は合わせて10%程度である.

深層ウェブの品質は高い

「品質」は主観的なものである.望みの結果を得れば品質は高く,得られなければ品質など問題外となる.

 BrightPlanetは,ウェブサイトのクライアント向けに品質評価を行う際に,特別なフィルターを挟み,計算言語評価を試行している.例えば,大学コースの検索では高い言語的スコアをもたらす照会項が多く含まれることが多い.しかし,特定のコースを探している学生でない限り,このコンテンツには本質的な価値はほとんどない.こうした誤評価はさまざま存在するが,経験を通じて,発見し回避することは可能である.

 しかし,深層ウェブと表層ウェブの品質比較では,こうした複雑なフィルターを使わず,計算言語スコアだけを用いた.照会は,種々の領域にわたって5種を発行した.計算言語スコアだけを用いても,深層ウェブと表層ウェブの結果を比較する上で系統的な偏りを生むことはない.両者に同じ基準が適用されるからである.この評価の値自体は予備的なものであり「品質」を過大評価することになるが,表層ウェブと深層ウェブ間にある相対的な違いは保存されるはずである.こうした制約の下で行った評価を表7に示す.

照会分野 表層ウェブ 深層ウェブ
合計 「品質」の高いもの 結果 合計 「品質」の高いもの 結果
農業 400 20 5.0% 300 42 14.0%
医学 500 23 4.6% 400 50 12.5%
財務 350 18 5.1% 600 75 12.5%
科学 700 30 4.3% 700 80 11.4%
法律 260 12 4.6% 320 38 11.9%
合計 2,210 103 4.7% 2,320 285 12.3%

表7 「高品質」な文書の検索 深層ウェブ対表層ウェブ

 上表より,限られた標本に対してではあるが,高品質の結果を得る可能性は,表層ウェブより深層ウェブからの方が平均して3倍程度高いことがわかる.また,検索結果の絶対数から,品質は表層ウェブより深層ウェブの方が格段に高いという確度の高い結論を深層ウェブが導き出す傾向があることを示している.さらに,深層ウェブには,同時検索する深層ウェブサイトを増やせば,それだけ品質の高い検索結果が増え,他の方法では得られない高品質の結果が得られる可能性もある (45).「干し草の山の中から針」を探す必要があるときは,深層ウェブが必須の情報源となると見られる.

深層ウェブの成長は,表層ウェブよりも速い

 時系列分析ができないため,代わりに,深層ウェブと表層ウェブを無作為に100選び,そのドメインの登録日を分析した.その結果を図7に示す.同図には,成長の傾向線も描き入れてある.

[Figure 7]
図7 深層ウェブと表層ウェブの成長率の比較

 成長率の代わりにサイトのドメイン登録日を用いているため,この方法には多くの制約が伴う.第一に,サイトのドメインは「実在」のかなり前に登録されることが多い.第二に,ドメインの登録はルートつまりドメインレベル(例えば,www.mainsite.com)で行われる.一方,検索機能とそのページ――表層ウェブでも深層ウェブでも――は,サイトが公開された後に導入され,whoisの分析では調査できない子ページとして置かれることが多々ある.

 真の成長率を調べる最良の方法は,時系列分析である.BrightPlanetは,将来における成長率推計の改善を目的に,そのための追跡機構を作ることを計画している.

 しかし,この制約の多い方法でも,深層ウェブの成長率の高さを伺うことはできる.実際,中央値で見ても平均値で見ても,深層ウェブのサイトは,表層ウェブのサイトより4〜5ヶ月「若い」(1995年3月対1995年8月).これは,次の事実を考えれば,驚くには当たらない.すなわち,インターネットはレコードと情報を一般公開する際の媒体として好まれるようになり,深層ウェブに相応しい規模のコンテンツを持つ組織(政府機関や大規模研究プロジェクトなど)が,その情報をオンライン化するケースが増えているのである.また,深層ウェブサイトを公開するための技術が普及し,公開に要する時間が短縮している.

従来型検索エンジンの多くは,深層ウェブサイトを捕捉していない

 深層ウェブの定義では検索エンジンを排除したが(「本調査の対象」を参照),表8に示した検索エンジンや,農業分野で言えば@griculture.comAgriSurfjoefarmerなどといった多くの専門検索エンジンは,AltaVista,Fast,Northern Lightなどの汎用検索エンジンが未だに目録化していない固有のコンテンツを提供している.汎用検索エンジン上にはない情報を専門検索エンジンが収載している主たる理由は,汎用検索エンジンの目録化の頻度とサイトごとに目録化する文書に対して課している制約にある (11b)

 専門検索エンジンが実際に独自情報を提供しているかどうかを見るために,検索し定性するこれまでと同様の方法――一対比較によるオーバーラップ分析――による調査を別途試みた.分析の結果を下表に示す.

検索エンジンA 検索エンジンの推定数
検索エンジンA URL数 検索エンジンB URL数 共通 Aのみ 捕捉率 検索エンジンのサイズ
FinderSeeker 2,012 SEG 1,268 233 1,779 0.184 2,012 10,949
FinderSeeker 2,012 Netherlands 1,170 167 1,845 0.143 2,012 14,096
FinderSeeker 2,012 LincOne 783 129 1,883 0.165 2,012 12,212
SearchEngineGuide 1,268 FinderSeeker 2,012 233 1,035 0.116 1,268 10,949
SearchEngineGuide 1,268 Netherlands 1,170 160 1,108 0.137 1,268 9,272
SearchEngineGuide 1,268 LincOne 783 28 1,240 0.036 1,268 35,459
Netherlands 1,170 FinderSeeker 2,012 167 1,003 0.083 1,170 14,096
Netherlands 1,170 SEG 1,268 160 1,010 0.126 1,170 9,272
Netherlands 1,170 LincOne 783 44 1,126 0.056 1,170 20,821
LincOne 783 FinderSeeker 2,012 129 654 0.064 783 12,212
LincOne 783 SEG 1,268 28 755 0.022 783 35,459
LincOne 783 Netherlands 1,170 44 739 0.038 783 20,821

表8 表層ウェブサイト検索エンジンの推定数

 この結果から,ウェブ上には現在およそ20,000〜25,000の検索エンジンがあると推定される(深層ウェブサイトの分析では,こうした検索エンジンサイトは除外している点に注意).オランダLeiden University LibraryのM. Hofstedeによれば,あるサイトには,およそ45,000の検索サイトが掲載されているという (46).従って,現時点における最良の推計では,深層ウェブの公開データベースと検索エンジンは合わせて250,000サイト存在することになる.実際の数がどうあれ,これは,網羅的にウェブを検索したければ深層ウェブサイトだけでなく専門検索エンジンも含めなければならないことを意味する.BrightPlanetのCompletePlanetウェブサイトが,その一覧に専門検索エンジンを含めているのは,このためである.

まとめ

 深層ウェブに関する本調査において最も重要な知見は,ウェブ上には大量の有意なコンテンツが存在するが従来型の検索技術では発見され得ないこと,そして,この重要なコンテンツの存在さえほとんど気づかれていないことである.

深層ウェブに存在するオリジナルコンテンツの量は,世界の印刷媒体のコンテンツを超える

 International Data Corporationの予測では,表層ウェブの文書数は現在(2000年)20億件程度で3年以内に6.5倍の130億件に成長 (47)するが,深層ウェブの成長率はこれを上回り,おそらく,同じ期間に9倍に増加する.図8は,この成長率を,UC Berkeleyの研究による世界の印刷情報の累積コンテンツの傾向と比較したグラフである (48a)

[Figure 8]
図8 オリジナル累積情報コンテンツの10年間の成長傾向(片対数)

 印刷媒体(書籍,雑誌,新聞,広報誌,社内文書)の総量は,390TB程度のまま変わらない (48b).深層ウェブのオリジナル情報は,1998年頃は,それまでの全歴史を通じて制作された印刷コンテンツの総量と同程度であった.しかし,2000年までには印刷媒体を7倍程度上回ると推計されており,これを外挿すると2003年までに63倍程度になるものと思われる.

 その他の指標も深層ウェブがウェブの最速成長分野であることを示しており,深層ウェブの優勢は続くだろう (49).今日でさえ,240以上の大規模図書館が,その図書目録をオンラインで提供しており (50),Bell & Howellの子会社だったUMIは,55億の文書を画像としてオンライン化する計画を立てている (51).また,天文学のデータに関する大掛かりな計画があり,PB級のデータをオンライン化しようとしている (52)

 こうした傾向の原動力は,ディジタル磁気記憶装置の驚異的な成長と低価格化である (48c) (53).International Data Corporationは,1994年の1年間に販売されたディスク装置の容量は10,000TBだったが,1998年には116,000TBに増加し,2002年には1,400,000TBになると予測している (54).2000年にオリジナルコンテンツに使われた磁気記憶装置のおよそ1/338が深層ウェブコンテンツのために使われたと見られ,このまま伸びれば2003年には1/200を占めるまでに増加する.インターネットが出版と情報頒布のための汎用媒体として使われ続けることが見込まれる限り,この傾向が続くことは確実である.

境界領域

 ウェブ上にあるコンテンツを深層と表層に分ける明確な線はない.「深層」コンテンツが表層に現れる場合もあり,逆に,専門検索エンジンに見られるように「表層」コンテンツが深層に現れることもある.

 表層ウェブコンテンツは静的ページとして永続的に存在し,検索エンジンによって探査可能である.一方,深層ウェブコンテンツは,要求に応じて一時的に存在するだけである.しかし,それは,要求された時にURLを付与され,多くの場合,データベースのレコード番号を伴っている.従って,同じ文書を再取得することができるのである.

 ウェブ上の最高クラスの公開データベース10Kwizardで,一例を示そう.10Kwizardでは,SECの企業情報の全文検索が可能である (55).このサイトで「NCAA basketball」について,1999年3月〜2000年3月に収録された年次報告を照会した.検索結果の一つはSportsline USA, Inc.の資料であった.それをクリックすると,その年次報告の中で,照会文字列を含む部分が表示される.他の検索結果をクリックしても,同様である.この照会結果のURLは,次のようになっている.

http://www.10kwizard.com/blurbs.php?repo=tenk&ipage= 1067295&exp=%22ncaa+basketball%22&g=

 このURLについて,2点に注目されたい.まず,URLの中に照会した内容が含まれていること.第二に,「ipage=」が一意的なレコード番号を表していること.この場合は1067295である.このレコード番号によって,10KWizardのデータベースから動的に情報を取得するのである.

 さて,この企業の全貌を明らかにし,その結果を我々のウェブページに掲載したとする.それを見た利用者がこのURLをクリックすれば,同じ情報を得ることができる.ここで重要なのは次の点である.すなわち,このURLを静的ウェブページに掲載すれば,検索エンジンが探査の際にこのページを発見する可能性があり,掲載したURLから,そのコンテンツを目録化できるという点である.

 検索しその結果のURLをアクセスできる状態に置けば,深層ウェブコンテンツを表層に浮かび上がらせることができるのである.静的ウェブページ上にある深層コンテンツは検索エンジンの探査で発見され,目録化され得る.次項で述べるように,この方法で大規模深層ウェブサイトにあるすべてのコンテンツを完全に「洗い出す」ことは不可能であるが,深層ウェブコンテンツが時に表層ウェブの検索エンジンに現れるのは,このような理由によるのである.

 こうした境界領域は,逆に,深層ウェブサイトを通して利用可能な表層ウェブサイトにも及んでいる.例えば,Open Directory Projectは,ボランティアの編集者あるいは「ガイド」が優良な表層ウェブコンテンツを収集分類している (56)

 Open Directoryの体裁はYahoo!と同様である.すなわち,木構造で,各枝にはURLのディレクトリーがある.検索結果は静的ページで,ディスクのディレクトリーのように並んでいる.従って,大手検索エンジンによって容易に目録化され得る.Open Directoryによれば,テーマ別の構造が248,000分類 (57)あり,そのおのおのは静的ページである (58).重要なのは.この248,000ページの一つひとつが大手検索エンジンで目録化できる点である.

 表層ウェブに対して大きな捕捉率を持つ4つの大手検索エンジンでは,URLの検索が可能である.これらのエンジンで,「URL:dmoz.org」(Open DirectoryサイトのURL)という照会を行ってみた.結果を以下に示す.

エンジン OPDのページ数 結果
Open Directory (OPD) 248,706 ---
AltaVista 17,833 7.2%
Fast 12,199 4.9%
Northern Light 11,120 4.5%
Go (Infoseek) 1,970 0.8%

表9 表層ウェブサイトの不完全な目録化

 Open Directoryには250,000程の分野別ページがあるが,大手検索エンジンには,そのわずかな部分しか目録化されていない.従って,検索エンジンの探査アルゴリズムは,縦または横方向に関する何らかの規則に基づいて,サイトの表層ページを目録化していることは明らかである.また,こうした検索エンジンによる検索結果の鮮度にはかなりのばらつきがある.従って,広範な検索が必要な場合,各専門に特化した表層情報源つまり専門検索エンジンを考慮すべきなのである.深層ウェブと表層ウェブ間の境界は,実際には曖昧である.

深層ウェブの完全目録化は不可能

 必要な照会を行うには,公開データベースに対して幾つかの条件を設定して検索を要求する必要がある(おそらくは,日付を絞り込むといったことも必要だろう).データベースは,尋ねなければ何も与えてはくれない.欲しいものを指定しなければならないのである.

 例えば,当社が持つ38,000の深層ウェブサイト候補一覧を考えよう.この一覧の作成には,430,000ほどの異なる項目を用い,総計21,000,000の項目群を利用した.これで公開データベースのコンテンツを表せるとしても,すべてを「洗い出す」,つまりサイトのデータベース内のすべてのレコードを得るためには,430,000回の照会が必要である.我々のデータベースは大規模深層ウェブサイトのデータベースに比較して小さく,例えば言葉の収集として最大級の規模を持つBritish National Corpusには1億以上の異なる単語が含まれているのである (59)

 個々の深層ウェブの公開データベースに対して数十万あるいは数百万回の照会を行うのは現実的ではなく,その作業を数万から数十万もある深層ウェブサイトを対象に繰り返すことなど考えられない.しかも,当然のことではあるが,コンテンツは動的に変化している.従って,その作業を適当な時間間隔で繰り返す必要があるが,これは不可能である.こうした理由から,深層ウェブコンテンツの大部分は表層下に留まり,特定の情報要求でのみ見出されるのである.

二重計上の可能性

 ウェブコンテンツは分散的性格を持っており,一旦公開されると,それは「公共のもの」となって,複製しようと思えばどこにでも可能である.深層ウェブコンテンツのどれ程がオリジナルであり,どれ程が複製だろうか.また,深層ウェブと表層ウェブ間で複製されたコンテンツに違いはあるのだろうか.

 本調査では,こうした疑問に答えることはできなかった.実際,表層ウェブ間でどれ程の複製が行われているのかも,現時点では,まだ知られていないのである.

 深層ウェブとそのデータを扱ってきた経験からは,多数複製されている領域が存在することが示唆される.主なものとしては,人名録/企業名鑑,家系図,SECファイリングのような商業利用の可能性のある公的記録である.実際,企業財務を扱うサイトは,莫大な数に上る.

 一方で,すべてがオリジナルの価値あるコンテンツを持つ深層ウェブサイトの領域も存在する.これらのほとんどは,専門データベース,記事,内部サイト――この3種で深層ウェブサイトのおよそ80%を占める――の類型に属し,その内容は,科学データベース,図書館の収蔵品,PubMedなどの特色ある書誌,衛星画像などの政府系独自データベースなどである.

 複製は,表層ウェブでも蔓延している.多くのサイトには,「ミラーサイト」があり,人気のある文書は頻繁に他のサイトに複製される.書籍,製品一覧,ソフトウェア,報道発表など公共的な情報は,検索エンジンで検索すれば,繰り返し現れる.そして,もちろん,検索エンジン自体が多くのコンテンツを複製しているのである.

 複製可能性は,公開性・市場性・検索容易性の結果であるように思われる.深層ウェブは発見が難しい.ほとんどは公開されているが,他の表層ウェブサイトに複製するのは容易ではない.こうしたことから,深層ウェブでの複製は比較的少ないと思われる.しかし,現時点では,この観察は推測でしかない.

深層ウェブと表層ウェブの品質比較

 品質問題は,本調査を通じて提起してきた.検索の品質は,結果の長さではなく,正しさにある.検索する人は答えを求めているのである.その答えを与えることが常に表層ウェブの問題であったし,適切な技術のない深層ウェブでも問題となろう.

 検索が有効なものであるためには,適切な情報を特定し,それをある種の適合性――品質――で順序づけて提示しなければならない.網羅的な検索――例えば,ある商品に関する全情報――が最重要課題であることもあれば,確実に信頼できる情報――例えば,化合物の完全な記述――が必要なこともある.それぞれの要求で,検索条件は同じだったとしても,必要な答えは異なるのである.こうした要求に対応することはなかなか困難であり,深層ウェブの存在を知れば解は複雑化する.なぜなら,深層ウェブは,どちらの検索であっても有用な情報を含んでいることが多いからである.有用な情報が入手可能なのに検索から除外すれば,どちらの目的であっても,その要求に応えることはできない.

 本調査報告に示した数字から (60),検索結果の実質的な品質と主題を捕捉する能力を見積もった.

検索の方法 総文書数(単位100万件) 高品質の文書数(単位100万件)
表層ウェブ
単一サイト検索 160 7
メタサイト検索 840 38
総数 1,000 45
深層ウェブ
メガ検索 110,000 14,850
総数 550,000 74,250
表層ウェブに対する深層ウェブの割合
対単一サイト検索 688:1 2,063:1
対メタサイト検索 131:1 393:1
深層ウェブ全体の場合 655:1 1,964:1

表10 総合「品質」 深層ウェブ対表層ウェブ

 この数値による比較では,必要な情報を見出す上で深層ウェブサイトが持つ決定的重要性が考慮されていない.しかし,発見率だけを見ても,深層ウェブサイトを検索に含めることによって,発見率は600倍以上も改善される可能性がある.

 表層ウェブサイトには,品質問題が伴う.例えば,1999年の研究では,1998年のウェブサイトの44%は1999年には最早アクセス不能であり,既存サイトの45%は閉鎖同然か無意味か,平凡な内容のものであった (61).NECのLawrenceとGilesによる研究では,単一サイト検索における大手検索エンジンの捕捉率は1998年の32%が1999年の16%に落ちている (7e)

Science Citation Indexなどの審査付き雑誌およびサービスは,その利用者が情報の品質を判断する際に必要となる権威を与えるために発達してきたものである.インターネットは,そのような仕組みを欠いている.

 深層ウェブでは,個々のサイトが独自に権威を確立できる点が興味深い.例えば,『Nature』や『Science』などの査読付き雑誌,あるいは『Wall Street Journal』や『The Economist』など,一般に認められている雑誌の過去記事一覧は,各誌の編集と掲載内容に対する努力によって権威づけられている.こうしたサイトの所有者は,掲載するコンテンツを吟味しているのである.専門的なコンテンツの提供者は,一般に,データベースを基本とするサイトを持っており,それが深層ウェブを形成している.表層ウェブで典型的な静的HTMLページは,専門的コンテンツの提供者はあまり利用しない.

 深層ウェブでは,適切に照会することにより,利用者は権威あるサイトを選択することができる.他方,検索エンジンは,無差別に探査するため,サイトを選んで検索することはできない.品質を測る確たる尺度を作るのは,一般に,困難あるいは不可能だが,公開サイトを注意深く選択することにより,利用者が品質を自ら決定することはできるのである.

結論

 真に情報を求めるのであれば,最早,深層ウェブにある情報の重要性と品質を無視することはできない.しかし,深層ウェブの情報は利用可能な情報の一部でしかなく,検索はウェブ全体に対して行われなければならない.

 適切に照会する技術は,深層ウェブと表層ウェブの情報を統合する唯一つの道である.捕捉率問題を克服するには,適切な深層ウェブサイトの「メガ」検索と表層ウェブ検索エンジンの「メタ」検索を共に行わなければならない.しかし,そのためのクライアントサイドのツールは普及していない.ツールをダウンロードする必要があり,照会の仕方が難しいからである (62).コンテンツを選び,あらかじめ編集しておくことも可能である.しかし,この方法では,情報の要求と必要性のすべてに応えることはできまい.すでに,一部の垂直市場サービスではこうした課題への取り組みが始まっている (63).そのような活動を支援するため,照会内容の設定,検索サイトの指定,フィルターの設定,照会スケジュールの指定を利用者が行える永続的な照会システムが必要となるだろう.

 こうした観察から,インターネットの情報検索市場の分化が示唆される.すなわち,一般的な検索要求に応えて表層ウェブから人手で選択した情報を提供する検索ディレクトリー,より広範な表層を検索するための検索エンジン,網羅性と品質を絶対条件とする検索のためにサーバーサイドで深層ウェブコンテンツを集約する垂直「情報拠点」である.

マイケル・K・バーグマンの連絡先:mkb at bright planet dot com


*1. 本調査のデータは,2000年3月13日〜30日に収集したものである.本調査報告書は,2000年7月26日に,BrightPlanetのウェブサイトに初めて掲載された(http://www.completeplanet.com/Tutorials/DeepWeb/index.aspを参照).その後,2000年10月23日に,参考資料とウェブに関する統計の一部を最新のものに差し替えた.さらに,2001年2月22日にも若干追補した.

*2. インターネットのプロトコルに関する格好の入門書として,次のウェブページを挙げておく.http://wdvl.com/Internet/Protocols/http://www.webopedia.com/Internet_and_Online_Services/Internet/Internet_Protocols/

*3. GVU(graphics, visualization and usability)の「WWW User Survey」第10版,1999年5月14日.http://www.gvu.gatech.edu/user_surveys/survey-1998-10/tenthreport.htmlを参照.

*4. SearchEngineWatchによる報告書「4th Q NPD Search and Portal Site Study」(http://searchenginewatch.com/reports/npd.html).NPDのウェブサイトは,http://www.npd.com/

*5a, 5b, 5c, 5d, 5e, 5f. 「Sizing the Internet」,Cyveillance,http://www.cyveillance.com/web/us/downloads/Sizing_the_Internet.pdf

*6a, 6b, 6c. S. Lawrence,C.L. Giles,「Searching the World Wide Web」,Science 80:98-100,1998年4月3日.

*7a, 7b, 7c, 7d, 7e. S. Lawrence,C.L. Giles,「Accessibility of Information on the Web」,Nature 400:107-109,1999年7月8日.

*8. http://www.google.comを参照.

*9. http://www.alltheweb.comの扉に数字が掲載されている.

*10. Northern Lightでは,「NOT 無意味なキーワード」という検索が可能.この照会を実行することで,保管されている実際の文書数を知ることができる.http://www.northernlight.comを参照.本調査報告では,同検索サイトにある「Special Collections」一覧は除外している.

*11a, 11b. 検索エンジンが提示する検索結果の鮮度については,Danny SullivanのサイトSearch Engine Watch(http://www.searchenginewatch.com)に詳しい.

*12. http://www.wiley.com/compbooks/sonnenreich/history.htmlを参照.

*13. 本調査では,1994年半ばの時点で,ウェブ上には100万文書が存在していたと推定している.

*14. http://www.tcp.ca/Jan96/BusandMark.htmlを参照.

*15. G Notess,「Searching the Hidden Internet」,Database,1997年6月(http://www.onlineinc.com/database/JunDB97/nets6.html)などを参照.

*16a, 16b. BrightPlanetは数百万の文書を扱ってきたが,その経験ではHTMLなどのコードの平均は43.5%である.尺度は異なるが,NECの研究では,HTMLなどのコードは,ホワイトスペースを除いてページに含まれるコンテンツの61%を占める(注7を参照).どちらの評価でも,画像および所謂HTMLヘッダーは含まれていない.

*17. AltaVistaとFastとNorthern Lightが目録化している文書数を7億,平均文書サイズを18.7KB(注7を参照)とし,大手検索エンジンの持つ全情報を統合したときこれら3つの検索エンジンで50%を占めるとしたときの大まかな推計値.この推計には「HTMLコードも含」まれている.

*18. この種のデータベースは,また,情報を圧縮して保管していることが多い.従って,深層ウェブの実際のディスク容量は,本調査報告で示した数字の30%ほどになるだろう.

*19. EBIR(Extended Boolean Information Retrieval)はブーリアン照会処理とベクター空間モデルとを統合したもので,ブーリアンのANDとORからの数学的距離に基づいてランクを付ける.これにより,ほとんどの照会に対してブーリアン技術だけを使う場合より検索結果が向上することが明らかになっている.

*20. この値は,ほとんどの検索エンジンが報告するページサイズと符合する.また,ブラウザーの機能を利用してHTML文書をディスクに保存したときのファイルサイズとも符合する.1999年のNECの論文は,HTMLタグ情報とホワイトスペースを除いたウェブ文書の平均サイズも調べており,7.3KBと報告している.本調査では,そのような「真の」文書サイズを正確に調べる代わりに,HTMLコードを含めることとした.これは,検索エンジン自体の報告するサイズやブラウザーの機能を利用して保存した文書のサイズ,さらには筆者らの技術と整合するからである.

*21. Inktomi Corp.,「Web Surpasses One Billion Documents」,報道発表,2000年1月18日.http://www.inktomi.com/new/press/2000/billion.htmlおよびhttp://www.inktomi.com/webmap/を参照.

*22. 農業関連のデータベースの場合の例を挙げる.まず,そのデータベースに対して「agriculture」で照会する.次に,同じ照会をNorthern Lightに対しても行い,さらに,「agriculture」という語を含まない網羅的な照会(「(crops OR livestock OR farm OR corn OR rice OR wheat OR vegetables OR fruit OR cattle OR pigs OR poultry OR sheep OR horses) AND NOT agriculture」など)を行う.この両者の結果を比較することによって,経験的捕捉率係数を求める.

*23. URLの収集に利用したサイトは,以下の通り.

*24. K. Bharat,A. Broder,「A Technique for Measuring the Relative Size and Overlap of Public Web Search Engines」,Seventh International World Wide Web Conference(オーストラリア,ブリスベン),1998年4月14〜18日.http://www7.scu.edu.au/programme/fullpapers/1937/com1937.htmに全文がある.

*25a, 25b. 標本数の計算は,http://www.surveysystem.com/sscalc.htmなどを参照.

*26. http://cgi.netscape.com/cgi-bin/rlcgi.cgi?URL=www.mainsite.com./dev-scripts/dpdを参照.

*27. 注40を参照.Alexaが追跡しているサイトの人気ランキングの対数と既知の閲覧回数は,成長関数に従う.この関数によって,所与のURLに対するAlexaのランキングに基づいて月間閲覧回数を推計した.

*28. BetterWhois(http://betterwhois.com)などを参照.

*29. 表層ウェブのドメインは,Northern Lightに無意味な照会を行って得た.まず,「the AND NOT ddsalsrasve」を照会し,得られた1,000のURLを無作為に並べ直した.無作為化は,照会結果の順序にはNorthern Lightのランキングが織り込まれており,これを(部分的に)排除するためである.

*30. この3つの検索エンジンを選んだのは,大規模であることとブーリアンの照会に完全対応しているためである.

*31. 「農業」分野のための照会例.「agricultur* AND (swine OR pig) AND 'artificial insemination' AND genetics」

*32. BrightPlanet技術の設定は次の通り.最大ウェブページサイズ1MB,最小ウェブページサイズ1KB,日付フィルターなし,サイトフィルターなし,スレッド数10, 最大再試行回数3,ウェブページ最大取得時間60秒,最大ダウンロード時間180秒,検索エンジン当たりのページ数200.

*33. ベクター空間モデルVSMは,文書と照会を語の集合として表し,その間の類似性を計算する統計モデルである.評点は,線型代数の積和計算である.詳細は,次の解説を参照.Salton,Gerard,『Automatic Information Organization and Retrieval』,McGraw-Hill(米国ニューヨーク州ニューヨーク),1968年.Salton,Gerard,『Automatic Text Processing』,Addison-Wesley(米国マサチューセッツ州レディング),1989年.

*34. EBIR(Extended Boolean Information Retrieval)は,一般距離関数を用いて,重み付きブーリアン照会と重み付き文書ベクター間の類似性を決定する.詳細は,次の解説を参照.Salton,Gerard,Fox,Edward A.,Wu,Harry,「(Cornell Technical Report TR82-511) Extended Boolean Information Retrieval」,コーネル大学,1982年8月.本調査報告では,最小用語オカレンスや用語頻度などを含むように拡張したものを用いている(我々は,これをmEBIRと呼んでいる).

*35. http://www.invisibleweb.comにあるヘルプとFAQのページを参照

*36. K. Wiseman,「The Invisible Web for Educators」.http://www3.dist214.k12.il.us/invisible/article/invisiblearticle.htmlを参照.

*37. C. Sherman,「The Invisible Web」.http://websearch.about.com/library/weekly/aa061199.htm

*38. I. Zachery,「Beyond Search Engines」,Computers in Libraries 2000 Conference(米国ワシントンD.C.),2000年15日〜17日.http://www.pgcollege.org/library/zac/beyond/index.htmを参照.

*39. 本調査報告の初版(2000年7月26日)では,深層ウェブ検索サイトの総数を100,000と推計していた.しかし,その後の顧客プロジェクトにおける情報から,この推計を200,000サイトに改訂した.この数字もオーバーラップ分析によるものである.本調査報告でもこの数字を採用したが,深層ウェブサイトの規模は,従前のままとした.実際,外国語の深層ウェブサイトに関する最近の研究から,200,000サイトという推計自体が低すぎることが強く示唆されているのである.

*40. Alexa Corp.,「Internet Trends Report 4Q 99」.

*41. B.A. Huberman,L.A. Adamic,「Evolutionary Dynamics of the World Wide Web」,1999年.http://www.parc.xerox.com/istl/groups/iea/www/growth.htmlを参照.

*42. Northern Lightは,ウェブ文書のみを対象としている.そこで,このサイトに含まれる深層ウェブサイト数は,照会「search OR database」を行い,各ウェブ検索エンジン上のCustom Folderとディレクトリーを取り出し,ここに示した27,195という数字を得た.まず,最初の100件について人手により確認した結果,真の公開データベースは3つだけであった.その次の100件では,これが7つに増えた.これらのサイトの多くは,標準検索エンジンあるいはウェブプロモーションサービスであった.しかし,確認を続けていけば,実際の検索サイトが次第に増えていくだろうと考えられる.また,上記の照会の制約によって多くの潜在的な深層ウェブ検索サイトを排除したとも考えられる.残念なことだが,こうした推測の妥当性を検証することも,それが確度に与える効果を定量することも,合理的な努力の範囲内で行う経験的な方法はない.

*43. 1024バイト(B)=1キロバイト(KB),1000KB=1メガバイト(MB),1000MB=1ギガバイト(GB),1000GB=1テラバイト(TB),1000TB=1ペタバイト(PB).つまり,1PB=1,024,000,000,000,000バイト.およそ,1015

*44a, 44b. 2000年7月26日に公開した最初の調査報告書では,表層ウェブ数を10億,深層ウェブにある公開データベース数を約10万と推計していた.その後に入手した新しい情報から,深層ウェブにある公開データベースの総数は200,000であると思われる.表層ウェブにある文書数も現在20億文書のオーダーにまで増えているが,ウェブ文書における表層ウェブの占める割合(深層ウェブの方が400〜550倍多い)は,ほぼ維持されている.こうしたことから,深層ウェブにある総データ量は,本文で示した推計値を超え,15PBに倍増していると思われる.

*45. この調査報告では,この言明を経験的にテストすることはしなかった.しかし,論理的には,すべての表層検索エンジンは,詰まるところ,同じコンテンツを目録化している.すなわち,目録化可能な公開ウェブを対象としている.深層ウェブサイトは,それぞれの対象領域と制作者の意図を反映している.

*46. M. Hofstedeの2000年8月3日付け私信.http://www.alba36.com/を参照しての発言.

*47. 2000年3月23日に,Sequoia SoftwareがSECに提出したIPO書類.http://www.10kwizard.com/filing.php?repo=tenk& ipage=1117423&doc=1&total=266&back=2&g=を参照.

*48a, 48b, 48c. P. Lyman,H.R. Varian,「How Much Information」,カリフォルニア大学バークレー校Information Management and Systems学部,2000年10月18日.http://www.sims.berkeley.edu/research/projects/how-much-info/index.htmlを参照.この比較は,保管可能かつ検索可能な公開情報に限られており,チャットや電子メールなどの娯楽および通信文は含まれていない.

*49. 本分析ですでに示したように,数字上は,深層ウェブはすでに優勢である.しかし,一般利用者には,まだ知られていない.

*50. http://lcweb.loc.gov/z3950/を参照.

*51. http://www.infotoday.com/newsbreaks/nb0713-3.htmを参照.

*52. A. Hall,「Drowning in Data」,Scientific American,1999年10月.http://www.sciam.com/explorations/1999/100499data/を参照.

*53. 2000年3月23日に,Sequoia SoftwareがSECに提出したIPO書類.http://www.10kwizard.com/filing.php?repo=tenk& ipage=1117423&doc=1&total=266&back=2&g=を参照.

*54. 1999年9月1日にAdvanced Digital Information Corp.がSECに提出した書類.http://www.tenkwizard.com/fil_blurb.asp?iacc=991114& exp=terabytes%20and%20online&g=を参照.

*55. http://www.10kwizard.com/を参照.

*56. Open Directoryは,LycosとNetscapeでよく知られているように,多くのサイトにライセンスを与えているが,その一方で,自サイトhttp://dmoz.orgも運営している.検索エンジンで目録化可能な静的ページに対するノード参照の一例として,http://dmoz.org/Business/E-Commerce/Strategy/New_Business_Models/E-Markets_for_Businesses/を挙げておく.いわゆる検索ディレクトリーが多く持つ特徴の一つは,その結果を静的なページ構造で提供している点である.しかし,中には,動的に作成するところもあり,LookSmartがよく知られている.

*57. Open Directory Projectによれば,2001年2月22日現在345,000以上に分類しているという.

*58. 前注を参照.この分類数は巨大に見えるが,実際には,そうでもない.なぜなら,テーマのノード番号は,幾何級数的に増えるからである.例えば,前注で挙げたURLを見れば,5レベルのツリーになっているのがわかる.1 - Business; 2 - E-commerce; 3 - Strategy; 4 - New Business Models; 5 - E-markets for Businessesである.Open Projectは,最上位に15のノードを設定しており,第二レベルには平均30のノードがある.以下同様.こうしたテーマのツリーのすべてが,完全に揃っている,あるいは「繁って」いるとは限らないが,一方で,コンテンツが多すぎてさらに深く分岐している枝もある.しかし,ノードごとにテーマを分けていくこの単純な方法を辿ってみれば,テーマの分類――そして,それに付随する現在の結果を表示するための静的ページ――が急速に増大する様がわかる.レベルが5つあり,各レベルには平均値のノードがあるとすれば,Open Directoryには,((15×30×15×12×3)+15+30+15+12)=243,072のノードがあることになる.これは,このサイト自体が公表している248,000ノードに近い.

*59. http://info.ox.ac.uk/bnc/を参照.

*60. 仮定は,次の通り.表層ウェブについては,単一サイト検索――16%の捕捉率,表層検索サイトのメタ検索――84%の捕捉率(注4のNECの推計より高め.BrightPlanetが行った特定テーマに関する検索による経験的数字),全表層検索からの高品質な結果は4.5%とした.深層ウェブについては,CompletePlanet開始時点の潜在的深層ウェブサイト捕捉率は20%,潜在深層ウェブサイトは200,000,全深層ウェブ検索からの高品質な結果は13.5%とした.

*61. Online Computer Library Center, Inc.,「June 1999 Web Statistics」,Web Characterization Project,OCLC,1999年7月.http://wcp.oclc.org/の統計欄を参照.

*62. ほとんどの調査は,利用者の多くがブーリアン構成の照会に慣れていないか不満を持っていることを示している.また,ほとんどの研究では,利用者は照会当たり平均1.5個のキーワードを指定している.専門の情報科学者でさえ,キーワード数は検索当たり2〜3個にすぎない.詳細は,http://www.completeplanet.com/searchresources/tutorial.htmにあるBrightPlanetの検索入門を参照.

*63. 多数の事例の中から,http://www.citeline.com/pro_info.htmlにあるCareData.comを挙げておく.

* * *

 この文書中の情報の一部は,予備的なものである.BrightPlanetは,よりよい情報と文書を入手した場合,改版する予定である.深層ウェブの関係者には,より正確な情報と統計をお寄せいただきたい.

© Copyright BrightPlanet Corporation. 本調査報告の内容は,BrightPlanet Corporationに属する.私的使用の場合は,複製および配布を許容する.

マイケル・K・バーグマンの連絡先:mkb at bright planet dot com