分散型WWW ロボットの予備評価と高速化の検討

山名早人+, 森英雄*, 田村健人++, 河野浩之*, 村岡洋一+
+早稲田大学 理工学部 情報学科
*京都大学 大学院 情報学研究科
++日本アイ・ビー・エム株式会社 東京基礎研究所
yamana@acm.org

Abstract

広域に分散したWWW サーバのデータの高速収集するための一手法として, WWW ロボットと呼ばれるWWW サーバのデータを自動的に収集するプログラ ムをインターネット上に複数配置し協調動作させる「分散型WWW ロボット」に ついて研究開発を実施している.1998 年度末までに,5 ヶ所に分散したロボ ットを用いた評価を行いその有効性を確認した.本論文では,実用性を評価 するために実験規模を拡大し,17 ヶ所に分散配置された分散型WWW ロボッ トを使い6,500のWWW サーバ(465 万URL )を対象として行った結果を示す. この結果,一カ所で集中して収集する場合に比較し,負荷均一化による分散 により,6.3 〜286 倍の高速化が可能であることがわかった.特に,17 台の 分散型ロボットと6,500 台のWWW サーバ間のデータ転送速度の間には,同 一のWWW サーバを対象とした場合でも平均67.5 倍の速度差があり,さらな る高速化のためには、データ転送速度を考慮した分散が重要になることが判 明した.

Valid XHTML 1.0!