リンク情報によるWebページ間の類似度推定

栗原 聡, 廣津 登志夫, 高田 敏弘, 明石 修, 菅原 俊治
NTT未来ねっと研究所
kurihara@t.onlab.ntt.co.jp

Abstract

現在,リンク情報を手掛かりとして2つのWebページ間の類似度を求め,これを 基に互いにミラーの関係にあるサイト,もしくはあるサイトの代用となり得る サイトを検出するシステムのプロトタイプと,その有効性の検証作業を行って いる.そして,検出元サイトとの類似度が100%近いサイトに加えて,50%以 下という関連性の低いサイトの中にも検出元サイトの代用として利用可能なも のが存在することが分かっている.これまでの実験では,検出を試みた全サイ トの約10数%において,ミラーもしくはミラーの代用として利用し得るサイト を発見できており,本システムを膨大なアクセスログが得られる proxyサーバ などで運用することで,ミラー情報を効果的に収集でき,アクセスの負荷分散 によるネットワークの有効利用に活用できることが期待できる.しかし,現段 階では検出されたサイトがミラーもしくはミラーとして実際に代用可能である かは人手で確認しており,本システムを運用するためには,この部分の自動化 が必要不可欠である.そこで,本論ではある一定レベルの類似度が検出された サイトが実際に代用可能であるかを判定する手法の提案とその有効性の検証を 行った.

Valid XHTML 1.0!