***2
مقدمه
ظهور وب جهانی (WWW) کاربران کامپیوتر خانگی را با جریانی وحشتناک از اطلاعات مواجه کرده است.
تقریباً هر موضوعی می تواند بیاد آورده شود , یکی می تواند تکه های اطلاعات را که توسط دیگر شهروندان اینترنت قابل دسترس می شوند را پیدا کند, تنظیم کردن کاربران شخصی که لیستی از مجموعه رکورد هایشان را , برای شرکت های خاص که در وب تجارت می کنند می فرستند
***3
مقدمه
کاربران وب به کمک عامل های نرم افزاری مصنوعی توانایی حریف شدن با فراوانی اطلاعات قابل دسترس را دارند.
عامل ها :
پیدا کردن
مرتب کردن
فیلتر کردن اطلاعات قابل دسترس
***4
کنکاو وب
کنکاو محتوی وب
کاربردی از تکنیک های کنکاو داده برای متن بی ساخت یا نیمه ساخت یافته , به طور نمونه مستندات HTML
کنکاو ساختار وب
استفاده ساختار ابر پیوند وب همانند یک منبع اطلاعات (اضافی)
کنکاو استفاده وب
تحلیل تقابل کاربر با یک سرور وب
***5
خواص گراف وب
وب ممکن است به عنوان یک گراف ( مستقیم) با مستندات به عنوان گره ها و ابرپیوند ها به عنوان لبه ها مشاهده شوند
درجه های وارده ( تعداد پیوندهای ورودی ) و درجه های خارجه ( تعداد پیوند های خروجی ) از پخش قانون قدرت پیروی می کنند .
مقدار 2.45 =inγ : درجه های وارده
مقدار= 2.1 outγ : درجه های خارجه
***6
خواص گراف وب
داده ها را از جستجو در آلتاویستا ( سایت جستجو) با 2003 میلیون URL و 1466 میلیون لینک , و ساختار گراف زیرین را در یک سرور اتصال ذخیره کردند , که یک مستند کارامد تکنیک ایندکس گذاری را پیاده سازی می کند
اجازه دسترسی سریع به ابر پیوند صادر شونده و هم وارد شونده یک صفحه را می دهد.
گراف داخلی GB 9.5 از حافظه را پر کرد , و یک جستجوی سطح اول که به 100 میلیون گره رسید در حدود 4 دقیقه طول کشید.
***7
خواص گراف وب
نتیجه اصلی شان یک تحلیل از ساختار گراف وب است که بر طبق آن ها , بند قوس بزرگ , با یک قطعه هسته وصل شده قوی (SCC) 56 میلیون صفحه در وسط , و دو قطعه با 44 میلیون صفحه در تمام کنارها, یکی شامل صفحاتی است که SCC می تواند برسد ( بخش داخلی )
دیگری شامل صفحاتی است که از SCC می تواند برسد( بخش خارجی
لوله هایی وجود دارد که رسیدن به بخش خارجی از بخش داخلی بدون پاس کردن از طریق SCC را اجازه می دهد , و پیچک های بسیاری , که به خارج از مجموعه داخلی یا داخل مجموعه خارجی بدون ارتباط با اجزاهای دیگر هدایت می کند.