دستهبندی صفحات وب
گروه کامپیوتر
چکیده
دستهبندی صفحات وب در بسیاری از وظیفههای مدیریتی در وب نقش ضروریای دارد. طبیعت غبرقابل کنترل محتوای وب چالشهای جدیدی را برای این دسته بندی ایجاد می کند اما طبیعت متصل صفحات وب و همچنین حالت نیمه ساختیافته آنها قابلیتهایی را فراهم می کند که به کمک این دستهبندی میآید. امروزه توسعه زیادی در زمینه دستهبندی هوشمند صفحات صورت گرفته است بطوریکه بسیاری از محققین تمرکز خود را بر روی این قصیه قرار داده اند. در این مقاله ما رویکردهای دستهبندی صفحات وب را بررسی میکنیم تا چشم انداز های جدیدی را برای تحقیات بیابیم. همچنین در ابتدا برخی از کاربردهای دستهبندی صفحات وب را بیان خواهیم نمود. همچنین خصوصیتها و الگوریتمهایی را که برای دستهبندی مفید هستند توضیح خواهیم داد.
کلمات کلیدی
دستهبندی صفحات وب، دستهکننده، درخت تصمیمگیری، دستهکننده بیزی، ماشین بردار پشتیبان، خصوصیات درون صفحه، خصوصیات مجاورین، انتخاب قابلیت
1- مقدمه
دستهبندی در بسیاری از وظایف مدیریت وبازیابی اطلاعات یک نقش حیاتی ایفا می کند. در وب دستهبندی محتوی صفحات وب برای تمرکز خزیدن[1]، کمک به توسعه راهنماهای وب[2]، تحلیل بر اساس موضوع[3] لینکهای وب و برای تحلیل ساختار موضوعی وب ضروری است. دستهبندی صفحات وب همچنین می تواند به بهبود شرایط جستجوی وب نیز کمک نماید[1].
دستهبندی صفحات وب که به گروه بندی صفحات وب نیز معروف است عبارتست از فرایند نسبت دادن یک صفحه وب به یک یا چند گروه از پیش تعیین شده. دستهبندی اغلب بعنوان یک مسئله یادگیری مطرح می شود که در آن از یکسری داده های برچسب گذاری شده برای آموزش و تمرین دستهکننده استفاده می شود تا بر اساس آن دستهکننده بتواند داده ها را برچسب گذاری کند.
2- کاربردهای دستهبندی صفحات وب
2-1- ایجاد ، پشتیبانی یا توسعه راهنماهای وب
برخی از سایتها مانند Yahoo! و dmoz ODP یکسری راهنمای وب دارند که بر اساس آن می توان یکسری جستجو در گروههای از پیش تعیین شده انجام داد که در حال حاضر این راهنماها توسط انسان ایجاد می شوند. در جولای 2006 در dmoz ODP، 73354 ادیتور راهنما وجود داشت. با گسترش روزافزون صفحات وب دیدگاه سنتی به این قضیه دیگر نمی تواند موثر باشد . اما با استفاده از دستهبندی صفحات وب می توان این راهنماها را براحتی ایجاد کرد و توسعه داد[1].
2-2- بهبود کیفیت نتایج جستجو
گنگ بودن پرس و جوها[1] یکی از مشکلات اساسی برای نتایج جستجو می باشد. بعنوان مثال کلمه bank هم به معنی ساحل و هم به معنی بانک است. رویکردهای مختلفی برای بازیابی اطلاعات در اینگونه موارد مطرح گردیده است. Chekuri و گروهش دستهبندی اتوماتیک صفحات وب به منظور افزایش دقت جستجو در وب را مورد مطالعه قرار دادند. به یک دستهکننده آماری با استفاده از یکسری صفحات موجود آموزش داده شد، سپس این دستهکننده بر روی یکسری صفحات جدید بکار گرفته شد که یک لیست مرتب از گروهها را ایجاد کرد که صفحات وب می توانند در آن قرار گیرند. در زمان پرس و جو[2] از کاربر خواسته می شود تا یک یا چند گروه را انتخاب نماید بطوریکه فقط اطلاعات مربوط به آن گروهها برگردانده می شوند یا اینکه موتور جستجو فقط یک لیست از گروههایی را نشان می دهد که اطلاعات مورد نظر در آنها وجود دارد. اما این رویکرد فقط زمانی ثمربخش است که کاربر به دنبال یک چیز معلوم و مشخص بگردد.
فایل پاورپوینت 29 اسلاید
دانلود پاورپوینت طراحی صفحات وب