رتبهبندی مجموعه دادهها در موتورهای جستجوی معنایی برای تشخیص هرز داده
نویسنده
دهقانزاده، سهیلا
استاد راهنما
کاهانی، محسن
مقطع تحصیلی
کارشناسیارشد
سال دفاع از پایان نامه
۱۳۹۰
رشته
کامپیوتر- نرمافزار
توصیفگر
موتورهای جستجو
توصیفگر
وب معنایی
توصیفگر
رتبه بندی
توصیفگر
هرز محتوا
توصیفگر
داده ها
توصیفگر
ارتباطات گروهی
چکیده فارسی
با ظهور وب معنایی و همهگیر شدن آن، ضرورت درک اطلاعات وب توسط ماشین بر هیچ کس پوشیده نیست. انتظار انسان از چگونگی نتایج یک موتور جستجو با انتظار عامل نرمافزاری از چگونگی نتایج فرق میکند. آنچه مسلم است، وب کنونی (وب ا سناد) برای ماشین قابل فهم نبوده و صفحات وب فقط توسط انسانها قابل پردازش بودهاست. پروژه عظیم دادههای پیوندی، حجم زیادی از دادههای RDF ،که توسط ماشین و انسان قابل فهم است، را روی وب در دسترس قرار داده است. برای استفاده از این حجم انبوه دادهها باید بتوان آنها را جستجو کرد. بنابراین، نسل دوم برنامههای وب معنایی(وبدادهها)، به نقاط دسترسی کارا به وب معنایی نیاز دارند که ماهیت معنایی این دانش را نیز لحاظ کند. به بیان دیگر از آنجا که موتورهای جستجو دروازه ورود به وب هستند و انسان و ماشین هم باید بتوانند روی این مدل داده جدید (RDF) جستجو انجام دهند، ضرورت یک موتور جستجوی معنایی برای انسان و یک موتور پرسش معنایی برای ماشین کاملا احساس میشود. با ظهور موفقیت آمیز "وبدادهها"، سوء استفادههای شخصی برای کسب سود و منفعت بیشتر در قالب هرز داده، در وب دادهها رو به افزایش است. از آنجا که الگوریتم رتبهبندی یک موتور جستجو، تا حد زیادی وظیفه مقابله با این نوع تهدیدها را بر عهده دارد، این پایان نامه با بررسی الگوریتمهای رتبهبندی "وب اسناد" و تطبیق آن برای وب دادهها، بدنبال پیشگیری از ظهور هرز داده در نتایج موتورهای جستجوی معنایی است. ابتدا با ایجاد انواع مختلف هرز داده و مشاهده نتایج رتبهبندی الگوریتم مشهور DING که در موتور جستجوی معنایی Sindice بکار رفته است و الگوریتم رتبهبندی بر اساس ماتریس صلاحیت نامگذاری که در موتور جستجوی معنایی SWSE بکار رفته است، نقاط ضعف این الگوریتمها در مقابل ارتباطات گروهی نشان دادهشده است. الگوریتم پیشنهادی برای رتبهبندی مجموعه دادهها، با کشف ارتباطات گروهی و جریمه این نوع هرز داده، با یک روش جدید ارتباطات را وزندار میکند و با اعمال رتبهبندی وزندار، اعضای ارتباط گروهی را در قعر نتایج رتبهبندی قرار میدهد. از آنجا که برای بکارگیری تمام مفاهیم پنهان یک چهارگانه برای رتبهبندی دامنهها، باید هر دو روش بکار رفته در صلاحیت نامگذاری و DING توأما بکار گرفته شوند، روش ارائه شده در این پایاننامه ترکیبی از دو روش موجود، همراه با تکنیکهای کشف ارتباطهای گروهی است. نوآوری اصلی این پایان نامه، ارائه یک روش رتبهبندی جدید است که توسط ارتباطات گروهی گمراه نشود و تمام مفاهیم ضمنی چهارگانه را بهکارگیرد. برای ارزیابی روش پیشنهادی مجموعهداده داروها از ابر دادههای پیوندی جمعآوری شده است. چهار نوع هرز داده ایجاد شده در چهار تست به مجموعهداده تزریق شدهاند و نتایج هر مرحله نشان دهنده اینست که روش پیشنهادی در کشف انواع هرز داده موفقیت آمیز بودهاست.