ارزیابی پیوندپذیری یک مجموعه داده پیوندی براساس سنجه های گراف RDF
عنوان لاتین
Interlinking Assessment of a Linked Dataset Based on RDF Graph Metrics
نویسنده
یاقوتی خراسانی، نجمه - Yaghouti, Najme
استاد راهنما
کاهانی، محسن
استاد مشاور
بهکمال، بهشید
مقطع تحصیلی
کارشناسی ارشد
سال دفاع از پایان نامه
۱۳۹۴
رشته
مهندسی کامپیوتر - نرم افزار
توصیفگر
داده ها
توصیفگر
سنجه ها
توصیفگر
گراف
توصیفگر
یادگیری
توصیفگر
داده های پیوندی
چکیده فارسی
در سال های اخیر، ساختار وب از فضایی که در آن تنها اسناد با یک دیگر پیوند دارند، تبدیل به فضایی شده است که هم اسناد و هم داده ها با یک دیگر پیوند دارند. در جهت پشتیبانی از این تکامل مجموعه ای از همکاری ها صورت گرفته تا داده های ساخت یافته را بر روی وب منتشر کرده و آن ها را به یک دیگر متصل کند. این مفهوم تحت عنوان داده های پیوندی شناخته می شود. به طور ساده داده های پیوندی به معنای استفاده از وب، به منظور ایجاد پیوندهای دارای نوع، میان داده های منابع مختلف می باشد. این داده ها تنها زمانی برای کاربران مفید هستند که از کیفیت مناسب برخوردار باشند. در حوزه داده های پیوندی کیفیت ساختاری چند بعدی است که وابسته به عوامل گوناگونی می باشد. یکی از ابعاد کیفی مؤثر در این حوزه پیوندپذیری می باشد. این بعد بر روی این مسأله تمرکز دارد که مفید بودن داده های پیوندی، به وجود پیوند میان مفاهیم مرتبط، بستگی دارد.
پیوندپذیری از دو دیدگاه اتصال داخلی و خارجی قابل بررسی است. در این تحقیق تعریف پیوندپذیری توسعه یافته و مفهومی با عنوان قابلیت پیوندزنی به آن اضافه شده است. قابلیت پیوندزنی به معنای پنانسیل یک مجموعه داده برای دریافت پیوند از سایر مجموعه داده ها می باشد. سپس یک رویکرد مبتنی بر سنجه برای ارزیابی پیوندپذیری یک مجموعه داده، به صورت مستقل از سایر مجموعه داده ها ارائه شده است. به منظور تعریف سنجه ها از رویکرد سلسله مراتبی هدف- پرسش- سنجه استفاده شده است. سنجه های پیشنهادی در دو دسته مبتنی بر ساختار گراف و مبتنی بر اطلاعات معنایی طبقه بندی می شوند. سپس با بهره گیری از نظر افراد خبره سنجه های مؤثر شناسایی شده و در انتها با بهره گیری از تکنیک های یادگیری ماشین، مدلی برای ارزیابی مستقل پیوندپذیری یک گراف داده ارائه شده است.
چکیده لاتین
In recent years the web has evolved from a global information space of linked documents to one where both documents and data are linked. What supports this evolution is a set of best practices in publishing and connecting structured data on the web that is called linked data. In simple words, linked data is about using web to create typed links between different datasources. These data are useful if and only if they have good quality. In linked data domain, quality is a multidimensional structure which is dependent to different factors. One of these quality dimensions is interlinking. Interlinking focuses on the fact that the usefulness of linked data relies on how much related concepts are linked together.
Interlinking can be defined from two perspectives, internal linking and external linking. In this research we extend the definition of interlinking with a new concept, link-ability. Link-ability is the potential of a dataset to be linked from other datasets. Then we propose a metric-driven approach for interlinking assessment of a single dataset. The metric definition process is based on GQM approach. Proposed metrics categorized in two groups: Graph-based metrics and Semantic metrics. After that we use experts' opinion for extracting effective metrics. Finally we propose a model for interlinking assessment of a single dataset, based on machine learning techniques.