ارائه رویکردی مبتنی بر سنجه برای ارزیابی کیفیت مجموعه داده های پیوندی پیش از انتشار
نویسنده
بهکمال، بهشید
استاد راهنما
کاهانی، محسن
استاد مشاور
مقطع تحصیلی
دکتری
سال دفاع از پایان نامه
۱۳۹۳
رشته
کامپیوتر - نرم افزار
توصیفگر
ارزیابی
توصیفگر
کیفیت
توصیفگر
داده های پیوندی
توصیفگر
وب معنایی
توصیفگر
هستان شناسی ها
چکیده فارسی
هدف اصلی دادههای پیوندی، تحقق وب معنایی و استخراج دانش از طریق پیوند دادن دادههای موجود روی وب میباشد. یکی از موانع دستیابی به این هدف، وجود مشکلات و خطاها در دادههای منتشر شده است که باعث ایجاد پیوندهای نادرست و درنتیجه استنتاجهای نامعتبر میگردد. مطالعه کارهای انجام شده در این حوزه نشان میدهد که بیشتر محققان بر ارزیابی کیفیت داده پس از انتشار تمرکز داشته و ارزیابی دادهها پیش از انتشار را برعهده مالک یا منتشرکننده داده گذاشتهاند. با توجه به اینکه کیفیت دادهها تأثیر مستقیم بر موفقیت پروژه دادههای پیوندی و تحقق وب معنایی دارد، بهتر است تا کیفیت هریک از مجموعههای داده در مراحل اولیه انتشار و قبل از اضافه شدن به ابر دادههای پیوندی ارزیابی شود. در این رساله، یک رویکرد مبتنی بر سنجه برای ارزیابی پیش از انتشار مجموعه دادههای پیوندی ارائه میشود. برای این منظور، با مطالعه مدلها و چارچوبهای کیفیت داده، مدل 25012-ISO بهعنوان مدل مبنا انتخاب و با نگاشت ابعاد کیفیت مدل مبنا به ابعاد کیفیت دادههای پیوندی، شش ب عد کیفی کاملبودن، دقت معنایی، دقت نحوی، سازگاری، یکتایی و پیوندپذیری بهعنوان ابعاد کیفیت ذاتی دادههای پیوندی شناسایی شدهاند. سپس، با استفاده از رویکرد هدف، پرسش، سنجه برای هریک از ابعاد کیفی ششگانه، سنجههای مناسب تعریف و بهصورت رسمی بیان شده است. استراتژی ارزیابی مدل پیشنهادی، شامل سه مرحله اعتبارسنجی تئوری، ارزیابی تجربی به روش آزمایشات و نظرسنجی از خبرگان بوده که فرایند اجرای هریک، به تفصیل در رساله مورد بررسی قرار گرفته است. در پایان، با بهرهگیری از روشهای یادگیری، یک مدل پیشبینی کیفیت برمبنای سنجههای پیشنهادی ارائه شده است. نتایج ارزیابیها نشان داد که سنجههای پیشنهادی معتبر، کاربردی و مقیاسپذیر هستند و همچنین قابلیت ارزیابی کیفیت ذاتی هر مجموعه داده را بهصورت کاملا خودکار دارند. بنابراین، منتشرکنندگان دادهها قادرند تا با استفاده از مدل پیشنهادی، کیفیت ذاتی مجموعه داده خود را قبل از انتشار ارزیابی کنند.
چکیده لاتین
The main objective of the Linked Open Data paradigm is to crystallize knowledge through the interlinking of already existing but dispersed data.The usefulness of the developed knowledge depends strongly on the quality of the aggregated and published data. Therefore, the goal of this research is proposing a metrics-driven framework for predicting the quality of linked open datasets from an inherent point of view. To achieve this goal, we have followed an approach which is started by analysis of the well-known data quality frameworks, and comparing existing dimensions of data quality presented in these models. we tried to identify the most appropriate quality dimensions that could be applied to inherent quality characteristics of LOD datasets. These inherent quality characteristics are completeness, semantic accuracy, syntactic accuracy, uniqueness, consistency and interlinking. In order to make the characteristics quantifiable, we define a set of metrics to measure the above six inherent quality characteristics using Goal-Question-Metric(GQM) approach. To evaluate our work, we have theoretically supported our claim by validation of the metrics and evaluation of the quality model. To put the proposed metrics into practice, we have implemented an automated tool and computed the metric values for various datasets from different domains of LOD. Furthermore, we have subjectively evaluated our proposed model using expert opinion. The proposed metrics are shown to have meaningful correlation with the quality dimensions, thus we are able to predict the inherent quality dimensions of any dataset, once it is integrated into the LOD, by only observing the values of proposed metrics. The results help publishers to filter out low-quality data, which in turn enables data consumers to make better and more informed decisions when using the shared datasets.