با توجه به حجم عظیم دانش و اطلاعات بشر و رشد روزافزون مستندات در زمینههای مختلف، پردازش زبانهای طبیعی و تبدیل متون به دانش قابل فهم برای ماشین، مورد توجه قرار گرفته است. با استفاده از سیستم های استخراج اطلاعات می توان بطور خودکار پایگاه دانشی ساخت یافته از متون ایجاد کرد. در واقع هدف یک سیستم استخراج اطلاعات، استخراج حقایق از متون غیرساختیافته و نمایش آنها در قالبهای ساختیافته مانند سهگانههای RDF میباشد. اگر حقایق در قالب معنایی RDF نگاشت شوند، میتوان اطلاعات مورد نیاز را با ساخت و ارسال پرسوجوهای SPARQL روی پایگاه دانش بدست آورد. در این پایاننامه، روشی برای استخراج آزاد حقایق از متون زبان فارسی پیشنهاد شده است که در آن استخراج حقایق در سطح جمله و بر اساس تشخیص افعال و روابط وابستگی بین اجزای جمله انجام می شود.
راهکار پیشنهادی، حقایق اصلی را بر اساس فعل و حقایق فرعی را بر اساس روابط بین گروههای اسمی جمله استخراج و برای تبدیل به قالب RDF آمادهسازی میکند. برای نگاشت حقایق در قالب معنایی RDF، URI قسمتهای نهاد، مسند و گزاره یک حقیقت با استفاده از شبکه واژگان و ویکیپدیا شناسایی میشود. در نتیجه در راهکار پیشنهادی شبکه واژگان فردوسنت بصورت خودکار بر اساس شبکه واژگان انگلیسی ایجاد میشود. نتایج حاصل از ارزیابی نشان میدهد که روش پیشنهادی در استخراج حقایق موفق بوده و باعث بهبود دقت و فراخوانی نسبت به سیستمهای موجود میشود. علاوه براین سیستم پیشنهادی حقایق را در قالب معنایی RDF استخراج میکند.
چکیده لاتین
Due to the large amount of textual information over the Web, and the need for converting this information into machine understandable format, have caused much attention to Natural Languages Processing (NLP). It is desirable to be able to extract facts from unstructured text and convert them into suitable format for Information Retrieval (IR) systems. The semantic technologies such as RDF allows a machine-friendly format for fact representation an extraction. In this thesis, we proposed a method for fact extraction from Persian language texts. The fact extraction is performed in sentence level and it is based on distinguishing verbs and dependency relations between different parts of the sentence, without any restriction on the document context.
The proposed approach extracts explicit and implicit facts based on the sentence verb and the relationship between noun groups of the sentence, respectively. Then, it prepares them for converting into RDF formats. In order to mapping facts into semantic RDF format, URI of subject, predicate and object is identified using Wikipedia and FerdowsNet (a Persian WordNet created automatically from the English WordNet.). The evaluation results show that the proposed solution is successful in facts extraction and increases the precision and recall metrics compared to the existing systems.