ارائه یک چارچوب معنایی یکپارچه برای خلاصه سازی ساخت یافته نظرات
عنوان لاتین
An integrated semantic framework for structured opinion summarization
نویسنده
عسکریان، احسان - Asgarian, Ehsan
استاد راهنما
کاهانی، محسن
استاد مشاور
شریفی، شهلا
مقطع تحصیلی
دکتری (Ph.D)
سال دفاع از پایان نامه
۱۳۹۶
رشته
مهندسی کامپیوتر - نرم افزار
توصیفگر
خلاصه سازی
توصیفگر
معناشناسی
توصیفگر
نظرکاوی
توصیفگر
پیشنهادات
چکیده فارسی
آگاهی از نظرات و دیدگاه سایر افراد نقش اساسی در فرایند تصمیم گیری مشتریان ساده تا مدیران سطح بالای شرکت های تولیدکننده و سازمان های مختلف دارد. امروزه با پیدایش وب 2.0 و گسترش شبکه های اجتماعی، حجم زیادی از متون مربوط به نظرات افراد ایجاد شده است. ولی کاوش در حجم انبوه مستندات، منابع نظرات متعدد و وجود نظرهای مغایر درباره یک موجودیت، فرایند استخراج و پردازش نظرات را بسیار دشوار ساخته است. بنابراین نیاز به روشهایی برای کاوش و خلاصه سازی نظرات موجود احساس می شود. بدین منظور در دهه اخیر گرایش جدیدی در علم پردازش زبان های طبیعی به نام نظر کاوی ایجاد شده است. کارهای پژوهشی اولیه دراین حوزه، تنها محدود به استخراج و تحلیل حس مثبت یا منفی افراد، از روی اطلاعات متنی بودند. در سالهای اخیر، تحقیقات جدید نظرکاوی بیشتر به سمت نظرکاوی مبتنی بر ویژگی (جنبه) پیش رفته است. هدف اصلی ما در این پژوهش، نظرکاوی در سطح ویژگی و خلاصه سازی ساخت یافته نظرات (میزان حس کاربران به تفکیک ویژگی های متون) است. روشهای موجود برای تشخیص حس نظرات، در برخورد با پیچیدگی های زبانی و مفهومی، ضعف های زیادی دارند.
پس با توجه به پیچیدگی های خلاصه ساز ساخت یافته نظرات، در این پژوهش از رویکرد معنایی برای استخراج ویژگی ها، تشخیص حس مرتبط با هر ویژگی و نهایتاً بیان روابط و نمایش نتایج استفاده شده است. ایده اصلی این پژوهش در نظر گرفتن معنا (دانش) برای تشخیص حس در متن با استفاده از یک چارچوب معنایی جهت استفاده در تمام مراحل خلاصه سازی نظرات بصورت یکپارچه است. بدین منظور، روشی نیمه خودکار برای ایجاد پایگاه شناخت نظرات پیشنهاد می شود. هدف از ارائه این چارچوب، تبدیل حجم انبوه متن نظرات از قالب غیرساخت یافته متنی به قالب داده های معنایی ساخت یافته در زمان قابل قبول است. استفاده از پایگاه شناخت نظرات پیشنهادی، کمک می کند تا ویژگی های مختلف و ارتباط بین آنها با موجودیت اصلی و همچنین حس بیان شده برای هر ویژگی به خوبی مشخص گردند.
قبل از تولید پایگاه شناخت نظرات، یک مدل مفهومی نظرات (شِمای پایگاه شناخت ) مستقل از زبان و دامنه نظرات، جهت نگهداری نظرات در قالب ساخت یافته، پیشنهاد می شود. در مرحله بعد، زبان مقصد انتخاب شده و یک روش نیمه خودکار (با استفاده از دانش اولیه) برای تشکیل پایگاه شناخت نظرات از روی مجموعه مستندات (در یک حوزه خاص)، پیشنهاد شده است. سپس از پایگاه شناخت نظرات تولید شده، برای کشف ویژگی ها، تحلیل حس هر ویژگی و گروه بندی آنها استفاده می شود. نهایتاً خلاصه ی نظرات به شکل ساخت یافته در قالب داده های معنایی بیان شده اند. نتایج ارزیابی ها نشان داد که چارچوب ارائه شده کیفیت مناسبی برای خلاصه سازی ساخت یافته نظرات دارد.
همچنین در راستای هدف اصلی رساله، پیکره نظرات فارسی، مجموعه واژگان حسی عمومی و خاص (برای کالاهای تجاری)، مجموعه ای از ابزارهای مختلف پردازش متن فارسی مورد نیاز برای نظرکاوی و همچنین شبکه واژگان فردوس نت برای زبان فارسی تهیه شده است.
چکیده لاتین
Awareness of others' opinions plays a crucial role in the decision making process performed by simple customers to top-level executives of manufacturing companies and various organizations. Today, with the advent of Web 2.0 and the expansion of social networks, a vast number of texts related to people's opinions have been created. However, exploring the enormous amount of documents, various opinion sources and opposing opinions about an entity have made the process of extracting and analyzing opinions very difficult. Hence, there is a need for methods to explore and summarize the existing opinions. Accordingly, there has recently been a new trend in natural language processing science called 'opinion mining'. Primary researches in this area were limited to extracting and analyzing the positive or negative sentiments of individuals from textual information. In recent years, new opinion mining researches have progressed more towards being feature-based. Our main goal in this study is to provide a feature-level opinion mining and a structured summarization of opinions (the users' sentiments separated by text features). Current methods of sentiment detection have many weaknesses in dealing with linguistic and conceptual complexities.
Therefore, considering the complexities of the structured summarizer of opinions, the semantic approach has been employed in this study in order to extract features, detect sentiment related to each feature and finally express the relations and display the results. The main idea of this research is to consider the meaning (knowledge) to detect the sentiment of a text by applying a semantic framework in order to use it integratedly in all stages of opinion summarization. Thus, a semi-automatic method is proposed for creating the opinion ontology. The purpose of this framework is to convert the vast number of opinions from the unstructured texts to the form of structured semantic data in a reasonable time. Applying the proposed ontology helps to fully identify various features and their relations with the main entity as well as the expressed sentiment for each feature.
Prior to the construction of opinion ontology, a conceptual model of opinions (an ontology schema), independent of the language and the opinions domain, is proposed in order to keep them in a structured format. In the following step, the target language is selected and a semi-automatic method (using the basic knowledge) is proposed to construct the opinion ontology from documentation (in a particular domain). Then, the ontology of the constructed opinions is applied to detect features, analyze their sentiments and group them. Finally, a summary of the opinions is presented in a structured form and in format of semantic data. The results of the evaluations have indicated that the proposed framework provides a good quality for the structured opinion summarization.
In addition, in line with the main purpose of the thesis, a corpus of Persian opinions, a glossary of general and specific sentiment words (for commercial goods), a set of various Persian text-processing tools required for opinion mining and also FerdowsNet for Persian have been provided.