نظرکاوی براساس استخراج و تطبیق الگوهای حسی جملات فارسی
عنوان لاتین
Opinion mining in Persian language based on extracting and matching sentences sentiment patterns
نویسنده
اصغری نکاح، سیدمحمد - asghari, seyed muhammad
استاد راهنما
کاهانی، محسن
مقطع تحصیلی
کارشناسی ارشد
سال دفاع از پایان نامه
۱۳۹۴
رشته
مهندسی کامپیوتر - نرم افزار
توصیفگر
استخراج
توصیفگر
الگوهای حسی
توصیفگر
جمله
توصیفگر
زبان فارسی
چکیده فارسی
با توجه به توسعه وسیع و رو به رشد فناوری وب، حجم نظرات در صفحات وب نیز به شدت در حال افزایش است. نظراتی که اکنون حجم عظیمی از فضای مجازی را به خود اختصاص داده اند، می توانند به عنوان یک منبع اطلاعاتی و آماری مهم، مورد توجه قرار گیرند. با این وجود پردازش تعداد زیادی از نظرات برای کاربردی خاص، کاری بس دشوار و بعضاً ناممکن است. نظرکاوی به عنوان یک حیطه علمی نسبتا جدید سعی در دسته بندی گرایشات و احساسات (نظرات) بیان شده توسط کاربران را دارد.
در روش پیشنهادی این تحقیق، به کشف دقیق حس نظرات از طریق کشف الگوهای نظری در واحد جمله پرداخته شده است. روش های مبتنی بر لغت نامه کنونی برای کشف عبارات حسی نظرات از چند الگوی ثابت چند کلمه ای استفاده می کنند. حال آنکه عملاً نظر می تواند به صورت پراکنده در طول ساختار جمله بیان شده باشد و به صورتچند کلمه متوالی نباشد. در روشی که در این تحقیق ذکرمی شود با استفاده از نقش های نحوی کلمات و نیز تعریف برچسب های خاص حسی و ترکیب آن ها با یکدیگر، سعی می شود تا الگوهای کامل تری از بیان حس در جملات نظری به دست آید. به علاوه چون این الگوها با توجه به نظرات کاربران در بخش آموزش پیکره و با ارائه الگوریتمی به صورت خودکار استخراج خواهد شد، این روش قابلیت استفاده بر روی سایر پیکره ها را نیز دارد. در این کار تلاش شده تا علاوه بر ارائه روش جدید برای کشف حس، با چالش های خاص زبان فارسی نیز مقابله شود.
الگوهای به دست آمده نهایی بر روی پیکره آزمون مورد ارزیابی قرار گرفتند که توانستند دقت 96% در زبان فارسی را به نمایش بگذارند. دقت به دست آمده 5% بیش از دقت بهترین روش مشابه است. همچنین پیکره مورد نظر با روش مبتنی بر الگوریتم بیزین نیز مقایسه شد که دقت به دست آمده 8 درصد بهتر از این روش بود. در مقایسه صورت گرفته با کارهای انجام شده برای زبان فارسی نشان داده شد که روش پیشنهادی در این پژوهش از کیفیت مناسبی نسبت به سایر سیستم های طراحی شده برای زبان فارسی برخوردار است.
چکیده لاتین
The volume of comments on Web pages is rising due to the growing nature of web technologies. However, processing large number of comments for a particular application is difficult and sometimes impossible. Sentiment Analysis is a new scientific area which tries to categorize emotions and feelings (Comments) that are expressed by users.
In this dissertation, a methodology for discovering the exact sentiment orientation of comments by discovering sentences sentiment patterns is presented. Current dictionary-based methods detect fixed pattern of several consecutive words. However, in practice, a comment can be expressed as non-consecutive words in sentences. The proposed approach in this research uses parts of speech tagging to extract complex patterns from sentences, automatically. Besides, Persian language has some special challenges and this research tries to address them.
Evaluating the extracted patterns shows appropriate results (F-measure=96%), which is at least 5 percent improvement over SVM and Naïve Bayes methods. Furthermore, the proposed approach has higher accuracy in comparison with other Persian approaches.