معناگرایی در ارزیابی خودکار خلاصه سازی های ماشینی فارسی با بهره گیری از شبکه واژگان
نویسنده
استیری، احمد
استاد راهنما
کاهانی، محسن
استاد مشاور
مقطع تحصیلی
کارشناسی ارشد
سال دفاع از پایان نامه
۱۳۹۱
رشته
کامپیوتر - نرم افزار
توصیفگر
معناگرایی
توصیفگر
خلاصه سازی خودکار
توصیفگر
شبکه واژگان
توصیفگر
ارزیابی
توصیفگر
پردازش زبان طبیعی
توصیفگر
زبان فارسی
توصیفگر
زبانشناسی
چکیده فارسی
امروزه ابزارهایی نظیر خلاصهسازهای خودکار و مترجمهای ماشینی، توجه زیادی را به خود جلب نمودهاند و فعالیتهای زیادی برای طراحی چنین ابزارهایی در سرتاسر جهان انجام شده است. در زبان فارسی هم نظیر دیگر زبانها تلاشهایی در این زمینه صورت گرفته است. از این رو ارزیابی چنین ابزارهایی از اهمیت ویژهای برخوردار است. در این پایاننامه، ابزاری به منظور ارزیابی خلاصهسازها ارائه شده است که البته قابلیت استفاده در دیگر کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات را نیز دارد. این ابزار شامل معیارهایی برای تعیین کیفیت خلاصهها به صورت خودکار، از طریق مقایسه آنها با خلاصههای تولید شده توسط انسان (خلاصههای ایدهآل) میباشد. این معیارها تعداد واحدهایی که بین خلاصههای سیستمی و خلاصههای انسانی همپوشانی دارند نظیر n تاییها، رشتهی کلمات و جفت کلمات را محاسبه مینمایند. بدیهی است برای انجام مقایسهی متون در سطح معنا در مورد خلاصههای چکیدهای، مقایسهی ظاهر لغات کافی نمیباشد و بهرهگیری از شبکهی واژگان، ضروری به نظر میرسد. در سیستم پیشنهادی شبکه واژگان 'فردوسنت' با ایدهای مناسب، بکار گرفته شده و نتایج حاصل از ارزیابی را به طور قابل توجهی بهبود بخشیده است. ارزیابی سیستم پیشنهادی، نیازمند تهیه پیکرهای عظیم و تست ابزار بر روی اسناد این پیکره میباشد. پیکره 'پاسخ' در دو بخش تکسندی و چندسندی شامل 1000 خلاصهی تکسندی و 500 خلاصهی چندسندی در آزمایشگاه فناوری وب دانشگاه فردوسی مشهد توسط ابزاری تحت عنوان 'خلاصهیار' تولید شد که نیمی از خلاصهها گزینشی و نیمی دیگر چکیدهای میباشد. ارزیابی عملکرد ابزار طی روالی مشخص و استاندارد بر روی بخشی از پیکره فوق صورت گرفت که نتایج بدست آمده، بیانگر عملکرد قابل قبول ابزار بود.