روش جدید وزندهی معنایی به کلمات در کاربردهای پردازش متن
نویسنده
کامیار، حسین
استاد راهنما
کاهانی، محسن
مقطع تحصیلی
کارشناسیارشد
سال دفاع از پایان نامه
۱۳۹۰
رشته
مهندسی کامپیوتر
توصیفگر
پردازش متون
توصیفگر
وزن دهی
توصیفگر
وب سنجی
چکیده فارسی
امروزه استفاده از وب به یکی از عناصر حیاتی زندگی انسانی تبدیل شده است. حتی در بسیاری از جوامع زندگی روزمره آدمی در صورت اختلال در وب دچار مشکلات اساسی می شود. به همین دلیل حجم اطلاعاتی متنی در وب به طرز چشمگیری افزایش یافته است. حتی به صورت شهودی نیز می توان ادعا نمود که نرخ رشد اطلاعات متنی در دنیای امروزه از نرخ رشد داده به هر شکل دیگری مانند صوت، تصویر و ... بالاتر است. کاربران در میان این دریای دادههای خام، همیشه به دنبال اطلاعات خاصی هستند. به این منظور احتیاج به پردازش متن و زبان که در حقیقت لایه بالایی متن می باشد، شدیدا وجود دارد. از این رو، در حال حاضر بیش از هر زمان دیگری نیاز به سیستمهای پردازشگر زبان مانند، بازیابی کنندههای اطلاعات، خلاصه سازها، مترجم ها و ...احساس می شود. یکی از اولین گام ها در پردازش زبان وزن دهی به کلمات به عنوان ویژگیهای قابل پردازش از یک متن می باشد. به همین دلیل تحقیقات فراوانی بر روی وزن دهی به کلمات به عنوان ابزار پیش خوشه بندی متون انجام می شود. هر چه دقت روش وزن دهی بالاتر باشد دسته بندی اولیه متون بهتر انجام شده و در نهایت دسته بندی اصلی آنها از دقت بهتری برخوردار خواهد بود. روشهای مشهور فعلی وزن دهی به کلمات، معمولا روشهای آماری قرضی از دیگر کاربردهای خوشه بندی هستند، که مبتنی بر شمارش فرکانس کلمات می باشند. اما ویژگیهای اصلی زبان، معنا و گرامر می باشد که توسط این روش ها قابل شمارش نمی باشند. در این تحقیق یک روش جدید با رویکرد توجه به ویژگیهای اصلی زبان برای وزن دهی به کلمات ارائه شده است. این روش با مبنا قرار دادن یک روش مشهور وزن دهی آماری به نام TF-IDF به تغییر پارامتر TF که یک پارامتر اندازه گیری فرکانس در سطح یک متن می باشد، می پردازد. این تغییرات از دو جنبه معنا توسط پایه قرار دادن یک تئوری زبانی به نام نظریه مرکزیت و گرامر با توجه به نقش گرامری کلمات در متن و توزیع آنها، انجام می گردند. همچنین جهت پر کردن خلا توجه به تأثیر سراسری کلمات در مجموعه ای از متون در تغییر پارامتر TF به نقش گرامری کلمات در سطح کلیه متون نیز توجه شده است. نتایج بدست آمده در پایان نامه به خوبی تأثیر روش پیشنهادی بر روشهای پردازش زبان را نشان می دهد. یک چنین روشی تا میانگین %11 نسبت به یک روش مشهور وزن دهی مانند TF-IDF، بهبود دقت در کاربردی مانند بازیابی اطلاعات رانشان می دهد.