ارائه ی یک معماری سازگار با داده های بزرگ برای تشخیص تقلب خارجی
عنوان لاتین
A Big Data Compatible Architecture for Detecting External Plagiarism
نویسنده
روحانی، حمید - Rohani, Hamid
استاد راهنما
کاهانی، محسن
مقطع تحصیلی
کارشناسی ارشد
سال دفاع از پایان نامه
۱۳۹۶
رشته
مهندسی کامپیوتر - نرم افزار
توصیفگر
داده ها
توصیفگر
تقلب
توصیفگر
بازیابی
توصیفگر
معماری
چکیده فارسی
در سال های اخیر تشخیص تقلب به عنوان یکی از کاربردهای پردازش زبان طبیعی مورد توجه قرار گرفته است. با رشد روزافزون داده ها و گسترش اینترنت، تقلب از آثار مولفان بسیار ساده شده است. تشخیص اصالت آثار نیز به همین نسبت اهمیت یافته است. رویکرد داده های بزرگ با توجه به شیب فزاینده ی نرخ تولید داده ها در کاربردهای مختلف قابل استفاده و بحث است. از همین رو پرداختن به هر دو مساله ی تشخیص تقلب و رویکرد داده های بزرگ به صورت همزمان و با در نظر گرفتن ملاحظات آن حائز اهمیت است.
در این تحقیق مساله ی تشخیص تقلب خارجی برای مقاله های دانشگاهی مورد بررسی قرار گرفته است. سپس یک خط لوله ی پیشنهادی تشخیص تقلب خارجی بر پایه ی داده های بزرگ ارائه شده است. این خط لوله ی مقیاس پذیر قادر خواهد بود در یک بستر داده های بزرگ یکپارچه شود و با داده های بزرگ یا جریانی کار کند. برخط بودن قسمتی از این خط لوله نیز مورد توجه است.
استفاده از رویکرد برداری برای نمایش محتوای مستندها و قابلیت مقایسه ی بردارها با رویکرد معنایی یکی از ویژگی های این خط لوله است که سرعت مقایسه ی شباهت ها و تشخیص موارد تقلب را بالا خواهد برد. در این تحقیق سعی شده که بستر داده های بزرگ، پیش فرض طراحی الگوریتم ها باشد. به همین علت با رشد حجم داده ها، زمان مورد نیاز برای پردازش به صورت خطی رشد خواهد کرد. داده های ورودی این تحقیق، مقاله های دانشگاهی در قالب متنی هستند ولی قابلیت تبدیل داده ها از قالب PDF نیز بررسی شده است.
ارزیابی الگوریتم با اجرا بر روی داده ای بزرگ و کوچک و همچنین بر روی رایانه ی همراه به عنوان یک موتور محاسباتی معمولی و بار دیگر بر روی خوشه ای با پیکربندی هدوپ انجام شده است و نتایج مقایسه شده اند. دقت بالا و مقیاس پذیر بودن الگوریتم از ویژگی های آن است. به منظور ارزیابی پژوهش معیارهای معینی به همراه پیکره های ارزیابی وجود دارند که مورد بررسی قرار خواهد گرفت.
چکیده لاتین
Plagiarism detection becomes a trend in recent years as a Natural Language Processing task. Performing plagiarism is much easier due to rapidly growing data generation and internet availability. As the plagiarism becomes easier, detecting originality becomes more important.
Big data solutions are suitable where data production rate is considered as a big data scale. So combining these two domains together while considering big data limitations can be a challenge.
In this research, the plagiarism detection problem on academic papers was discussed. Then a big data compatible pipeline for external plagiarism detection was proposed. This scalable pipeline is able to be integrated into a big data platform or to work with streaming data. The online phase of this pipeline can be considered too. Using vector-based solutions for representing concepts of the documents and doing the semantic comparison on document vectors are pipeline's specific features which speed up and adds semantic features to the comparison process.
Big data platform is an initial requirement of designing algorithms in this research. So process time will have a linear increment with the growth of data. Input data are academic papers in text format. In addition, converting the data from PDF format is considered. Algorithm performance evaluation was performed on small and big data running on a laptop computer as a normal computation engine and a Hadoop cluster. Then the results were compared. High precision and scalability of the algorithm are key features. To evaluate the results, published corpus datasets were used.