در سالیان گذشته بعدازاینکه چالش های مربوط به جمع آوری داده به نحوی مرتفع گشتند، اکنون سؤال اصلی به چگونگی پردازش بر روی این حجم عظیم از داده ها تبدیل شده است. برای بهره برداری و اکتشاف دانش از این حجم بسیار زیاد داده، ضروری است که ابزارها و زیرساخت های مناسب آن ایجاد و استفاده گردد. طبق مدل 5 مرحله ای که برای فرآیند استخراج و اکتشاف دانش مورد استفاده قرار می-گیرد، مهم ترین و اساسی ترین قسمت، پیش پردازش و آماده سازی داده است که نتیجه آن کیفیت خروجی و مراحل بعدی مدل را نیز ضمانت می کند. زمانی که منابع داده زیادی اعم از برخط (جریانی) و برون خط (غیرجریانی) وجود داشته باشند، چگونگی پیش پردازش داده ها، پاک سازی داده ها، ادغام داده ها، تبدیل داده ها و ذخیره سازی قالب های مشخص از داده ها مسائلی هستند که با آن روبرو هستیم. هدف از چارچوب نظام مند، ایجاد ساختاری برای تعریف انواع منابع ورودی، انواع نیازمندی های داده ای، انواع مؤلفه های پیش پردازش، انواع شروط داده ای و از این قبیل عملکردها می باشد. درواقع از طریق این چارچوب کاربر می تواند ساختارهای مختلف و پیچیده ای را برای نیازهای خاص خود به منظور تعیین ساختار پیش پردازش برای منابع داده ای مختلف جریانی و غیرجریانی ایجاد و تعریف کند. در این رساله یک چارچوب نظام مند برای پیش پردازش داده های جریانی و غیرجریانی، یک الگوریتم هوشمند برای اجرای روال پیش پردازش تعریف شده توسط کاربر با توجه به منابع در اختیار و شروط و نیازمندی های تعریف شده از سوی کاربر و همچنین یک الگوریتم تطبیق برای ایجاد امکان خوداصلاحی و تطبیق اجرای روال پیش پردازش کاربر ارائه شده است. برای ارزیابی چارچوب پیشنهادی از مجموعه داده حوزه شهر هوشمند و اینترنت اشیا، استفاده شده است. چارچوب پیشنهادی از دو منظر برخط و غیربرخط مورد ارزیابی قرار گرفت و در مواردی که امکان مقایسه با سایر کارها وجود داشته باشد نیز با روش های به روز مقایسه انجام گردید. روش پیشنهادی در قالب سناریوهای مختلف مورد ارزیابی قرار گرفت. به عبارت دیگر با استفاده از چارچوب پیشنهادی کاربردهای مختلف در حوزه داده های حجیم پیاده سازی شدند تا تأثیر استفاده از چارچوب پیشنهادی و مؤلفه زمان بند در کاهش زمان اجرا و کم کردن پیچیدگی پیاده سازی مشخص گردد. نتایج آزمایشات در سه سناریوی مختلف نشان دهنده عملکرد مناسب چارچوب پیشنهادی از نظر کاربرد و تسریع در زمان اجرای کارها می باشد.
چکیده لاتین
In recent years, after the challenges of data collection were somehow overcome, the main question now is how to process this huge amount of data. In order to exploit and explore knowledge from this huge amount of data, it is necessary to create and use the appropriate tools and infrastructure.
According to the 5-step model used for the process of knowledge extraction and exploration, the most essential and fundamental part is the preprocessing and preparation of data, the result of which is the quality of the output and the next steps of the model are guaranteed. Preprocess, integrate, merge, convert, and store when there are many data sources, including online (streaming) and offline (non-streaming are issues we face. The purpose of the systematic preprocessing framework is to create a structure to define the types of input sources, the types of data requirements, the types of preprocessing components, the types of data conditions, etc. In fact, through this framework, the user can create and define different and complex structures for their specific needs to determine the preprocessing structure for streaming and non-streaming data sources.
In this dissertation, a systematic framework for preprocessing streaming and non-streaming data, an intelligent algorithm for performing user-defined preprocessing procedures according to the resources available and the conditions and requirements defined by the user is also provided with an adaptation algorithm to enable self-correction and adaptation of the user's preprocessing routine. The smart city and Internet of Things datasets were used to evaluate the proposed framework.
The proposed framework was evaluated from both online and offline perspectives, and in cases where it is possible to compare with other works, comparison methods were performed. Furthermore, the proposed method was evaluated in different scenarios. In other words, using the proposed framework, various applications were implemented in the field of big data to determine the effect of using the proposed framework and the timing component in reducing execution time and reducing the complexity of implementation.