محبوبیت رسانه های اجتماعی و پذیرش وسیع آنها توسط کاربران در سرتاسر جهان باعث ایجاد یک منبع غنی از اطلاعات بدون ساختار جهت درک رفتار کاربران، علایق و نظرات آنها شده است. امروزه شناسایی رویدادهای مهم جهان از روی محتوی های تولید شده توسط کاربران، به عنوان یک حوزه فعال شناخته شده است. این رویدادها زندگی گروه بزرگی از افراد را تحت تاثیر قرار می دهد در حالی که یک فرم منحصر به فردتری از رویدادها بنام رویداد شخصی از اهمیت بالایی برخوردارند و برخلاف رویدادهای جهانی بر زندگی افراد کمی اثر می گذارند.
شناسایی رویدادهای شخصی مانند ازدواج، مسافرت، استخدام در مقایسه با سایر رویدادها مشکل تر می باشد، زیرا 1) این رویدادها خاص یک کاربر می باشند و بازخورد وسیعی ندارند. 2) این رویدادها به صورت مستقیم مطرح نمی شوند و نیاز به استنتاج از محتوی های تولید شده توسط کاربران می باشد. 3) بسیاری از کاربران رویدادهای شخصی خود را بر روی رسانه های اجتماعی گزارش نمی کنند و همین امر سبب شده است که مسأله شناسایی رویدادهای شخصی یک مسأله با عدم تعادل بالا باشد.
هدف ما از این کار تحقیقاتی ارائه یک روش برای شناسایی رویدادهای شخصی با استفاده از داده های متنی رسانه های اجتماعی می باشد و با توجه به اینکه بخش زیادی از این داده های متنی در مورد رویدادهای آینده می باشد، توانمندی این روش در شناسایی رویدادهای شخصی که در آینده برای کاربر رخ می دهد از اهداف این تحقیق می باشد. اما از آنجایی که در مسأله شناسایی رویداد آینده کاربر به اصل توییتی که در آن به رویداد شخصی اشاره شده است دسترسی وجود ندارد، باید مجموعه ای از توییت ها که کاربر در گذشته منتشر کرده است را بکار برد که آن را تاریخچه کاربر می نامیم. حال اگر بتوان از تاریخچه های کاربران موجود، که برای همه ی آنها در آینده رویداد شخصی رخ خواهد داد، نشانه هایی مشترک یافت، می توان با کمک این نشانه ها مسأله شناسایی رویداد شخصی در آینده را حل کرد.
راهکار ارائه شده در این رساله برای یافتن این نشان های مشترک شامل دو بخش اصلی است. در ابتدا، با تکیه بر تکنیک تعبیه کلمه به منظور ارائه یک مدل معنایی از رویداد شخصی، رویدادهای شخصی کاربران از توییت های گذشته آنها استخراج و در نتیجه تاریخچه کاربران از نظر رویداد شخصی ساخته می شود. سپس، دو رویکرد متفاوت بنام تولید محتوا و کشف روابط بین رویدادهای شخصی برای شناسایی رویداد شخصی آینده کاربران معرفی شده اند. رویکرد تولید محتوا که مبتنی بر شبکه عصبی بازگشتی است بازه کوتاه مدت از توییت های گذشته کاربر را مورد پردازش قرار می دهد در حالی که رویکرد دوم با تکیه بر تکنیک های یادگیری ماشین، نشانه های مشترک را از بازه طولانی مدت از توییت های گذشته کاربر کشف می کند.
نتایج حاصل از آزمایش ها نشان می دهد مسأله شناسایی رویداد شخصی آینده کاربر، یک مسأله غیربدیهی است و راهکار پیشنهادی توانسته است به یک کارایی قابل قبولی بر روی مجموعه داده استاندارد طلایی برسد.
چکیده لاتین
The wide adoption of social media platforms by a large number of users across the globe has provided a rich source of unstructured information for understanding users' behaviors, interests and opinions. An active area in this space is the detection of important real-world events from user-generated social content. The works in this area identify instances of events that impact a large number of users. However, a more nuanced form of an event, known as life event, is also of high importance, which in contrast to real-world events, does not impact a large number of users and is limited to at most a few people.
For this reason, life events, such as marriage, travel, and career change, among others, are more difficult to detect for several reasons: 1) they are specific to a given user and do not have a wider reaching reflection; 2) they are often not reported directly and need to be inferred from the content posted by individual users; and 3) many users do not report their life events on social platforms, making the problem highly class-imbalanced.
The aim of this thesis is to provide a method for identifying self-report life events using social media text data. Given that much of these text data is about the future events, the ability of this method to identify future events for the user is the main aim of this research. In future life event detection problem, there is no access to the content of the tweet in which the life event is mentioned and detection is done solely based on the past tweets published by the user, ie. user history. By discovering common signs in the users' history that will occur life event in future, it is possible to solve the problem of future life event detection.
The proposed approach includes two main parts: i) first, by modeling life event semantically based on word embedding technique and processing past tweets of users, their life events are extracted in order to build histories. ii) second, two approaches are introduced namely content generation and discovering relations between life events that determine the future personal life events of the users from their histories. Content generation based on recurrent neural network tries to predict future personal life events by processing short interval of tweets of users, where the second approach discovers common signs in long interval of tweets using machine learning techniques.
We have shown in our experiments that future life event detection problem is a non-trivial task and our work is able to provide reasonable performance on a gold standard dataset despite the highly class-imbalanced nature of the personal life event data.