اطلاعات پایان نامه
شماره شناسایی : 39303172
نام و نام خانوادگی : زهرا طاهرزاده
عنوان پایان نامه : افزایش دقت نظرکاوی در زبان فارسی با استفاده از روش چند زبانی
رشته تحصیلی : مهندسي كامپيوتر نرم افزار
مقطع تحصیلی : كارشناسي ارشد
استاد راهنما : حميد رستگاري
استاد مشاور : محمداحسان بصيري
چکیده : نظرکاوی تحلیل عواطف، هیجانات و احساسات کاربران نسبت به موضوعات گوناگون می¬باشد. با رشد سریع شبکه‌ها و رسانه‌های اجتماعی تعداد نظرات کاربران و همچنین امکان دسترسی به این نظرات افزایش یافته است. تحلیل نظرات در زمینه‌های تجاری، صنعتی و سیاسی اهمیت بسیاری دارد. بنابراین استفاده از ابزار خودکار جهت تحلیل و طبقه‌بندی نظرات ضرورت می یابد. مطالعات بسیاری به تحلیل احساس بر روی زبان انگلیسی پرداخته‌اند، در حالی که تاکنون پژوهش‌های اندکی به تحلیل احساس بر روی زبان فارسی پرداخته است که هر کدام نقاط قوت و ضعفی دارند. نکته‌ی حائز اهمیت این است که پژوهش‌های انجام شده با رویکرد مبتنی برلغتنامه، به علت کمبود منابع از لغتنامه‌های انگلیسی استفاده کرده‌اند یا اینکه به ایجاد لغتنامه پرداخته‌اند. استفاده از لغتنامه‌ی انگلیسی، کلمات فارسی را پوشش نمی‌دهد و لغتنامه‌های ایجاد شده نیز استاندارد نیستند. همچنین پژوهش‌های انجام شده در زبان فارسی تنها از یکی از رویکردهای یادگیری ماشین یا مبتنی برلعتنامه استفاده کرده‌اند. بنابراین دقت تشخیص قطبیت نظرات مناسب نیست. در این تحقیق جهت غلبه بر کمبود منابع از روش تحلیل احساس چند زبانی استفاده می‌شود. جهت غلبه بر ضعف هر یک از رویکردهای تحلیل احساس، از هر دو رویکرد جهت افزایش دقت تشخیص قطبیت نظرات استفاده شده است. برای تعیین قطبیت نظرات ابتدا مجموعه داده‌ی فارسی به انگلیسی ترجمه می‌شود، سپس از هر دو رویکرد تحلیل احساس بر روی دو مجموعه داده استفاده می‌شود. در ادامه نتایج حاصل با استفاده از روش‌های ترکیب مانند بیشترین وزن، رأی اکثریت و میانگین وزن ترکیب می‌شوند. روش پیشنهادی با استفاده از مجموعه داده Persian پیاده سازی و ارزیابی می¬شود. نتایج آزمایشات نشان می‌دهد که در مقایسه با روش‌های قبل، استفاده از روش پیشنهادی باعث افزایش معیار F به میزان 3.3 درصد در تشخیص قطبیت نظرات می‌شود.
کلمات کلیدی : نظر کاوی, تحلیل احساس چند زبانی, رویکرد یادگیری ماشین, رویکرد مبتنی برلغتنامه, روش¬های ترکیب
تاریخ دفاع : 1396/06/30
دانلود فایل چکیده

About Proposal
Title : Increased The Accuracy of Opinion-Mining in Persian Using Multi-Lingual
Abstract : Opinion Mining is the analysis of affects, emotions, and feelings of users towards various topics. With the rapid growth of networks and social media, the number of users' comments and access to them has increased. The analysis of comments is very important for business, industry, and politics. Therefore, the use of automated tools for analysis and classification of comments is necessary. Many studies have focused on sentiment analysis in English language, while few of researches have been conducted on sentiment analysis in Persian language, each with its own strengths and weaknesses.. The important point is that, due to the lack of resources, previous research on the lexicon-based method either used English lexicon or created new lexicon. The use of the English lexicon does not cover Persian words and the created dictionaries are not standard. Therefore, the sentiment analysis in Persian language sufferes from lack of resources. Also, previous studies in the Persian language has only used one of the approach machine learning or Lexicon-based approach. Therefore, the precision of polarity detection is not appropriate. In this research, multi-lingual sentiment analysis is used to overcome the lack of resources. In order to overcome the weakness of each sentiment analysis approaches, both approaches have been used to increase the precision of comments’ polarity detection. To determine the comments’ polarity, the Persian dataset is first translated into English and then, both sentiment analysis approaches are used on two datasets. The results are then combined using combination methods such as the highest weight, majority vote, and average weight. The proposed method is implemented and evaluated using the Persian Dataset. The results shows that our method increases the F-Measure of the polarity detection to 3.3%.
Keywords : Opinion Mining, Multilingual approach, Machine learning approach, Lexicon-based approach, Combination methods
Download Abstract File