تحلیل احساسات چند وجهی
تحلیل احساسات چند وجهی بعد جدیدی از تحلیل احساسات مبتنی بر متن است، که فراتر از تجزیه و تحلیل متون میرود و شامل بررسی سایر ابعاد مانند دادههای صوتی و تصویری نیز میشود.[۱] تحلیل احساسات چندوجهی، میتواند دو وجهی باشد که به معنی ترکیب دو مدالیته مختلف است، یا سه وجهی باشد که دربرگیرنده سه مدالیته است.[۲] با وجود حجم گسترده دادههای رسانههای اجتماعی که به شکلهای مختلف از جمله ویدئو و تصویر به صورت آنلاین در دسترس هستند، تکنیک متعارف تحلیل احساسات مبتنی بر متن به مدلهای پیچیدهتر تحلیل احساسات چندوجهی تبدیل شدهاست.[۳] این تکنولوژی میتواند در توسعه دستیاران مجازی،[۴] تجزیه و تحلیل نقد فیلمهای یوتیوب،[۵] تجزیه و تحلیل ویدیوهای خبری، و تشخیص احساسات مانند نظارت بر افسردگی و زمینههای دیگر کاربرد داشته باشد.
مشابه تحلیل احساسات سنتی، یکی از اساسیترین وظایف در تحلیل احساسات چندوجهی ، طبقهبندی احساسات است که احساسات مختلف را به دستههایی مانند مثبت، منفی یا خنثی دستهبندی میکند. پیچیدگی تجزیه و تحلیل ویژگیهای متنی، صوتی و بصری برای انجام چنین کاری مستلزم استفاده از تکنیکهای ترکیبی مختلف، مانند سطح ویژگی، سطح تصمیم، و ترکیب هایبرید است.[۳] عملکرد این تکنیکهای ادغامی و الگوریتمهای طبقهبندی، تحتتاثیر نوع ویژگیهای متنی، صوتی و بصری به کار رفته در این بررسی است.[۶]
ویژگیها
[ویرایش]مهندسی ویژگی، که شامل انتخاب ویژگیهایی است که به الگوریتمهای یادگیری ماشین داده میشوند، نقش کلیدی در عملکرد طبقهبندی احساسات بازی میکند.[۶] در تحلیل احساسات چندوجهی، ترکیبی از ویژگیهای متنی، صوتی و بصری مختلف به کار گرفته میشود.[۳]
ویژگیهای متنی
[ویرایش]مشابه تجزیه و تحلیل احساسات مرسوم مبتنی بر متن، برخی از متداولترین ویژگیهای متنی مورد استفاده در تحلیل احساسات چندوجهی، تک-گرمها و ان-گرمها هستند که اساساً دنبالهای از کلمات در یک سند متنی هستند.[۷] این ویژگیها با استفاده از مدل بسته کلمات یا مدل بسته مفاهیم اعمال میشوند که در آن کلمات یا مفاهیم به صورت بردارهایی در فضایی مناسب نمایش داده میشوند.[۸][۹]
ویژگیهای صوتی
[ویرایش]عواطف و احساسات دارای خصوصیات آوایی و عروضی متفاوتی در ویژگیهای صوتی هستند.[۱۰] برخی از مهمترین ویژگیهای صوتی مورد استفاده در تجزیه و تحلیل احساسات چندوجهی عبارتند از ضرایب فرکانس مل (MFCC)، مرکز طیفی، شار طیفی، هیستوگرام ضربان، مجموع ضربان، قویترین ضرب، مدت زمان مکث، و گام.[۳] OpenSMILE و Praat ابزارهای منبع باز پرطرفدار برای استخراج این ویژگیهای صوتی هستند.
ویژگیهای بصری
[ویرایش]یکی از مزایای اصلی تجزیه و تحلیل ویدئوها در مقایسه با تحلیل صرف متن، غنی بودن نشانههای احساسات در دادههای بصری است.[۱۱] ویژگیهای بصری شامل حالات چهره است که در شناسایی احساسات و عواطف از اهمیت بالایی برخوردار است، زیرا کانال اصلی نمایش حالات ذهنی فعلی فرد است.[۳] بهطور خاص، لبخند به عنوان یکی از واضحترین نشانههای بصری در تحلیل احساسات چندوجهی در نظر گرفته میشود.[۸] OpenFace یک جعبه ابزار منبع باز برای تجزیه و تحلیل چهره است که برای استخراج و درک چنین ویژگیهای بصری در دسترس است.[۱۲]
تکنیکهای ترکیبی
[ویرایش]برخلاف تحلیل احساسات سنتی مبتنی بر متن، در تحلیل احساسات چندوجهی تحت یک فرایند ادغام، دادههای روشهای مختلف (متنی، صوتی یا بصری) با هم ترکیب و تجزیه و تحلیل میشوند.[۳] رویکردهای موجود برای ادغام دادهها در تحلیل احساسات چندوجهی را میتوان به سه دسته اصلی گروهبندی کرد: سطح ویژگی، سطح تصمیم، و ترکیب هایبرید. عملکرد طبقهبندی احساسات بستگی به نوع تکنیک ترکیبی مورد استفاده دارد.[۳]
ترکیب در سطح ویژگی
[ویرایش]ترکیب در سطح ویژگی (که گاهی اوقات به عنوان ادغام اولیه شناخته میشود) همه ویژگیها را از هر مدالیته (متنی، صوتی یا بصری) جمعآوری میکند و همه آنها را در یک بردار ویژگی واحد قرار میدهد که در نهایت به یک الگوریتم طبقهبندی وارد میشود.[۱۳] یکی از مشکلات در اجرای این تکنیک، ادغام ویژگیهای ناهمگن است.[۳]
ترکیب در سطح تصمیم
[ویرایش]ترکیب در سطح تصمیم (که گاهی اوقات به عنوان ادغام ثانویه شناخته میشود)، دادههای هر مدالیته (متنی، صوتی یا بصری) را بهطور مستقل به الگوریتم طبقهبندی مختص به خود میدهد و با ادغام هر نتیجه در یک بردار تصمیم واحد، نتایج طبقهبندی احساسات نهایی را به دست میآورد.[۱۳] یکی از مزایای این تکنیک ترکیبی، این است که نیاز به ترکیب دادههای ناهمگن را از بین میبرد و هر مدالیته میتواند از مناسبترین الگوریتم طبقهبندی خود استفاده کند.[۳]
ترکیب هیبریدی
[ویرایش]ترکیب هیبریدی، ترکیبی از تکنیکهای ترکیب در سطح ویژگی و سطح تصمیم است که از اطلاعات تکمیلی هر دو روش در طول فرایند طبقهبندی استفاده میکند.[۵] این فرایند معمولاً شامل یک روش دو مرحلهای است که در مرحله اول، ابتدا بین دوتا از مدالیتهها، روش ترکیب در سطح ویژگی پیادهسازی میشود و سپس در مرحله دوم برای ادغام کردن نتیجه این ترکیب با مدالیته باقیمانده، بین نتایج این فرایند و مدالیتهٔ باقیمانده، عملیات ترکیب در سطح تصمیم اعمال میشود.[۱۴][۱۵]
کاربردها
[ویرایش]مشابه تجزیه و تحلیل احساسات مبتنی بر متن، تجزیه و تحلیل احساسات چندوجهی را میتوان در توسعه سیستمهای توصیهگر در اشکال مختلف مانند تجزیه و تحلیل ویدیوهای تولید شده توسط کاربران در خصوص نقد فیلم[۵] و نقد کلی محصولات،[۱۶] به منظور پیشبینی احساسات مشتریان و متعاقباً توصیه محصولات یا خدمات، استفاده کرد.[۱۷] تجزیه و تحلیل احساسات چندوجهی همچنین نقش مهمی در پیشرفت دستیاران مجازی از طریق استفاده از پردازش زبان طبیعی (NLP) و تکنیکهای یادگیری ماشین ایفا میکند.[۴] در حوزه بهداشت و درمان، تجزیه و تحلیل احساسات چندوجهی میتواند برای تشخیص برخی شرایط پزشکی مانند استرس، اضطراب یا افسردگی استفاده شود. تجزیه و تحلیل احساسات چندوجهی را میتوان در درک احساسات موجود در برنامههای خبری ویدیویی نیز به کار برد، از آنجایی که خبرنگاران معمولاً بهطور واضح احساسات خود را نشان نمیدهند و بیشتر خنثی هستند، به عنوان یک حوزه پیچیده و چالشبرانگیز در نظر گرفته میشود.
منابع
[ویرایش]- ↑ Soleymani, Mohammad; Garcia, David; Jou, Brendan; Schuller, Björn; Chang, Shih-Fu; Pantic, Maja (September 2017). "A survey of multimodal sentiment analysis". Image and Vision Computing. 65: 3–14. doi:10.1016/j.imavis.2017.08.003.[پیوند مرده]
- ↑ Karray, Fakhreddine; Milad, Alemzadeh; Saleh, Jamil Abou; Mo Nours, Arab (2008). "Human-Computer Interaction: Overview on State of the Art" (PDF). International Journal on Smart Sensing and Intelligent Systems. 1: 137–159. doi:10.21307/ijssis-2017-283. Archived from the original (PDF) on 15 June 2018. Retrieved 3 January 2022.
- ↑ ۳٫۰ ۳٫۱ ۳٫۲ ۳٫۳ ۳٫۴ ۳٫۵ ۳٫۶ ۳٫۷ ۳٫۸ Poria, Soujanya; Cambria, Erik; Bajpai, Rajiv; Hussain, Amir (September 2017). "A review of affective computing: From unimodal analysis to multimodal fusion". Information Fusion. 37: 98–125. doi:10.1016/j.inffus.2017.02.003.
{{cite journal}}
:|hdl-access=
requires|hdl=
(help) - ↑ ۴٫۰ ۴٫۱ "Google AI to make phone calls for you". BBC News. 8 May 2018. Retrieved 12 June 2018.
- ↑ ۵٫۰ ۵٫۱ ۵٫۲ Wollmer, Martin; Weninger, Felix; Knaup, Tobias; Schuller, Bjorn; Sun, Congkai; Sagae, Kenji; Morency, Louis-Philippe (May 2013). "YouTube Movie Reviews: Sentiment Analysis in an Audio-Visual Context". IEEE Intelligent Systems. 28 (3): 46–53. doi:10.1109/MIS.2013.34.
- ↑ ۶٫۰ ۶٫۱ Sun, Shiliang; Luo, Chen; Chen, Junyu (July 2017). "A review of natural language processing techniques for opinion mining systems". Information Fusion. 36: 10–25. doi:10.1016/j.inffus.2016.10.004.
- ↑ Yadollahi, Ali; Shahraki, Ameneh Gholipour; Zaiane, Osmar R. (25 May 2017). "Current State of Text Sentiment Analysis from Opinion to Emotion Mining". ACM Computing Surveys. 50 (2): 1–33. doi:10.1145/3057270.
- ↑ ۸٫۰ ۸٫۱ Perez Rosas, Veronica; Mihalcea, Rada; Morency, Louis-Philippe (May 2013). "Multimodal Sentiment Analysis of Spanish Online Videos". IEEE Intelligent Systems. 28 (3): 38–45. doi:10.1109/MIS.2013.9.
- ↑ Poria, Soujanya; Cambria, Erik; Hussain, Amir; Huang, Guang-Bin (March 2015). "Towards an intelligent framework for multimodal affective data analysis". Neural Networks. 63: 104–116. doi:10.1016/j.neunet.2014.10.005. PMID 25523041.
{{cite journal}}
:|hdl-access=
requires|hdl=
(help) - ↑ Chung-Hsien Wu; Wei-Bin Liang (January 2011). "Emotion Recognition of Affective Speech Based on Multiple Classifiers Using Acoustic-Prosodic Information and Semantic Labels". IEEE Transactions on Affective Computing. 2 (1): 10–21. doi:10.1109/T-AFFC.2010.16.
- ↑ Poria, Soujanya; Cambria, Erik; Hazarika, Devamanyu; Majumder, Navonil; Zadeh, Amir; Morency, Louis-Philippe (2017). "Context-Dependent Sentiment Analysis in User-Generated Videos". Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers): 873–883. doi:10.18653/v1/p17-1081.
- ↑ "OpenFace: An open source facial behavior analysis toolkit - IEEE Conference Publication". doi:10.1109/WACV.2016.7477553.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ ۱۳٫۰ ۱۳٫۱ Poria, Soujanya; Cambria, Erik; Howard, Newton; Huang, Guang-Bin; Hussain, Amir (January 2016). "Fusing audio, visual and textual clues for sentiment analysis from multimodal content". Neurocomputing. 174: 50–59. doi:10.1016/j.neucom.2015.01.095.
- ↑ Shahla, Shahla; Naghsh-Nilchi, Ahmad Reza (2017). "Exploiting evidential theory in the fusion of textual, audio, and visual modalities for affective music video retrieval - IEEE Conference Publication". doi:10.1109/PRIA.2017.7983051.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Poria, Soujanya; Peng, Haiyun; Hussain, Amir; Howard, Newton; Cambria, Erik (October 2017). "Ensemble application of convolutional neural networks and multiple kernel learning for multimodal sentiment analysis". Neurocomputing. 261: 217–230. doi:10.1016/j.neucom.2016.09.117.
- ↑ Pérez-Rosas, Verónica; Mihalcea, Rada; Morency, Louis Philippe (1 January 2013). "Utterance-level multimodal sentiment analysis". Long Papers. Association for Computational Linguistics (ACL).
- ↑ Chui, Michael; Manyika, James; Miremadi, Mehdi; Henke, Nicolaus; Chung, Rita; Nel, Pieter; Malhotra, Sankalp. "Notes from the AI frontier. Insights from hundreds of use cases". McKinsey & Company (به انگلیسی). McKinsey & Company. Retrieved 13 June 2018.