تجزیه و تحلیل محتوای برخط

تجزیه و تحلیل محتوای آنلاین یا تجزیه و تحلیل متن آنلاین به مجموعه ای از تکنیک‌های تحقیق اشاره دارد که برای توصیف و استنباط از مطالب و محتوای آنلاین از طریق کدگذاری و تفسیر سیستماتیک استفاده می‌شود. تجزیه و تحلیل محتوای آنلاین نوعی تجزیه و تحلیل محتوا برای تجزیه و تحلیل ارتباطات مبتنی بر بستر اینترنت است.

تاریخچه و تعریف[ویرایش]

تجزیه و تحلیل محتوا به عنوان یک بررسی و تفسیر سیستماتیک ارتباطات حداقل به قرن هفدهم برمی گردد. با این حال، فقط در زمان ظهور روزنامه در اوایل قرن ۲۰ بود که تولید انبوه مواد چاپی تقاضا برای تجزیه و تحلیل کمی کلمات چاپی را به وجود آورد.

تعریف برلسون (۱۹۵۲) مبنای اساسی برای تجزیه و تحلیل متن را به عنوان «روش تحقیق برای توصیف عینی، سیستماتیک و کمی محتوای آشکار ارتباطات» فراهم می‌کند.^[۱] تجزیه و تحلیل محتوا شامل دسته‌بندی واحدهای متون (به عنوان مثال جملات، شبه جمله‌ها، پاراگراف‌ها، اسناد، صفحات وب و غیره) با توجه به ویژگی‌های ماهوی آنها به منظور ساخت یک مجموعه داده‌است که به تحلیلگر اجازه می‌دهد متون را تفسیر کند و استنباط کند. در حالی که تجزیه و تحلیل محتوا غالباً پژوهش کمی است، محققان این روش را به عنوان روشهای ذاتاً آمیخته تصور می‌کنند، زیرا کدگذاری متنی به درجه بالایی از تفسیر کیفی نیاز دارد. دانشمندان علوم اجتماعی از این روش برای بررسی و تحقیق در مورد رسانه‌های جمعی، اثرات رسانه ای و تعیین دستور کار استفاده کرده‌اند.

با ظهور ارتباطات آنلاین، تکنیک‌های تجزیه و تحلیل محتوا برای تحقیقات اینترنتی تطبیق داده شده‌اند. همانند افزایش روزنامه‌ها، گسترش محتوای آنلاین فرصتی گسترده برای محققان علاقه‌مند به تجزیه و تحلیل محتوا فراهم می‌کند. در حالی که استفاده از منابع آنلاین مشکلات و فرصت‌های تحقیقاتی جدیدی را به وجود می‌آورد، روش تحقیق اساسی تجزیه و تحلیل محتوای آنلاین که توسط مک میلان(۲۰۰۰) مشخص شده‌است، از تجزیه و تحلیل محتوا با استفاده از منابع آفلاین قابل تشخیص نیست:

با استفاده از یک سؤال تحقیقاتی با تمرکز بر شناسایی فرضیه‌های قابل آزمایش که ممکن است به پیشرفت‌های نظری منجر شود، فرمول نویسی کنید.
یک قاب نمونه‌گیری را تعریف کنید که یک نمونه از آن استخراج می‌شود و یک نمونه (که اغلب «پیکره» نامیده می‌شود) را برای تجزیه و تحلیل می‌سازد.
طرح کدگذاری را توسعه دهید و پیاده‌سازی کنید که بتواند برای طبقه‌بندی مطالب به منظور پاسخ به سؤال مشخص شده در مرحله ۱ استفاده شود. این مستلزم تعیین یک دوره زمانی، یک واحد زمینه ای که در آن محتوا تعبیه شده‌است، و یک واحد کدگذاری که طبقه‌بندی محتوا را انجام می‌دهد.
رمزگذاران را آموزش دهید تا به‌طور مداوم طرح کدگذاری را اجرا کنند و قابلیت اطمینان را در بین رمزگذاران تأیید کنند. این یک گام اساسی در اطمینان از تکرارپذیری تحلیل است.
تجزیه و تحلیل و تفسیر داده‌ها. فرضیه‌های آزمون در مرحله ۱ پیشرفت کرده و در مورد محتوای نمایش داده شده در مجموعه داده نتیجه‌گیری کنید.

تحلیل محتوا در تحقیقات اینترنتی[ویرایش]

از زمان ظهور ارتباطات آنلاین، دانشمندان در مورد چگونگی انطباق تکنیک‌های تجزیه و تحلیل متن برای مطالعه محتوای مبتنی بر بستر وب بحث کرده‌اند. ماهیت منابع آنلاین در بسیاری از مراحل تجزیه و تحلیل محتوا در مقایسه با منابع آفلاین، به مراقبت به خصوصی نیاز دارد.

در حالی که محتوای آفلاین مانند متن چاپی پس از تولید ثابت می‌ماند، محتوای آنلاین می‌تواند مرتباً تغییر کند. ماهیت پویای مطالب آنلاین همراه با حجم زیاد و فزاینده محتوای آنلاین می‌تواند ساخت یک قاب نمونه‌گیری را برای تهیه نمونه تصادفی از آن چالش بکشد. محتوای یک سایت نیز ممکن است در بین کاربران متفاوت باشد، و این نیاز به مشخصات دقیق قاب نمونه برداری دارد. برخی از محققان از موتورهای جستجو برای ساخت قاب‌های نمونه برداری استفاده کرده‌اند. این تکنیک معایبی دارد زیرا نتایج موتور جستجو غیرسیستمی و غیر تصادفی است و آنها را برای دستیابی به یک نمونه بی‌طرف غیرقابل اعتماد می‌کند. مسئله قاب نمونه‌گیری را می‌توان با استفاده از کل جمعیت مورد علاقه، مانند توییت‌های کاربران خاص توییتر^[۲] یا محتوای بایگانی شده آنلاین روزنامه‌های خاص به عنوان قاب نمونه، دور زد.^[۳] تغییر در مطالب آنلاین می‌تواند طبقه‌بندی مطالب (مرحله ۳) را به چالش بکشد. از آنجا که محتوای آنلاین می‌تواند به‌طور مکرر تغییر کند، توجه به دوره زمانی که نمونه جمع‌آوری می‌شود بسیار مهم است. برای جلوگیری از تغییرات می‌توان از یک گام مفید که بایگانی مطالب است استفاده کرد.

تجزیه و تحلیل محتوای خودکار[ویرایش]

افزایش محتوای آنلاین میزان متن دیجیتال قابل استفاده در تحقیقات را به طرز چشمگیری افزایش داده‌است. مقدار متن موجود باعث ایجاد انگیزه در ابتکارات روش شناختی شده‌است تا بتواند مجموعه داده‌های متنی را بیش از حد عظیم توصیف کند که طبق روال متداول متد، رمزگذاری عملی نیست.^[۳] پیشرفت در روش، همراه با افزایش ظرفیت و کاهش هزینه محاسبات، به محققان امکان استفاده از تکنیک‌هایی را داده‌است که قبلاً برای تجزیه و تحلیل مجموعه‌های زیادی از محتوای متنی در دسترس نبودند.

تجزیه و تحلیل خودکار محتوا نشان دهنده فاصله اندکی از روش تجزیه و تحلیل محتوای آنلاین مک میلان است، زیرا رمزگذارهای انسانی با یک روش محاسباتی تکمیل می‌شوند و برخی از این روش‌ها نیازی به دسته‌بندی ندارند که به صورت پیشرفته تعریف شوند. مدلهای تجزیه و تحلیل متنی کمی اغلب از روشهای «کلمه کلیدی» استفاده می‌کنند که ترتیب کلمات را حذف می‌کنند، کلمات بسیار رایج و بسیار غیر معمول را حذف می‌کنند و کلمات را از طریق lematatation یا stemming ساده می‌کنند که ابعاد متن را کاهش می‌دهد با کاهش کلمات پیچیده به کلمه اصلی آنها.^[۴] گرچه این روش‌ها اساساً از نظر نحوه تفسیر متن کاهش گرایانه هستند، اما اگر به درستی اعمال و اعتبارسنجی شوند، می‌توانند بسیار مفید واقع شوند.

گریمر و استوارت (۲۰۱۳) دو دسته اصلی از تحلیل متن به صورت خودکار را شناسایی کردند: روش‌های نظارت شده و نظارت نشده. روشهای تحت نظارت شامل ایجاد یک طرح کدگذاری و کدگذاری دستی یک نمونه فرعی از اسنادی است که محقق می‌خواهد تجزیه و تحلیل کند. در حالت ایده‌آل، زیرمجموعه ای که «مجموعه آموزش» نامیده می‌شود نماینده کل نمونه است. سپس مجموعه آموزش رمزگذاری شده برای آموزش «الگوریتم» نحوه مطابقت کلمات در اسناد با هر دسته کدگذاری استفاده می‌شود. الگوریتم را می‌توان برای تجزیه و تحلیل خودکار اسناد موجود در مجموعه و گروه‌ها استفاده کرد.^[۴]

متدهای دیکشنری: محقق مجموعه ای از کلمات کلیدی (n گرم) را برای هر گروه از پیش انتخاب می‌کند. سپس دستگاه از این کلمات کلیدی برای طبقه‌بندی هر واحد متن در یک گروه استفاده می‌کند.
روش‌های فردی: محقق نمونه متون را از قبل برچسب گذاری می‌کند و یک الگوریتم یادگیری ماشین را آموزش می‌دهد (به عنوان مثال الگوریتم SVM) با استفاده از آن برچسب‌ها. این ماشین با برون یابی اطلاعات مجموعه آموزشی، بقیه مشاهدات را برچسب گذاری می‌کند.
روش‌های گروه: محقق به جای استفاده از تنها یک الگوریتم یادگیری ماشین، مجموعه ای از آنها را آموزش می‌دهد و از برچسب‌های متعدد حاصل برای برچسب گذاری بقیه مشاهدات استفاده می‌کند (برای جزئیات بیشتر به Collingwood و Wiklerson 2011 مراجعه کنید).^[۵]
مقیاس ایدئولوژیک تحت نظارت (به عنوان مثال کلمات کلیدی) برای قرار دادن واحدهای متنی مختلف در یک پیوستار ایدئولوژیکی استفاده می‌شود. محقق دو مجموعه متن را که نمایانگر هر افراط عقیدتی هستند ، انتخاب می‌کند که الگوریتم می‌تواند برای شناسایی کلماتی که متعلق به هر نقطه افراطی هستند، استفاده کند. باقیمانده متون در مجموعه بسته به تعداد کلمات هر مرجع افراطی مقیاس بندی می‌شوند.^[۶]

وقتی مجموعه ای از دسته‌ها برای کدگذاری قبل از تجزیه و تحلیل به خوبی تعریف نشده باشند، می‌توان از روشهای بدون نظارت استفاده کرد. برخلاف روشهای تحت نظر، رمزگذارهای انسانی برای آموزش الگوریتم لازم نیستند. یک انتخاب اصلی برای محققان در هنگام استفاده از روش‌های بدون نظارت ، انتخاب تعداد دسته‌ها برای مرتب‌سازی اسناد به جای تعریف قبلی از این دسته‌ها می‌باشد.

مدل‌های عضویت منفرد: این مدل‌ها به‌طور خودکار متن‌ها را در دسته‌های مختلف دسته‌بندی می‌کنند که از یکدیگر جدا هستند و اسناد در یک و تنها یک دسته کدگذاری می‌شوند.
مدل‌های عضویت مختلط: طبق گفته‌های گریمر و استوارت (۱۷)، مدل‌های عضویت مختلط «با در نظر گرفتن ساختار اضافی و خاص مسئله، تولید مدل‌های یک عضو را بهبود می‌بخشند.» مدل‌های FAC با عضویت مختلط کلمات منفرد را در هر سند به دسته‌هایی طبقه‌بندی می‌کنند، به این ترتیب سند به‌طور کلی می‌تواند به‌طور همزمان بخشی از چندین دسته باشد. مدل‌های موضوعی نشان دهنده یک نمونه از FAC عضویت مختلط است که می‌تواند برای تجزیه و تحلیل تغییرات در تمرکز بازیگران سیاسی^[۲] یا مقالات روزنامه استفاده شود.^[۳] یکی از تکنیک‌های مورد استفاده برای مدل‌سازی موضوع، LDA است.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

↑ McMillan, Sally J. (March 2000). "The Microscope and the Moving Target: The Challenge of Applying Content Analysis to the World Wide Web". Journalism and Mass Communication Quarterly. 77 (1): 80–98. doi:10.1177/107769900007700107.
↑ ^۲٫۰ ^۲٫۱ Barberá, Pablo; Bonneau, Richard; Egan, Patrick; Jost, John; Nagler, Jonathan; Tucker, Joshua (2014). "Leaders or Followers? Measuring Political Responsiveness in the U.S. Congress Using Social Media Data". Prepared for Delivery at the Annual Meeting of the American Political Science Association.
↑ ^۳٫۰ ^۳٫۱ ^۳٫۲ DiMaggio, Paul; Nag, Manish; Blei, David (December 2013). "Exploiting affinities between topic modeling and the sociological perspective on culture: Application to newspaper coverage of U.S. government arts funding". Poetics. 41 (6): 570–606. doi:10.1016/j.poetic.2013.08.004.
↑ ^۴٫۰ ^۴٫۱ Grimmer, Justin; Stewart, Brandon (2013). "Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts". Political Analysis. 21 (3): 1–31.
↑ Collingwood, Loren and John Wilkerson. (2011). Tradeoffs in Accuracy and Efficiency in supervised Learning Methods, in The Journal of Information Technology and Politics, Paper 4.
↑ Gerber, Elisabeth; Lewis, Jeff (2004). "Beyond the median: Voter preferences, district heterogeneity, and political representation" (PDF). Journal of Political Economy. 112 (6): 1364–83. CiteSeerX 10.1.1.320.8707. doi:10.1086/424737.

[mcmillan2000-1] McMillan, Sally J. (March 2000). "The Microscope and the Moving Target: The Challenge of Applying Content Analysis to the World Wide Web". Journalism and Mass Communication Quarterly. 77 (1): 80–98. doi:10.1177/107769900007700107.

[barbera2014-2] ۲٫۰ ^۲٫۱ Barberá, Pablo; Bonneau, Richard; Egan, Patrick; Jost, John; Nagler, Jonathan; Tucker, Joshua (2014). "Leaders or Followers? Measuring Political Responsiveness in the U.S. Congress Using Social Media Data". Prepared for Delivery at the Annual Meeting of the American Political Science Association.

[dimaggio2013-3] ۳٫۰ ^۳٫۱ ^۳٫۲ DiMaggio, Paul; Nag, Manish; Blei, David (December 2013). "Exploiting affinities between topic modeling and the sociological perspective on culture: Application to newspaper coverage of U.S. government arts funding". Poetics. 41 (6): 570–606. doi:10.1016/j.poetic.2013.08.004.

[grimmer2013-4] ۴٫۰ ^۴٫۱ Grimmer, Justin; Stewart, Brandon (2013). "Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts". Political Analysis. 21 (3): 1–31.

[5] Collingwood, Loren and John Wilkerson. (2011). Tradeoffs in Accuracy and Efficiency in supervised Learning Methods, in The Journal of Information Technology and Politics, Paper 4.

[6] Gerber, Elisabeth; Lewis, Jeff (2004). "Beyond the median: Voter preferences, district heterogeneity, and political representation" (PDF). Journal of Political Economy. 112 (6): 1364–83. CiteSeerX 10.1.1.320.8707. doi:10.1086/424737.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]