تجزیه و تحلیل محتوای برخط
تجزیه و تحلیل محتوای آنلاین یا تجزیه و تحلیل متن آنلاین به مجموعه ای از تکنیکهای تحقیق اشاره دارد که برای توصیف و استنباط از مطالب و محتوای آنلاین از طریق کدگذاری و تفسیر سیستماتیک استفاده میشود. تجزیه و تحلیل محتوای آنلاین نوعی تجزیه و تحلیل محتوا برای تجزیه و تحلیل ارتباطات مبتنی بر بستر اینترنت است.
تاریخچه و تعریف[ویرایش]
تجزیه و تحلیل محتوا به عنوان یک بررسی و تفسیر سیستماتیک ارتباطات حداقل به قرن هفدهم برمی گردد. با این حال، فقط در زمان ظهور روزنامه در اوایل قرن ۲۰ بود که تولید انبوه مواد چاپی تقاضا برای تجزیه و تحلیل کمی کلمات چاپی را به وجود آورد.
تعریف برلسون (۱۹۵۲) مبنای اساسی برای تجزیه و تحلیل متن را به عنوان «روش تحقیق برای توصیف عینی، سیستماتیک و کمی محتوای آشکار ارتباطات» فراهم میکند.[۱] تجزیه و تحلیل محتوا شامل دستهبندی واحدهای متون (به عنوان مثال جملات، شبه جملهها، پاراگرافها، اسناد، صفحات وب و غیره) با توجه به ویژگیهای ماهوی آنها به منظور ساخت یک مجموعه دادهاست که به تحلیلگر اجازه میدهد متون را تفسیر کند و استنباط کند. در حالی که تجزیه و تحلیل محتوا غالباً پژوهش کمی است، محققان این روش را به عنوان روشهای ذاتاً آمیخته تصور میکنند، زیرا کدگذاری متنی به درجه بالایی از تفسیر کیفی نیاز دارد. دانشمندان علوم اجتماعی از این روش برای بررسی و تحقیق در مورد رسانههای جمعی، اثرات رسانه ای و تعیین دستور کار استفاده کردهاند.
با ظهور ارتباطات آنلاین، تکنیکهای تجزیه و تحلیل محتوا برای تحقیقات اینترنتی تطبیق داده شدهاند. همانند افزایش روزنامهها، گسترش محتوای آنلاین فرصتی گسترده برای محققان علاقهمند به تجزیه و تحلیل محتوا فراهم میکند. در حالی که استفاده از منابع آنلاین مشکلات و فرصتهای تحقیقاتی جدیدی را به وجود میآورد، روش تحقیق اساسی تجزیه و تحلیل محتوای آنلاین که توسط مک میلان(۲۰۰۰) مشخص شدهاست، از تجزیه و تحلیل محتوا با استفاده از منابع آفلاین قابل تشخیص نیست:
- با استفاده از یک سؤال تحقیقاتی با تمرکز بر شناسایی فرضیههای قابل آزمایش که ممکن است به پیشرفتهای نظری منجر شود، فرمول نویسی کنید.
- یک قاب نمونهگیری را تعریف کنید که یک نمونه از آن استخراج میشود و یک نمونه (که اغلب «پیکره» نامیده میشود) را برای تجزیه و تحلیل میسازد.
- طرح کدگذاری را توسعه دهید و پیادهسازی کنید که بتواند برای طبقهبندی مطالب به منظور پاسخ به سؤال مشخص شده در مرحله ۱ استفاده شود. این مستلزم تعیین یک دوره زمانی، یک واحد زمینه ای که در آن محتوا تعبیه شدهاست، و یک واحد کدگذاری که طبقهبندی محتوا را انجام میدهد.
- رمزگذاران را آموزش دهید تا بهطور مداوم طرح کدگذاری را اجرا کنند و قابلیت اطمینان را در بین رمزگذاران تأیید کنند. این یک گام اساسی در اطمینان از تکرارپذیری تحلیل است.
- تجزیه و تحلیل و تفسیر دادهها. فرضیههای آزمون در مرحله ۱ پیشرفت کرده و در مورد محتوای نمایش داده شده در مجموعه داده نتیجهگیری کنید.
تحلیل محتوا در تحقیقات اینترنتی[ویرایش]
از زمان ظهور ارتباطات آنلاین، دانشمندان در مورد چگونگی انطباق تکنیکهای تجزیه و تحلیل متن برای مطالعه محتوای مبتنی بر بستر وب بحث کردهاند. ماهیت منابع آنلاین در بسیاری از مراحل تجزیه و تحلیل محتوا در مقایسه با منابع آفلاین، به مراقبت به خصوصی نیاز دارد.
در حالی که محتوای آفلاین مانند متن چاپی پس از تولید ثابت میماند، محتوای آنلاین میتواند مرتباً تغییر کند. ماهیت پویای مطالب آنلاین همراه با حجم زیاد و فزاینده محتوای آنلاین میتواند ساخت یک قاب نمونهگیری را برای تهیه نمونه تصادفی از آن چالش بکشد. محتوای یک سایت نیز ممکن است در بین کاربران متفاوت باشد، و این نیاز به مشخصات دقیق قاب نمونه برداری دارد. برخی از محققان از موتورهای جستجو برای ساخت قابهای نمونه برداری استفاده کردهاند. این تکنیک معایبی دارد زیرا نتایج موتور جستجو غیرسیستمی و غیر تصادفی است و آنها را برای دستیابی به یک نمونه بیطرف غیرقابل اعتماد میکند. مسئله قاب نمونهگیری را میتوان با استفاده از کل جمعیت مورد علاقه، مانند توییتهای کاربران خاص توییتر[۲] یا محتوای بایگانی شده آنلاین روزنامههای خاص به عنوان قاب نمونه، دور زد.[۳] تغییر در مطالب آنلاین میتواند طبقهبندی مطالب (مرحله ۳) را به چالش بکشد. از آنجا که محتوای آنلاین میتواند بهطور مکرر تغییر کند، توجه به دوره زمانی که نمونه جمعآوری میشود بسیار مهم است. برای جلوگیری از تغییرات میتوان از یک گام مفید که بایگانی مطالب است استفاده کرد.
تجزیه و تحلیل محتوای خودکار[ویرایش]
افزایش محتوای آنلاین میزان متن دیجیتال قابل استفاده در تحقیقات را به طرز چشمگیری افزایش دادهاست. مقدار متن موجود باعث ایجاد انگیزه در ابتکارات روش شناختی شدهاست تا بتواند مجموعه دادههای متنی را بیش از حد عظیم توصیف کند که طبق روال متداول متد، رمزگذاری عملی نیست.[۳] پیشرفت در روش، همراه با افزایش ظرفیت و کاهش هزینه محاسبات، به محققان امکان استفاده از تکنیکهایی را دادهاست که قبلاً برای تجزیه و تحلیل مجموعههای زیادی از محتوای متنی در دسترس نبودند.
تجزیه و تحلیل خودکار محتوا نشان دهنده فاصله اندکی از روش تجزیه و تحلیل محتوای آنلاین مک میلان است، زیرا رمزگذارهای انسانی با یک روش محاسباتی تکمیل میشوند و برخی از این روشها نیازی به دستهبندی ندارند که به صورت پیشرفته تعریف شوند. مدلهای تجزیه و تحلیل متنی کمی اغلب از روشهای «کلمه کلیدی» استفاده میکنند که ترتیب کلمات را حذف میکنند، کلمات بسیار رایج و بسیار غیر معمول را حذف میکنند و کلمات را از طریق lematatation یا stemming ساده میکنند که ابعاد متن را کاهش میدهد با کاهش کلمات پیچیده به کلمه اصلی آنها.[۴] گرچه این روشها اساساً از نظر نحوه تفسیر متن کاهش گرایانه هستند، اما اگر به درستی اعمال و اعتبارسنجی شوند، میتوانند بسیار مفید واقع شوند.
گریمر و استوارت (۲۰۱۳) دو دسته اصلی از تحلیل متن به صورت خودکار را شناسایی کردند: روشهای نظارت شده و نظارت نشده. روشهای تحت نظارت شامل ایجاد یک طرح کدگذاری و کدگذاری دستی یک نمونه فرعی از اسنادی است که محقق میخواهد تجزیه و تحلیل کند. در حالت ایدهآل، زیرمجموعه ای که «مجموعه آموزش» نامیده میشود نماینده کل نمونه است. سپس مجموعه آموزش رمزگذاری شده برای آموزش «الگوریتم» نحوه مطابقت کلمات در اسناد با هر دسته کدگذاری استفاده میشود. الگوریتم را میتوان برای تجزیه و تحلیل خودکار اسناد موجود در مجموعه و گروهها استفاده کرد.[۴]
- متدهای دیکشنری: محقق مجموعه ای از کلمات کلیدی (n گرم) را برای هر گروه از پیش انتخاب میکند. سپس دستگاه از این کلمات کلیدی برای طبقهبندی هر واحد متن در یک گروه استفاده میکند.
- روشهای فردی: محقق نمونه متون را از قبل برچسب گذاری میکند و یک الگوریتم یادگیری ماشین را آموزش میدهد (به عنوان مثال الگوریتم SVM) با استفاده از آن برچسبها. این ماشین با برون یابی اطلاعات مجموعه آموزشی، بقیه مشاهدات را برچسب گذاری میکند.
- روشهای گروه: محقق به جای استفاده از تنها یک الگوریتم یادگیری ماشین، مجموعه ای از آنها را آموزش میدهد و از برچسبهای متعدد حاصل برای برچسب گذاری بقیه مشاهدات استفاده میکند (برای جزئیات بیشتر به Collingwood و Wiklerson 2011 مراجعه کنید).[۵]
- مقیاس ایدئولوژیک تحت نظارت (به عنوان مثال کلمات کلیدی) برای قرار دادن واحدهای متنی مختلف در یک پیوستار ایدئولوژیکی استفاده میشود. محقق دو مجموعه متن را که نمایانگر هر افراط عقیدتی هستند ، انتخاب میکند که الگوریتم میتواند برای شناسایی کلماتی که متعلق به هر نقطه افراطی هستند، استفاده کند. باقیمانده متون در مجموعه بسته به تعداد کلمات هر مرجع افراطی مقیاس بندی میشوند.[۶]
وقتی مجموعه ای از دستهها برای کدگذاری قبل از تجزیه و تحلیل به خوبی تعریف نشده باشند، میتوان از روشهای بدون نظارت استفاده کرد. برخلاف روشهای تحت نظر، رمزگذارهای انسانی برای آموزش الگوریتم لازم نیستند. یک انتخاب اصلی برای محققان در هنگام استفاده از روشهای بدون نظارت ، انتخاب تعداد دستهها برای مرتبسازی اسناد به جای تعریف قبلی از این دستهها میباشد.
- مدلهای عضویت منفرد: این مدلها بهطور خودکار متنها را در دستههای مختلف دستهبندی میکنند که از یکدیگر جدا هستند و اسناد در یک و تنها یک دسته کدگذاری میشوند.
- مدلهای عضویت مختلط: طبق گفتههای گریمر و استوارت (۱۷)، مدلهای عضویت مختلط «با در نظر گرفتن ساختار اضافی و خاص مسئله، تولید مدلهای یک عضو را بهبود میبخشند.» مدلهای FAC با عضویت مختلط کلمات منفرد را در هر سند به دستههایی طبقهبندی میکنند، به این ترتیب سند بهطور کلی میتواند بهطور همزمان بخشی از چندین دسته باشد. مدلهای موضوعی نشان دهنده یک نمونه از FAC عضویت مختلط است که میتواند برای تجزیه و تحلیل تغییرات در تمرکز بازیگران سیاسی[۲] یا مقالات روزنامه استفاده شود.[۳] یکی از تکنیکهای مورد استفاده برای مدلسازی موضوع، LDA است.
جستارهای وابسته[ویرایش]
منابع[ویرایش]
- ↑ McMillan, Sally J. (March 2000). "The Microscope and the Moving Target: The Challenge of Applying Content Analysis to the World Wide Web". Journalism and Mass Communication Quarterly. 77 (1): 80–98. doi:10.1177/107769900007700107.
- ↑ ۲٫۰ ۲٫۱ Barberá, Pablo; Bonneau, Richard; Egan, Patrick; Jost, John; Nagler, Jonathan; Tucker, Joshua (2014). "Leaders or Followers? Measuring Political Responsiveness in the U.S. Congress Using Social Media Data". Prepared for Delivery at the Annual Meeting of the American Political Science Association.
- ↑ ۳٫۰ ۳٫۱ ۳٫۲ DiMaggio, Paul; Nag, Manish; Blei, David (December 2013). "Exploiting affinities between topic modeling and the sociological perspective on culture: Application to newspaper coverage of U.S. government arts funding". Poetics. 41 (6): 570–606. doi:10.1016/j.poetic.2013.08.004.
- ↑ ۴٫۰ ۴٫۱ Grimmer, Justin; Stewart, Brandon (2013). "Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts". Political Analysis. 21 (3): 1–31.
- ↑ Collingwood, Loren and John Wilkerson. (2011). Tradeoffs in Accuracy and Efficiency in supervised Learning Methods, in The Journal of Information Technology and Politics, Paper 4.
- ↑ Gerber, Elisabeth; Lewis, Jeff (2004). "Beyond the median: Voter preferences, district heterogeneity, and political representation" (PDF). Journal of Political Economy. 112 (6): 1364–83. CiteSeerX 10.1.1.320.8707. doi:10.1086/424737.