دادههای برچسبدار
یادگیری ماشین و دادهکاوی |
---|
دادههای برچسب دار گروهی از نمونهها هستند که با یک یا چند برچسب برچسب گذاری شدهاند. برچسبگذاری معمولاً مجموعهای از دادههای بدون برچسب را میگیرد و هر قطعه از آن را با برچسبهای آموزنده تقویت میکند. به عنوان مثال، یک برچسب داده ممکن است نشان دهد که آیا یک عکس حاوی یک اسب یا یک گاو است، کدام کلمات در یک ضبط صوتی بیان شدهاست، چه نوع عملی در یک ویدیو انجام میشود، موضوع یک مقاله خبری چیست، احساس کلی یک توییت چیست، یا اینکه آیا یک نقطه در اشعه ایکس تومور است.
با درخواست از انسانها برای قضاوت در مورد یک قطعه داده بدون برچسب میتوان برجسبها را به دست آورد. به دست آوردن دادههای برچسب دار بهطور قابل توجهی گرانتر از دادههای بدون برچسب خام است.
دادههای برچسبگذاری شده جمعسپاری شده
[ویرایش]در سال ۲۰۰۶ فی-فی لی، مدیر مؤسسه هوش مصنوعی استنفورد انسان محور، تصمیم گرفت تا مدلها و الگوریتمهای هوش مصنوعی را برای تشخیص تصویر با بزرگتر کردن قابل توجه دادههای آموزشی بهبود بخشد. محققان میلیونها تصویر را از شبکه جهانی وب دانلود کردند و تیمی از دانشجویان کارشناسی شروع به اعمال برچسبهایی برای اشیا روی هر تصویر کردند. در سال ۲۰۰۷ لی کار برچسبگذاری دادهها را در Amazon Mechanical Turk، یک بازار آنلاین برای کارهای دیجیتال برون سپاری کرد. ۳٫۲ میلیون تصویر که توسط بیش از ۴۹۰۰۰ کارگر برچسبگذاری شدهاند، مبنای ImageNet، یکی از بزرگترین پایگاهدادههای برچسبگذاری شده دستی برای تشخیص طرح کلی اشیا را تشکیل میدهند.
برچسب گذاری خودکار دادهها
[ویرایش]میتوان مدلهای یادگیری ماشین را روی دادهها اعمال کرد پس از آنکه یک مجموعه داده برجسب گذاری شده به دست آورد، تا دادههای بدون برچسب جدید را بتوان به مدل ارائه کرد و یک برچسب احتمالی را برای آن قطعه از دادههای بدون برچسب حدس زد یا پیشبینی کرد.[۱]
سوگیری مبتنی بر داده
[ویرایش]تصمیمگیری الگوریتمی در معرض سوگیری برنامهنویس محور و همچنین سوگیری مبتنی بر دادهاست. با وجود قانونی بودن الگوریتم یادگیری ماشین، دادههای آموزشی که بر دادههای برچسبگذاری شده با سوگیری متکی است، منجر به پیش داوریها و حذفیات در یک مدل پیشبینی میشود. دادههای برچسبگذاریشده مورد استفاده برای آموزش یک الگوریتم یادگیری ماشینی خاص باید از نظر آماری نمونهای نماینده آماری باشند تا نتایج را سوگیری نکنند. با توجه به اینکه دادههای برچسبگذاریشده در دسترس برای آموزش سیستمهای تشخیص چهره نشاندهنده یک جمعیت نبودهاست، گروههایی که کمتر در دادههای برچسبگذاری شده نشان داده میشوند، بعداً اغلب به اشتباه طبقهبندی میشوند. در سال ۲۰۱۸ مطالعهای توسط جوی بولاموینی و تیمنیت گبرو نشان داد که دو مجموعه داده تجزیه و تحلیل چهره که برای آموزش الگوریتمهای تشخیص چهره، IJB-A و Adience استفاده شدهاند، به ترتیب از ۷۹٫۶٪ و ۸۶٫۲٪ از انسانهایی با پوست روشنتر تشکیل شدهاند.
منابع
[ویرایش]- ↑ Johnson, Leif. "What is the difference between labeled and unlabeled data?", Stack Overflow, 4 October 2013. Retrieved on 13 May 2017. This article incorporates text by lmjohns3 available under the CC BY-SA 3.0 license.