پرش به محتوا

داده‌های برچسب‌دار

از ویکی‌پدیا، دانشنامهٔ آزاد

داده‌های برچسب دار گروهی از نمونه‌ها هستند که با یک یا چند برچسب برچسب گذاری شده‌اند. برچسب‌گذاری معمولاً مجموعه‌ای از داده‌های بدون برچسب را می‌گیرد و هر قطعه از آن را با برچسب‌های آموزنده تقویت می‌کند. به عنوان مثال، یک برچسب داده ممکن است نشان دهد که آیا یک عکس حاوی یک اسب یا یک گاو است، کدام کلمات در یک ضبط صوتی بیان شده‌است، چه نوع عملی در یک ویدیو انجام می‌شود، موضوع یک مقاله خبری چیست، احساس کلی یک توییت چیست، یا اینکه آیا یک نقطه در اشعه ایکس تومور است.

با درخواست از انسان‌ها برای قضاوت در مورد یک قطعه داده بدون برچسب می‌توان برجسب‌ها را به دست آورد. به دست آوردن داده‌های برچسب دار به‌طور قابل توجهی گران‌تر از داده‌های بدون برچسب خام است.

داده‌های برچسب‌گذاری شده جمع‌سپاری شده

[ویرایش]

در سال ۲۰۰۶ فی-فی لی، مدیر مؤسسه هوش مصنوعی استنفورد انسان محور، تصمیم گرفت تا مدل‌ها و الگوریتم‌های هوش مصنوعی را برای تشخیص تصویر با بزرگ‌تر کردن قابل توجه داده‌های آموزشی بهبود بخشد. محققان میلیون‌ها تصویر را از شبکه جهانی وب دانلود کردند و تیمی از دانشجویان کارشناسی شروع به اعمال برچسب‌هایی برای اشیا روی هر تصویر کردند. در سال ۲۰۰۷ لی کار برچسب‌گذاری داده‌ها را در Amazon Mechanical Turk، یک بازار آنلاین برای کارهای دیجیتال برون سپاری کرد. ۳٫۲ میلیون تصویر که توسط بیش از ۴۹۰۰۰ کارگر برچسب‌گذاری شده‌اند، مبنای ImageNet، یکی از بزرگترین پایگاه‌داده‌های برچسب‌گذاری شده دستی برای تشخیص طرح کلی اشیا را تشکیل می‌دهند.

برچسب گذاری خودکار داده‌ها

[ویرایش]

می‌توان مدل‌های یادگیری ماشین را روی داده‌ها اعمال کرد پس از آنکه یک مجموعه داده برجسب گذاری شده به دست آورد، تا داده‌های بدون برچسب جدید را بتوان به مدل ارائه کرد و یک برچسب احتمالی را برای آن قطعه از داده‌های بدون برچسب حدس زد یا پیش‌بینی کرد.[۱]

سوگیری مبتنی بر داده

[ویرایش]

تصمیم‌گیری الگوریتمی در معرض سوگیری برنامه‌نویس محور و همچنین سوگیری مبتنی بر داده‌است. با وجود قانونی بودن الگوریتم یادگیری ماشین، داده‌های آموزشی که بر داده‌های برچسب‌گذاری شده با سوگیری متکی است، منجر به پیش داوری‌ها و حذفیات در یک مدل پیش‌بینی می‌شود. داده‌های برچسب‌گذاری‌شده مورد استفاده برای آموزش یک الگوریتم یادگیری ماشینی خاص باید از نظر آماری نمونه‌ای نماینده آماری باشند تا نتایج را سوگیری نکنند. با توجه به اینکه داده‌های برچسب‌گذاری‌شده در دسترس برای آموزش سیستم‌های تشخیص چهره نشان‌دهنده یک جمعیت نبوده‌است، گروه‌هایی که کمتر در داده‌های برچسب‌گذاری شده نشان داده می‌شوند، بعداً اغلب به اشتباه طبقه‌بندی می‌شوند. در سال ۲۰۱۸ مطالعه‌ای توسط جوی بولاموینی و تیمنیت گبرو نشان داد که دو مجموعه داده تجزیه و تحلیل چهره که برای آموزش الگوریتم‌های تشخیص چهره، IJB-A و Adience استفاده شده‌اند، به ترتیب از ۷۹٫۶٪ و ۸۶٫۲٪ از انسان‌هایی با پوست روشن‌تر تشکیل شده‌اند.

منابع

[ویرایش]
  1. Johnson, Leif. "What is the difference between labeled and unlabeled data?", Stack Overflow, 4 October 2013. Retrieved on 13 May 2017.  This article incorporates text by lmjohns3 available under the CC BY-SA 3.0 license.