افزایش داده
دادهافزایی (افزایش داده)، در دادهکاوی، به سازوکارهایی برای افزایش شمارِ دادهها گفته میشود. دادههای تازه با ساختن رونوشتها و نمونههایی از دادههای کنونی (دردسترس)، یا ساخت دادههایی با الگوگرفتن از دادههای کنونی (کمی ناهمسان)، ساخته میشوند.[۱] شیوهی دادهافزایی را میتوان یک رگولارایزر (همترازکننده) دانست، که راهکاری است برای چالشِ بیشبرازش در زمان آموزش یک الگوی (مدل) یادگیری ماشین.
تقویت داده برای کلاس بندی تصاویر
[ویرایش]دگرسازی تصاویر
[ویرایش]تغییرات هندسی، چرخش، اصلاح رنگ، برش، چرخش، تزریق نویز و پاک کردن تصادفی برای تقویت تصویر در یادگیری عمیق استفاده میشود.[۱]

معرفی تصاویر مصنوعی جدید
[ویرایش]اگر با مشکل کمبود داده مواجه شویم، تکنیکهای ساده و در عین حال مؤثر مانند تبدیلها ممکن است راهحل محدودی داشته باشند. اگر یک مجموعه داده خیلی کوچک است، یک تصویر تبدیل شده از طریق چرخش و آینه سازی و غیره تنظیم میشود. ممکن است هنوز برای یک مشکل معین خیلی کوچک باشد. راه حل دیگر منبع یابی تصاویر کاملاً جدید و مصنوعی از طریق تکنیکهای مختلف است، به عنوان مثال استفاده از شبکههای زایای دشمنگونه برای ایجاد تصاویر مصنوعی جدید برای تقویت دادهها.[۱] علاوه بر این، الگوریتمهای تشخیص تصویر هنگام انتقال از تصاویر مصنوعی تولید شده توسط Unity Game Engine[۲] بهبود مییابند؛ یعنی برای بهبود یادگیری دادههای دنیای واقعی با تقویت فرایند آموزش با تصاویر رندر شده از محیطهای مجازی.
افزایش داده برای پردازش سیگنال
[ویرایش]سیگنالهای بیولوژیکی
[ویرایش]تقویت دادههای مصنوعی برای طبقهبندی یادگیری ماشین از اهمیت بالایی برخوردار است، به ویژه برای دادههای بیولوژیکی، که تمایل به ابعاد بالا و کمیاب دارند. کاربردهای کنترل و تقویت رباتیک در افراد ناتوان و توانا هنوز عمدتاً بر تجزیه و تحلیلهای موضوعی خاص متکی است. کمبود داده در مشکلات پردازش سیگنال، مانند سیگنالهای نوار عصب و عضله بیماری پارکینسون، که به سختی انجام میشود، قابل توجه است. همچنین که میتوان از یک شبکههای زایای دشمنگونه (به ویژه DCGAN) برای انجام انتقال سبک به منظور تولید سیگنالهای الکترومیوگرافی مصنوعی استفاده کرد که مطابق با سیگنالهای نشان داده شده توسط مبتلایان به بیماری پارکینسون است.[۳]

این رویکردها در نوار مغزی (امواج مغزی) نیز مهم هستند. وانگ و همکاران با بررسی ایده استفاده از شبکههای عصبی کانولوشنال عمیق برای تشخیص احساسات مبتنی بر EEG، نتایج نشان میدهد که با استفاده از تقویت دادهها، تشخیص احساسات بهبود مییابد.[۴]
همچنین اشاره شدهاست که مدل GPT-2 OpenAI قادر به یادگیری و تولید سیگنالهای بیولوژیکی مصنوعی مانند EEG و EMG است.[۵] در این مطالعه، اشاره شد که تشخیص از طریق تقویت دادهها بهبود یافتهاست. همچنین اشاره شد که مدلهای یادگیری ماشین آماری آموزشدیده در حوزه مصنوعی میتوانند دادههای انسانی را طبقهبندی کنند و بالعکس. در تصویر، مقایسه ای با چند نمونه از EEG تولید شده توسط مدل GPT-2 و مغز انسان ارائه شدهاست.
یک رویکرد رایج، تولید سیگنالهای مصنوعی با تنظیم مجدد اجزای دادههای واقعی است. Lotte[۶] روشی برای «تولید آزمایش مصنوعی بر اساس قیاس» پیشنهاد کرد که در آن سه مثال داده x1, x2 ,x3 مثالهایی ارائه میکند و یک x_synthetic شکل میگیرد که به x3 چه x2 به x1 است. یک تبدیل به x1 اعمال میشود تا شبیهتر به x2 شود، سپس همان تبدیل برای x3 اعمال میشود که x_syntetic را تولید میکند.
تحقیقات کنونی نشان میدهد که میتوان تأثیر زیادی از تکنیکهای نسبتاً ساده به دست آورد. به عنوان مثال، فریر[۷] مشاهده کرد که وارد کردن نویز به دادههای جمعآوری شده برای تشکیل نقاط داده اضافی، توانایی یادگیری چندین مدل را بهبود میبخشد که در غیر این صورت عملکرد نسبتاً ضعیفی داشتند. سینگانوس و همکاران.[۸] رویکردهای تابشدن بزرگی، تجزیه موجک و مدلهای EMG سطح مصنوعی (رویکردهای مولد) را برای تشخیص ژست دست مورد مطالعه قرار داد و زمانی که دادههای تقویتشده در طول آموزش معرفی شد، عملکرد طبقهبندی را تا +۱۶٪ افزایش داد.
اخیراً، مطالعات تقویت دادهها شروع به تمرکز بر حوزه یادگیری عمیق کردهاند، بهویژه بر توانایی مدلهای مولد برای ایجاد دادههای مصنوعی که سپس در طی فرایند آموزش مدل طبقهبندی معرفی میشوند. در سال ۲۰۱۸، لو و همکاران.[۹] مشاهده کرد که دادههای مفید سیگنال EEG میتواند توسط شبکههای متخاصم مولد شرطی Wasserstein (GANs) تولید شود که سپس به مجموعه آموزشی در یک چارچوب یادگیری کلاسیک آزمون قطار معرفی شد. نویسندگان دریافتند که عملکرد طبقهبندی با معرفی چنین تکنیکهایی بهبود یافتهاست.
تقویت داده برای تشخیص گفتار
[ویرایش]اشاره شدهاست که تولید داده مصنوعی از MFCCهای گفتاری میتواند تشخیص یک گوینده از گفتههای آنها را از طریق انتقال یادگیری از دادههای مصنوعی که از طریق یک شبکه عصبی بازگشتی در سطح کاراکتر (RNN) ایجاد شدهاست، بهبود بخشد.[۱۰]
افزایش داده ها بر اساس دستکاری های اولیه تصویر
[ویرایش]چرخاندن
[ویرایش]چرخش محور افقی بسیار رایجتر از چرخاندن محور عمودی است. این تقویت یکی از سادهترینها برای پیاده سازی است و در مجموعه دادههایی مانند CIFAR-10 و ImageNet مفید است. این یک تبدیل نگهدارنده برچسب در مجموعه دادههای مربوط به تشخیص متن، مانند MNIST یا SVHN نیست.[۱]
فضای رنگی
[ویرایش]داده های تصویر دیجیتال معمولاً به عنوان تانسور ابعاد (ارتفاع × عرض × کانال های رنگ) کدگذاری می شوند. انجام افزایش در فضای کانال های رنگی استراتژی دیگری است که اجرای آن بسیار کاربردی است. تقویتهای رنگی بسیار ساده شامل جداسازی یک کانال رنگی مانند R، G یا B میشود. یک تصویر را میتوان با جدا کردن آن ماتریس و اضافه کردن 2 ماتریس صفر از کانالهای رنگی به سرعت به نمایش آن در یک کانال رنگی تبدیل کرد. علاوه بر این، مقادیر RGB را می توان به راحتی با عملیات ماتریسی ساده برای افزایش یا کاهش روشنایی تصویر دستکاری کرد. تقویتهای رنگی پیشرفتهتر از استخراج یک هیستوگرام رنگی برای توصیف تصویر حاصل میشوند.[۱]
برش
[ویرایش]برش تصاویر را می توان به عنوان یک مرحله پردازش عملی برای داده های تصویر با ابعاد مختلف ارتفاع و عرض با برش دادن یک ناحیه مرکزی از هر تصویر استفاده کرد. از برش تصادفی نیز می توان برای ارائه اثری مشابه ترجمهها استفاده کرد. تفاوت بین برش تصادفی و ترجمه این است که برش اندازه ورودی را کاهش می دهد، مانند (256, 256) → (224، 224)، در حالی که ترجمهها ابعاد فضایی تصویر را حفظ میکنند. بسته به آستانه کاهش انتخاب شده، این تغییر ممکن است حفظ کننده برچسب نباشد.[۱]
چرخش
[ویرایش]این روش با چرخش تصویر به راست یا چپ بر روی محوری بین 1 تا 359 درجه انجام می شود. ایمنی افزایش چرخش به شدت توسط پارامتر درجه چرخش تعیین می شود. چرخش های جزئی، مانند بین 1 و 20 یا - 1 تا - 20 می تواند برای کارهای تشخیص رقم مانند MNIST مفید باشد، اما با افزایش درجه چرخش، برچسب داده ها دیگر پس از تبدیل حفظ نمی شود.[۱]
ترجمه
[ویرایش]جابجایی تصاویر به چپ، راست، بالا یا پایین می تواند برای جلوگیری از سوگیری موقعیتی در داده ها مفید باشد. به عنوان مثال، اگر تمام تصاویر در یک مجموعه داده در مرکز قرار گیرند، که در مجموعه دادههای تشخیص چهره رایج است، این نیاز به آزمایش مدل بر روی تصاویر کاملاً مرکزی دارد. همانطور که تصویر اصلی در یک جهت ترجمه می شود، فضای باقی مانده را می توان با یک مقدار ثابت مانند ۰ یا ۲۵۵ پر کرد، یا می توان آن را با نویز تصادفی یا گاوسی پر کرد. این لایه ابعاد فضایی تصویر را پس از تقویت حفظ میکند.
تزریق نویز
[ویرایش]تزریق نویز ماتریسی از مقادیر تصادفی را که معمولاً از توزیع گاوسی گرفته میشود، تزریق میکند. افزودن نویز به تصاویر می تواند به CNNها کمک کند تا ویژگیهای قویتری را بیاموزند. تبدیلهای هندسی راهحلهای بسیار خوبی برای بایاسهای موقعیتی موجود در دادههای آموزشی هستند. منابع بالقوه زیادی برای سوگیری وجود دارد که میتواند توزیع دادههای آموزشی را از دادههای آزمایشی جدا کند.[۱]
دگرگونیهای فضای رنگی
[ویرایش]داده های تصویر در 3 ماتریس انباشته، هر کدام به اندازه ارتفاع × عرض کدگذاری میشوند. این ماتریسها مقادیر پیکسلی را برای یک مقدار رنگ RGB نشان میدهند. سوگیریهای نور یکی از رایجترین چالشها برای مشکلات تشخیص تصویر هستند. بنابراین، اثربخشی تبدیلهای فضای رنگی، که به عنوان تبدیلهای فتومتریک نیز شناخته میشوند، برای مفهومسازی نسبتاً شهودی است. یک راه حل سریع برای تصاویر بیش از حد روشن یا تاریک، کاهش یا افزایش مقادیر پیکسل با یک مقدار ثابت است. یکی دیگر از دستکاریهای سریع فضای رنگی این است که ماتریسهای رنگی RGB جداگانه را به هم متصل کنید. تبدیل دیگر شامل محدود کردن مقادیر پیکسل به یک مقدار حداقل یا حداکثر است.[۱]
فیلترهای کرنل
[ویرایش]فیلترهای کرنل یک تکنیک بسیار محبوب در پردازش تصویر برای شفاف کردن و محو کردن تصاویر هستند. این فیلترها با لغزش یک ماتریس n × n روی یک تصویر با یک فیلتر تاری گاوسی کار می کنند که منجر به یک تصویر تارتر می شود یا یک فیلتر لبه عمودی یا افقی با کنتراست بالا که منجر به تصویر واضحتر در امتداد لبهها میشود. تار کردن تصاویر برای افزایش دادهها میتواند منجر به مقاومت بالاتر در برابر تاری حرکت در طول آزمایش شود. علاوه بر این، شارپ کردن تصاویر برای افزایش دادهها میتواند منجر به کپسوله کردن جزئیات بیشتر در مورد اشیاء مورد علاقه شود. یکی از معایب این تکنیک این است که بسیار شبیه به مکانیسمهای داخلی CNN است. CNN ها دارای کرنلهای پارامتریک هستند که روش بهینه برای نمایش لایه به لایه تصاویر را یاد میگیرند.[۱]
مخلوط کردن تصاویر
[ویرایش]اختلاط تصاویر با هم با میانگینگیری مقادیر پیکسلشان، یک رویکرد بسیار غیرمستقیم برای افزایش داده است. تصاویری که با انجام این کار تولید می شوند، برای یک ناظر انسانی تبدیل مفیدی به نظر نمیرسند. یک عیب آشکار این تکنیک این است که از دیدگاه انسانی منطقی نیست. درک یا توضیح افزایش عملکرد حاصل از مخلوط کردن تصاویر بسیار دشوار است. یکی از توضیح های ممکن برای این موضوع این است که افزایش اندازه مجموعه داده ها منجر به نمایش قویتر ویژگی های سطح پایین مانند خطوط و لبهها میشود.[۱]
پاک کردن تصادفی
[ویرایش]این تکنیک به طور خاص برای مبارزه با چالش های تشخیص تصویر به دلیل انسداد طراحی شده است. انسداد به زمانی گفته می شود که برخی از قسمت های جسم نامشخص باشد. پاک کردن تصادفی با وادار کردن مدل به یادگیری ویژگی های توصیفی در مورد یک تصویر و جلوگیری از تطبیق بیش از حد آن به یک ویژگی بصری خاص در تصویر، این کار را متوقف می کند. جدا از چالش بصری انسداد، پاک کردن تصادفی یک تکنیک امیدوارکننده برای تضمین توجه شبکه به کل تصویر است، نه فقط به زیر مجموعه ای از آن.[۱]
افزایش داده ها بر اساس یادگیری عمیق
[ویرایش]افزایش فضای ویژگی
[ویرایش]شبکههای عصبی در نگاشت ورودیهای با ابعاد بالا به نمایشهای با ابعاد پایینتر بسیار قدرتمند هستند. این شبکهها میتوانند تصاویر را به کلاس های باینری یا n × 1 بردار در لایههای مسطح نگاشت کنند. پردازش متوالی شبکههای عصبی را میتوان به گونهای دستکاری کرد که نمایشهای میانی را بتوان از شبکه به عنوان یک کل جدا کرد. استفاده از خودرمزگذارها به ویژه برای انجام افزایش فضای ویژگی روی دادهها مفید است. خودرمزگذارها با داشتن نیمی از شبکه، رمزگذار، کار میکنند، تصاویر را به صورت نمایشهای برداری کم بعدی نگاشت می کنند، به طوری که نیمه دیگر شبکه، رمزگشا، می تواند این بردارها را به تصویر اصلی بازسازی کند. این نمایش کدگذاری شده برای افزایش فضای ویژگی استفاده می شود.[۱]
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ ۱٫۰۰ ۱٫۰۱ ۱٫۰۲ ۱٫۰۳ ۱٫۰۴ ۱٫۰۵ ۱٫۰۶ ۱٫۰۷ ۱٫۰۸ ۱٫۰۹ ۱٫۱۰ ۱٫۱۱ ۱٫۱۲ Shorten, Connor; Khoshgoftaar, Taghi M. (2019). "A survey on Image Data Augmentation for Deep Learning". Mathematics and Computers in Simulation. springer. 6: 60. doi:10.1186/s40537-019-0197-0.
- ↑ Bird, Jordan J; Faria, Diego R; Ekart, Aniko; Ayrosa, Pedro PS (2020-08-30). From simulation to reality: CNN transfer learning for scene classification. 2020 IEEE 10th International Conference on Intelligent Systems (IS). Varna, Bulgaria: IEEE. pp. 619–625
- ↑ Anicet Zanini, Rafael; Luna Colombini, Esther (2020). "Parkinson's Disease EMG Data Augmentation and Simulation with DCGANs and Style Transfer". Sensors. 20 (9): 2605. doi:10.3390/s20092605. ISSN 1424-8220. PMC 7248755. PMID 32375217
- ↑ Anicet Zanini, Rafael; Luna Colombini, Esther (2020). "Parkinson's Disease EMG Data Augmentation and Simulation with DCGANs and Style Transfer". Sensors. 20 (9): 2605. doi:10.3390/s20092605. ISSN 1424-8220. PMC 7248755. PMID 32375217
- ↑ Bird, Jordan J. ; Pritchard, Michael George; Fratini, Antonio; Ekart, Aniko; Faria, Diego (2021). "Synthetic Biological Signals Machine-generated by GPT-2 improve the Classification of EEG and EMG through Data Augmentation" (PDF). IEEE Robotics and Automation Letters. 6 (2): 3498–3504.
- ↑ Lotte, Fabien (2015). "Signal Processing Approaches to Minimize or Suppress Calibration Time in Oscillatory Activity-Based Brain–Computer Interfaces". Proceedings of the IEEE. 103 (6): 871–890. doi:10.1109/JPROC.2015.2404941. ISSN 0018-9219. S2CID 22472204.
- ↑ Freer, Daniel; Yang, Guang-Zhong (2020). "Data augmentation for self-paced motor imagery classification with C-LSTM". Journal of Neural Engineering. 17 (1): 016041. Bibcode:2020JNEng..17a6041F. doi:10.1088/1741-2552/ab57c0. hdl:10044/1/75376. ISSN 1741-2552. PMID 31726440.
- ↑ Tsinganos, Panagiotis; Cornelis, Bruno; Cornelis, Jan; Jansen, Bart; Skodras, Athanassios (2020). "Data Augmentation of Surface Electromyography for Hand Gesture Recognition". Sensors. 20(17): 4892. doi:10.3390/s20174892. ISSN 1424-8220. PMC 7506981. PMID 32872508.
- ↑ Luo, Yun; Lu, Bao-Liang (2018). "EEG Data Augmentation for Emotion Recognition Using a Conditional Wasserstein GAN". 2018 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). Annual International Conference of the IEEE Engineering in Medicine and Biology Society. IEEE Engineering in Medicine and Biology Society. Annual International Conference. 2018. pp. 2535–2538. doi:10.1109/EMBC.2018.8512865. ISBN 978-1-5386-3646-6. PMID 30440924. S2CID 53105445.
- ↑ Bird, Jordan J. ; Faria, Diego R. ; Premebida, Cristiano; Ekart, Aniko; Ayrosa, Pedro P. S. (2020). "Overcoming Data Scarcity in Speaker Identification: Dataset Augmentation with Synthetic MFCCs via Character-level RNN". 2020 IEEE International Conference on Autonomous Robot Systems and Competitions (ICARSC). pp. 146–151. doi:10.1109/ICARSC49921.2020.9096166. ISBN 978-1-7281-7078-7. S2CID 218832459.