تداخل فاجعهبار
تداخل فاجعهبار، به عنوان فراموشی فاجعهبار شناخته میشود، تمایل یک شبکه عصبی مصنوعی بهطور ناگهانی و به شدت فراموش کردن اطلاعاتی که قبلاً یاد گرفته بود بر اساس دریافت اطلاعات جدید است.
[۱][۲] شبکههای عصبی بخش مهمی از رویکرد شبکهای و رویکرد اتصالگرا به علوم شناختی هستند. با استفاده از این شبکهها، قابلیتهای انسانی مانند حافظه و یادگیری را میتوان با استفاده از شبیهسازیهای کامپیوتری مدلسازی کرد.
تداخل فاجعهبار یک مسئله مهم است که در ایجاد مدلهای اتصالی حافظه باید مدنظر قرار گیرد. این موضوع در ابتدا توسط تحقیقات مککلاسکی و کوهن در سال (1989)[۱] و رتکلیف در سال (1990)[۲] مورد توجه جامعه علمی قرار گرفت. این مسئله یک بروز رادیکالی از دوگانگی "حساسیت-پایداری"[۳] یا "پلاستیسیته-پایداری" [۳] است. بهطور خاص، این مشکلات به چالش تولید یک شبکه عصبی مصنوعی اشاره دارند که حساس به اطلاعات جدید باشد ، اما توسط آن تخریب نشود.
جدول های مراجعه و جستجو و شبکههای اتصالگرا در طیف پلاستیسیته-پایداری در مقابل هم قرار دارند.[۳] جدولهای جستجو بهطور کامل پایدار در برابر اطلاعات جدید باقی میمانند، اما قابلیت تعمیم نیستند، به عبارتی استنباط اصول کلی از ورودیهای جدید را ندارند. از سوی دیگر، شبکههای اتصالگرا مانند شبکه برگشتی استاندارد قادر به تعمیم به ورودیهای نامشخص هستند، اما تسبت به اطلاعات جدید بسیار حساس هستند. مدلهای برگشتی مانند شبکه برگشتی بازپخشی میتوانند به حافظه انسان اشاره کنند، در حدی که توانایی انسان برای تعمیمدهی را بازتاب میدهند، اما این شبکهها معمولاً پایداری کمتری نسبت به حافظه انسانی دارند. بهطور قابل توجهی، این شبکههای برگشتی بازپخشی در معرض تداخل فاجعهبار هستند. این یک مشکل در مدلسازی حافظه انسان است، زیرا بر خلاف این شبکهها، انسانها معمولاً فراموشی فاجعهبار را نشان نمیدهند.[۳]
تاریخچه تداخل فاجعه بار:
اصطلاح تداخل فاجعهبار در ابتدا توسط مککلاسکی و کوهن در سال (1989) ابداع شد، اما تحقیقات رتکلیف در سال (1990) مورد توجه جامعه علمی واقع شد.[۲]
مسئله یادگیری توالی : مککلوسکی و کوهن در سال (۱۹۸۹)
مککلوسکی و کوهن در سال(۱۹۸۹) در دو آزمایش مختلف با استفاده از مدل شبکه عصبی با الگوریتم پسانتشار خطا، مشکل تداخل فاجعهبار در هنگام یادگیری را مشاهده کردند.
آزمایش ۱: یادگیری جمع اعداد یک و دو
در آزمایش اول ، آنها یک شبکه عصبی پسانتشاری استاندارد را با استفاده از یک مجموعه آموزشی واحد آموزش دادند، که شامل ۱۷ مسئله جمع یک رقمی بود (به عنوان مثال، ۱ + ۱ تا ۹ + ۱، و ۱ + ۲ تا ۱ + ۹) تا شبکه بتواند به درستی به همه آنها پاسخ دهد. خطا بین خروجی و خروجی مطلوب بهطور مداوم در طول جلسات آموزش کاهش یافت که نشان میدهد شبکه توانسته است خروجی مطلوب را بهتر در طول آزمونهای آموزشی نمایش دهد. سپس آنها شبکه را با استفاده از یک مجموعه آموزشی واحد که شامل ۱۷ مسئله جمع دو رقمی بود (به عنوان مثال، ۲ + ۱ تا ۲ + ۹ و ۱ + ۲ تا ۹ + ۲) آموزش دادند تا شبکه بتواند به درستی به همه آنها پاسخ دهد. آنها مشاهده کردند که روش آنها مشابه روش یادگیری یک کودک برای یادگیری اعداد جمع است. پس از هر آزمایش یادگیری در مورد اعداد دو، شبکه برای دانش خود در مورد اعداد یک و دو جمع آزمون شد. مانند عدد یک، عدد دو به سرعت توسط شبکه یادگرفته میشدند. با این حال، مککلوسکی و کوهن توجه داشتند که شبکه دیگر قادر به پاسخ درست به مسائل جمع یک ، حتی پس از یک آزمایش یادگیری عدد دو نیست . الگوی خروجی تولید شده در پاسخ به یک ها اغلب به شدت شبیه به الگوی خروجی یک عدد نادرست بود . این به عنوان میزان زیادی خطا در نظر گرفته میشود. علاوه بر این، مسائل ۲ + ۱ و ۲ + ۲ که در هر دو مجموعه آموزشی وجود داشتند، حتی در آزمایشهای یادگیری اولیه دو ها نیز اختلال زیادی نشان میدهند.
آزمایش ۲: تکرار مطالعه بارنز و آندروود در سال(۱۹۵۹)[۳]
در مدل ارتباطی دوم ، مککلوسکی و کوهن سعی کردند تا مطالعه در مورد تداخل پسفعال در انسانها، توسط بارنز و آندروود در سال (۱۹۵۹) را تکرار کنند. آنها مدل را بر روی لیستهای A-B و A-C آموزش دادند و الگوی متناظر را در بردار ورودی (الگوی ورودی) برای تفکیک بین لیستها استفاده کردند. بهطور خاص، شبکه آموزش داده شده بود تا در صورت نمایش تحریک A و الگوی متناظر A-B با پاسخ درست B پاسخ دهد و در صورت نمایش تحریک A و الگوی متناظر A-C با پاسخ صحیح C پاسخ دهد. زمانی که مدل همزمان بر روی آیتمهای A-B و A-C آموزش داده شد، شبکه به سرعت تمام ارتباطات را به درستی یاد گرفت. در آموزش توالی، لیست A-B ابتدا آموزش داده میشد، سپس لیست A-C. پس از هر نمایش لیست A-C، عملکرد برای هر دو لیست A-B و A-C اندازهگیری میشد. آنها متوجه شدند که مقدار آموزش در لیست A-C که منجر به ۵۰٪ پاسخهای درست میشد در مطالعه بارنز و آندروود، به تقریباً ۰٪ پاسخ درست توسط شبکه پسانتشاری خطا منجر شد. علاوه بر این، آنها متوجه شدند که شبکه در هنگامی که به آن این دستور داده میشد که الگوی پاسخ B را بدهد، الگوی پاسخ C را نشان میدهد. این نشان میدهد که لیست A-C به ظاهر لیست A-B را بازنویسی کرده است. این میتواند مانند یادگیری کلمه سگ و سپس یادگیری کلمه صندلی باشد و سپس متوجه شوید که نمیتوانید کلمه گربه را به خوبی تشخیص دهید، بلکه هنگامی که با کلمه سگ مواجه میشوید به کلمه صندلی فکر میکنید.
مککلوسکی و کوهن سعی کردند تا با استفاده از تعدادی تغییر دهنده از جمله تغییر تعداد واحدهای مخفی، تغییر مقدار پارامتر نرخ یادگیری، بیشآموزش بر روی لیست A-B، منجمد کردن بعضی از وزنههای ارتباطی و تغییر مقادیر هدف به جای ۰.۱ و ۰.۹ به جای ۰ و ۱، تداخل فاجعهباری که توسط شبکه نشان داده شده را کاهش دهند. با این حال، هیچیک از این تغییرات مداخلههای ناشی از تداخل فاجعهبار را بهطور رضایتبخشی کاهش ندادند که توسط شبکهها نشان داده شد.
در کل، مککلوسکی و کوهن (۱۹۸۹) به نتیجهگیریهای زیر رسیدند:
- حداقل در صورتی که یادگیری جدید وزنهای مربوط به نمایش داده شده را تغییر دهد، برخی از تداخلها رخ میدهد.
- هر چه مقدار یادگیری جدید بیشتر باشد، اختلال در دانش قدیمی بیشتر خواهد بود.
- تداخل در شبکههای پسانتشاری فاجعهبار است که وقتی یادگیری به صورت توالی و نه همزمان انجام میشود، رخ میدهد.
محدودیتهای تحمیل شده توسط توابع یادگیری و فراموشی: رتکلیف در سال(۱۹۹۰)
رتکلیف (۱۹۹۰) از چندین مجموعه مدل پسانتشاری استفاده کرد که به روشهای استاندارد حافظه تشخیصی اعمال شدند و آیتمها به صورت توالی یادگرفته شدند.[۲] پس از بررسی عملکرد مدلهای تشخیصی، او دو مشکل اصلی را مشاهده کرد:
- اطلاعاتی که به خوبی یادگرفته شده بودند، همزمان با یادگیری اطلاعات جدید به صورت فاجعهباری فراموش میشدند، بههمین ترتیب در شبکههای پسانتشاری بزرگ و کوچک.
- حتی یک آزمایش یادگیری با اطلاعات جدید منجر به از دست دادن قابل توجهی از اطلاعات قدیمی میشد، مشابه یافتههای مککلوسکی و کوهن (۱۹۸۹).[۱] رتکلیف همچنین متوجه شد که خروجیهای حاصل بهطور معمول مجموعهای از ورودیهای قبلی و ورودی جدید بودند. در شبکههای بزرگتر، آیتمهایی که به گروهها یادگرفته شده بودند (برای مثال AB و سپس CD) مقاومت بیشتری در برابر فراموشی نسبت به آیتمهای به تنهایی یادگرفته شده (برای مثال A و سپس B و سپس C...) داشتند. با این حال، فراموشی برای آیتمهایی که به صورت گروهی یادگرفته شده بودند همچنان بسیار بزرگ بود. اضافه کردن واحدهای مخفی جدید به شبکه تداخل را کاهش نمیدهد.
تمایز بین آیتمهای مور
در مطالعه و آیتمهای قبلاً دیده شده کاهش یافته است در حالی که یادگیری ادامه مییابد. این نتیجه در تناقض با مطالعات حافظه انسان است که نشان میدهد تمایز با یادگیری افزایش مییابد. رتکلیف تلاش کرد این مشکل را با اضافه کردن «گرههای پاسخ» که بهطور انتخابی به ورودیهای قدیمی و جدید پاسخ میدهند، رفع کند. با این حال، این روش کار نکرد زیرا این گرههای پاسخ برای همه ورودیها فعال میشدند. مدلی که از الگوی زمینه استفاده میکرد همچنین توانایی تمایز بین آیتمهای جدید و قدیمی را افزایش نداد.
- ↑ ۱٫۰ ۱٫۱ ۱٫۲ "Digital object identifier". Wikipedia (به انگلیسی). 2023-05-30.
- ↑ ۲٫۰ ۲٫۱ ۲٫۲ ۲٫۳ McCloskey, Michael; Cohen, Neal J. (1989). Catastrophic Interference in Connectionist Networks: The Sequential Learning Problem. Psychology of Learning and Motivation. Vol. 24. pp. 109–165.
- ↑ ۳٫۰ ۳٫۱ ۳٫۲ ۳٫۳ ۳٫۴ "Catastrophic interference". Wikipedia (به انگلیسی). 2023-04-17.