قدرت یا دقت: تخصیص
اعتبار در سیستم های طبقه بندی کننده یادگیری
شرح:
سیستم های طبقه بندی کننده یک رویکرد جذاب برای طیف گسترده ای از مشکلات یادگیری ماشین هستند که بر اساس تولید خودکار و ارزیابی قوانین شرایط/عمل است. وظایف یادگیری تقویتی آنها به طور همزمان به دو مشکل عمده یادگیری یک خط مشی و تعمیم آن (و اشیاء مرتبط مانند توابع ارزش) می پردازند. با این حال، علیرغم بیش از 20 سال تحقیق، سیستم های طبقه بندی کننده به دلایلی که اغلب نامشخص بود، با موفقیت متفاوتی روبرو شده اند. سرانجام، در سال 1995، استوارت ویلسون ادعا کرد که مدت ها در انتظار پیشرفت بود با سیستم XCS خود، که از چندین جنبه با سیستم های طبقه بندی کننده قبلی متفاوت است، که مهم ترین آنها روشی است که در آن ارزش قوانین را برای استفاده توسط سیستم محاسبه می کند. سیستم تولید قانون به طور خاص، XCS (مانند اکثر سیستمهای طبقهبندیکننده) از یک الگوریتم ژنتیک برای تولید قوانین استفاده میکند، و روشی که در آن تناسب قوانین را محاسبه میکند با سیستمهای قبلی متفاوت است. ویلسون XCS را به عنوان یک سیستم طبقه بندی مبتنی بر دقت و سیستم های قبلی را مبتنی بر قدرت توصیف کرد. این دو با هم تفاوت دارند که در سیستمهای مبتنی بر قدرت، تناسب یک قانون با بازدهی (پاداش/بازده) که دریافت میکند، متناسب است، در حالی که در XCS تابعی از دقت پیشبینی بازده است. بنابراین تفاوت مربوط به تخصیص اعتبار است، یعنی اینکه چگونه سهم یک قانون در عملکرد سیستم تخمین زده می شود. XCS یک سیستم یادگیری Q است. در واقع، این یک تعمیم مناسب از یادگیری Q جدولی است که در آن قوانین حالت ها و اقدامات را جمع می کند. در XCS، مانند سایر یادگیرندگان Q، Q-values برای انتخاب وزنه استفاده می شود.