یادگیری تقویتی (Reinforcement Learning) یکی از روش های یادگیری در سیستم های هوشمند است که براساس رابطه ی علت و معلولی عمل می کند. در این روش یادگیری عامل هوشمند (Agent) با توجه به وضعیتی که در محیط دارد، عملی را بر روی محیط انجام می دهد و منتظر نتیجه ی عملش می ماند. این نتیجه می تواند در قالب یک پاداش یا تنبیه باشد. اگر نتیجه در قالب پاداش باشد، عمل انجام شده مطلوب بوده و عامل به هدفی که در آن محیط دارد نزدیک شده است. ولی اگر نتیجه در قالب تنبیه باشد، عمل انجام شده نامطلوب بوده و عامل از هدفش دور شده است. عامل باید یاد بگیرید که چه اعمالی را انجام دهد تا پاداش بیش تری را کسب کند و در نهایت به هدفش برسد. همه ی ما در کودکی با الگویی مشابه یادگیری تقویتی راه رفتن را آموختیم. زمانی که پس از چندین گام برداشتن به زمین می خوردیم (تنبیه)، سعی می کردیم اعمال حرکتی خود را به گونه ای اصلاح کنیم تا تعادل خود را به هنگام راه رفتن حفظ کنیم (پاداش). در نهایت هم به هدف خود که راه رفتن بود رسیدیم.
در ادامه مباحث یادگیری تقویتی در قالب یک مثال شرح داده می شوند. در این مثال عامل هوشمند یک ربات فوتبالیست در پست حمله است. هدف آن است که زمانی توپ به این ربات رسید، ربات با یادگیری تصمیم های مناسب یک حمله را تدارک ببیند و توپ را به گل تبدیل کند.
دوستان لطفا" درخواست ها و سوالات خود پيرامون اين موضوع را در تاپيك جداگانه اي مطرح كنند تا نظم اين تاپيك طي آپديت هاي آينده (نظير افزودن مقالات جديد و سورس كد ها) حفظ شود.
با سپاس برای مشاهده این لینک/عکس می بایست عضو شوید ! برای عضویت اینجا کلیک کنید
Bookmarks