یادگیری تقویتی (Reinforcement Learning)

الگوریتم SARSA (State-Action-Reward-State’-Action’)

ابتدا مقدار Q(s, a) را به ازای تمام حالات و اعمال برابر صفر در نظر می گیریم.
حالت فعلی سیستم (s) را به دست می آوریم.
براساس الگوریتم ε-greedy، یک عمل (a) را انتخاب می کنیم.
عمل a را روی محیط انجام می دهیم و منتظر امتیاز عمل خود (r) می شویم.
حالت جدید سیستمرا که پس انجام عمل سیستم به آن می رود (s’) به دست می آوریم.
در موقعیت جدید (s’) براساس الگوریتم ε-greedy، یک عمل جدید (a’) را انتخاب می کنیم.
براساس رابطه ی زیر مقدار Q(s, a) را به روز می کنیم:

Q(s, a) = Q(s, a) + α [r + γ.Q(s’, a’) - Q(s, a)]

در آخر بررسی می کنیم که عامل به هدف خود دست یافته است یا خیر. اگر پاسخ منفی بود، الگوریتم از مرحله ی چهارم براساس موقعیت s’ و عمل a’ دوباره تکرار می شود. در غیر این صورت الگوریتم خاتمه می یابد.

SARSA.PNG

موضوع: یادگیری تقویتی (Reinforcement Learning)

امکانات

Display

Threaded View

الگوریتم SARSA

10 کاربر زیر از ravegoat بخاطر این ارسال مفید قدردانی نموده اند:

اطلاعات موضوع

کاربران در حال مشاهده موضوع

Bookmarks

Bookmarks

قوانین ارسال