الگوریتم SARSA (State-Action-Reward-State’-Action’)
- ابتدا مقدار Q(s, a) را به ازای تمام حالات و اعمال برابر صفر در نظر می گیریم.
- حالت فعلی سیستم (s) را به دست می آوریم.
- براساس الگوریتم ε-greedy، یک عمل (a) را انتخاب می کنیم.
- عمل a را روی محیط انجام می دهیم و منتظر امتیاز عمل خود (r) می شویم.
- حالت جدید سیستمرا که پس انجام عمل سیستم به آن می رود (s’) به دست می آوریم.
- در موقعیت جدید (s’) براساس الگوریتم ε-greedy، یک عمل جدید (a’) را انتخاب می کنیم.
- براساس رابطه ی زیر مقدار Q(s, a) را به روز می کنیم:
Q(s, a) = Q(s, a) + α [r + γ.Q(s’, a’) - Q(s, a)]
در آخر بررسی می کنیم که عامل به هدف خود دست یافته است یا خیر. اگر پاسخ منفی بود، الگوریتم از مرحله ی چهارم براساس موقعیت s’ و عمل a’ دوباره تکرار می شود. در غیر این صورت الگوریتم خاتمه می یابد.






پاسخ با نقل قول
Bookmarks