M3RS4D 50062 (18-03-15)
M3RS4D 50062 (18-03-15)
با سلام!برای مشاهده این لینک/عکس می بایست عضو شوید ! برای عضویت اینجا کلیک کنید ارسالی توسط SHABNAM.TAVARI برای مشاهده این لینک/عکس می بایست عضو شوید ! برای عضویت اینجا کلیک کنید
ضمن تبریک سال نو، عضویت تون رو در شهر سخت افزار تبریک می گم.
در یادگیری تقویتی تکاملی ما برای جست و جو در فضای سیاست ها به جای به کارگیری الگوریتم های تفاضلی (Temporal Difference یا TD) از الگوریتم های تکاملی نظیر الگوریتم ژنتیک استفاده می کنیم. در TD برای هر سیاست پارامتری به عنوان کیفیت تعریف میشه که نشان دهنده ی میزان کارایی اون سیاست در یک حالت خاص هستش. بر اساس این الگوریتم کیفیت سیاست های مطلوب افزایش پیدا می کنه و به واسطه ی کیفیت هر پارامتر می تونیم به میزان مطلوب بودن اون سیاست پی ببریم.
در مقابل در یادگیری تقویتی تکاملی هر سیاست به صورت یک کروموزوم در میاد. این کرموزوم ها طی فرآیند های تولید مثل و جهش نسل های برتر رو تشکیل می دن. نسل های برتر شامل کروموزوم های برتر اند و چون هر کروموزوم نماینده ی یک سیاست منحصر به فرد است، رمز گشایی نسل های برتر ما رو به سیاست های مطلوب خواهند رساند. برخلاف روش TD در این روش سیاست های مطلوب براساس یک روند تکاملی شناسایی می شوند.
پیشنهاد میشه که دو مقاله ی زیر رو مطالعه بفرمایید:
http://arxiv.org/pdf/1106.0221.pdf
https://www.cs.utexas.edu/~pstone/Pa...nks/JMLR06.pdf
در رابطه با پیاده سازی در MATLAB بنده جعبه ابزار اختصاصی ای رو برای EQL سراغ ندارم ولی می تونید از Toolbox زیر جهت این پیاده سازی ایده بگیرید:
ApproxRL: A Matlab Toolbox for Approximate RL and DP
موفق باشید
آرمین
'چو ایران نباشد، تن من مباد
Dim Armin As Iranian
If Iran.Enabled = False Then Armin.Enabled = False
AMD>INTEL (02-04-15), M3RS4D 50062 (02-04-15), Rezasam1 (02-04-15)
1 کاربر در حال مشاهده این موضوع. (0 عضو و 1 میهمان)
Bookmarks