عنوان
روشي نوين براي بهبود عملکرد يادگيري Q با افزايش تعداد به روز رساني مقادير Q برپايه عمل متضاد
نویسنده (گان)
پويان,مريم;موسوي,امين;گلزاري,شهرام;حاتم,احمد
چکیده مقاله
الگوريتم يادگيري Q يکي از بهترين الگوريتم هاي يادگيري مستقل از مدل مي باشد. هدف از يادگيري، يافتن تخميني از تابع ارزش - عمل بهينه مي باشد که مقادير Q ناميده مي شود. يکي از عمده ترين مشکلات روش يادگيري Q در برخورد با مسائل دنياي واقعي، زياد شدن تعداد حالت هاي محيط و در نتيجه کم شدن سرعت همگرايي است، زيرا براي تضمين همگرايي يادگيري، تمامي زوج هاي حالت - عمل بايد بينهايت بار بازديد شود. در اين نوشتار، از روش ترکيبي برپايه مفاهيم عمل متضاد استفاده شده است. مفاهيم تضاد در يادگيري تقويتي منجر به بهبود سرعت همگرايي مي شود، زيرا در آن به روز رساني مقادير Q براي عمل و عمل متضاد متناظر آن، در يک مرحله و بصورت همزمان انجام مي پذيرد. روش ارائه شده همراه با يافتن بهترين اثر متقابل بين اکتساب و اکتشاف در يادگيري Q، براي افزايش سرعت همگرايي يادگيري استفاده شده است. تکنيک ارائه شده براي مسئله Gridworld شبيه سازي شده است. نتايج به دست آمده بهبود در فرايند يادگيري را نشان مي دهد.

متن کامل مقاله