KUCHAYTIRILGAN O‘QITISH: Q-LEARNING, SARSA

Q. Rahimov; M. Javlonova

doi:10.71337/inlibrary.uz.tafps.109014

Авторы

Q. Rahimov
Amaliy matematika va informatika kafedrasi mudiri;
M. Javlonova
Amaliy matematika (sohalar bo’yicha) mutaxassisligi 2-kurs magistranti Farg’ona davlat universiteti

DOI:

https://doi.org/10.71337/inlibrary.uz.tafps.109014

Ключевые слова:

Kuchaytirilgan o‘qitish Q-learning SARSA

Аннотация

Mazkur maqolada kuchaytirilgan o’qitishning strukturasi va algoritmi uning sohalarda keng qo‘llanilishi haqida taklif-tavsiyalar xususida fikr yuritiladi.

THEORETICAL ASPECTS IN THE FORMATION OF

PEDAGOGICAL SCIENCES

International scientific-online conference

91

KUCHAYTIRILGAN O‘QITISH: Q-LEARNING, SARSA

Q.Rahimov

Amaliy matematika va informatika kafedrasi mudiri;

M.Javlonova

Amaliy matematika (sohalar bo’yicha) mutaxassisligi 2-kurs magistranti

Farg’ona davlat universiteti

https://doi.org/10.5281/zenodo.15689011

Annotatsiya.

Mazkur maqolada kuchaytirilgan o’qitishning strukturasi va

algoritmi uning sohalarda keng qo‘llanilishi haqida taklif-tavsiyalar xususida fikr
yuritiladi.

Kalit so’zlar:

Kuchaytirilgan o‘qitish, Q-learning, SARSA

Annotation.

This article discusses the structure and algorithms of

reinforcement learning, along with suggestions and insights regarding its wide
application in various fields.

Keywords:

Reinforcement learning, Q-learning, SARSA.

Kuchaytirilgan o‘qitish (Reinforcement Learning, RL) metodologiyasi

shundan iboratki, aqlli agent (RL-agent) belgilangan muhitda moslasha oladigan
harakatlar ketma-ketligini o‘rganadi — maqsad esa umumiy mukofotni
maksimal darajaga yetkazishdir (1-rasm). Aqlli agent tomonidan bajarilgan
harakat muhit holatida ko‘zga ko‘rinadigan o‘zgarishga sabab bo‘ladi. O‘qitish
texnikasi agent tomonidan bajarilgan eksperimental harakatlar va ularning
muhit holatidagi natijalariga qarab moslashuv modelini shakllantiradi. Umuman
olganda, bu metodologiyani boshqaruv nazariyasiga asoslangan "urinish va
xato" orqali o‘qitish paradigmasi sifatida tushunish mumkin. Harakatlar ketma-
ketligi mukofotlar va jazolar bilan bog‘langan bo‘ladi. RL-agent o‘z siyosatini
(policy) to‘plangan tajriba va natijaviy mukofotlar asosida o‘zgartiradi. U ilgari
amalga oshirgan va mukofotga olib kelgan harakatlarni qayta izlaydi. Barcha
mumkin bo‘lgan harakat–mukofot natijalarining mukammal bazasini tuzish
uchun hali sinovdan o‘tmagan harakatlarni ham sinab ko‘rish zarur bo‘ladi. Bu
harakatlarning foydaliligi to‘g‘risida aniq xulosa chiqarish uchun ba’zilarini bir
necha bor takrorlash kerak bo‘lishi mumkin. Shuning uchun, yangi
imkoniyatlarni o‘rganish (exploration) bilan hozirgi ishonchli harakatlardan
foydalanish (exploitation) o‘rtasida muvozanatni ta’minlash zarur.

RL metodologiyasi quyidagi asosiy elementlardan iborat:
Siyosat (Policy) – RL-agentning asosiy tarkibiy qismi bo‘lib, u muhitning

qabul qilingan holatiga mos ravishda boshqaruv harakatlarini belgilaydi. Kritik
(Critic) – bu taxminiy qiymat funksiyasi hisoblnadi. U agent tomonidan amaldagi
siyosat asosida bajarilgan harakatlarni baholaydi. Shuningdek, kritik agent

THEORETICAL ASPECTS IN THE FORMATION OF

PEDAGOGICAL SCIENCES

International scientific-online conference

92

hozirgi holatning bajarilgan harakatga nisbatan qanday ishlashini aniqlaydi va
siyosatga uzluksiz tuzatishlar kiritadi. Mukofot funksiyasi (Reward Function) –
bu funksiyaning vazifasi — boshqaruv harakati natijasida hosil bo‘lgan muhit
holatining foydalilik darajasini baholaydi. Model (Model) – kelajakdagi
harakatlar oqibatlarini bashorat qilishga yordam beradigan rejalashtiruvchi
vosita hisoblanadi. U turli ehtimoliy holatlarni ko‘zdan kechirish orqali
harakatni rejalashtirishni ta’minlaydi.

1-rasm.

Kuchaytirilgan o‘qitishning yuqori darajadagi oqim sxemasi (High-level

flow)

Q-learning

— bu

off-policy

kuchaytirilgan o‘qitish algoritmi. Ya’ni, bu

degani, u

eng yaxshi (ideal) harakatlarni

taxmin qilsa ham, agent real

harakatlarni o‘rganishda har doim shu yo‘lga amal qilmasligi mumkin (masalan,
tasodifiy harakatlar bilan muhitni o‘rganadi).

'

( , )

max ( , )

( , )

a

Q s a

r

Q s a













 











(2)

Bu yerda:

( , )

Q s a

— holat-harakat juftligi uchun qiymat.



— o‘rganish tezligi (learning rate).

r

— mukofot.



— diskont faktori (kelajakdagi mukofotga ahamiyat darajasi).

THEORETICAL ASPECTS IN THE FORMATION OF

PEDAGOGICAL SCIENCES

International scientific-online conference

93

s

,

'

s

— joriy va keyingi holat.

a

,

'

a

— joriy va keyingi harakat.

Q-learning agenti har doim maksimal

'

( , )

Q s a

ni tanlaydi, hatto tajriba

chog‘ida boshqa harakat tanlangan bo‘lsa ham.

SARSA

— bu

on-policy

algoritm. SARSA nomi quyidagilarning bosh

harflaridan tashkil topgan:

S

tate,

A

ction,

R

eward,

S

tate’,

A

ction’. Bu algoritmda

agent o‘z tanlagan harakatlariga tayanadi. Ya’ni, u

real bajarilgan

harakatga

asoslanib o‘rganadi.

'

( , )

Q s a

r

Q s a













 







(3)

Bu yerda agent holatga qarab harakat tanlaydi, harakat uchun mukofot

oladi, keyingi holat va harakatni ko‘radi va o‘z

Q

-qiymatini shu asosda

yangilaydi.

4-jadval. Q-learning va SARSA farqlari:
Xususiyat

Q-learning

SARSA

Tur

Off-policy

On-policy

O‘rganish manbasi

Optimal

harakat

qiymatiga qarab

Haqiqiy tanlangan

harakatga qarab

Strategiya

Agressiv (maksimal

mukofotga intiladi)

Ehtiyotkor (haqiqiy

harakat asosida)

Tezroq o‘rganish

✅

❌

(barqarorroq,

lekin sekinroq)

Q-learning eng yaxshi mumkin bo‘lgan keyingi harakatni nazarda tutadi.

SARSA esa aynan tanlangan keyingi harakatni oladi.

Q-learning

odatda tezroq

o‘rganadi, ammo ba’zida xavfli yoki noaniq harakatlarni tanlashi mumkin.

SARSA

esa sekinroq o‘rganadi, lekin real holatdagi siyosatga yaqin ishlaydi.

Oddiy misol (labirintdan chiqish):



Q-learning

agent: "Men eng yuqori mukofotga olib boradigan yo‘lni

taxmin qilaman — hatto hozir u yo‘lni tanlamasam ham."



SARSA

agent: "Men hozir tanlagan yo‘limni baholayman — chunki

haqiqiy tajribamdan o‘rganmoqdaman."

•

Foydalanilgan adabiyotlar:

1. Иванов, В. М. И20 Интеллектуальные системы : учебное пособие / В. М.
Иванов. — Екатеринбург : Изд-во Урал. ун-та, 2015. — 92 с.

THEORETICAL ASPECTS IN THE FORMATION OF

PEDAGOGICAL SCIENCES

International scientific-online conference

94

2. Mariette Awad and Rahul Khanna Efficient Learning Machines: Theories,
Concepts, and Applications for Engineers and System Designers Mariette Awad
and Rahul Khanna Copyright © 2015 by Apress Media, LLC.
3. Becker, Suzanna, and Geoffrey E. Hinton. “Self-Organizing Neural Network that
Discovers Surfaces in Random-Dot Stereograms.” Nature 355, no. 6356 (1992):
161–163.
4. Boser, Bernhard E, Isabelle M. Guyon, and Vladimir N. Vapnik. “A Training
Algorithm for Optimal Margin Classifiers.” In COLT ’92: Proceedings of the Fifth
Annual Workshop on Computational Learning Theory, 144–152. New York:
ACM, 1992.

Библиографические ссылки

Иванов, В. М. И20 Интеллектуальные системы : учебное пособие / В. М. Иванов. — Екатеринбург : Изд-во Урал. ун-та, 2015. — 92 с.

Mariette Awad and Rahul Khanna Efficient Learning Machines: Theories, Concepts, and Applications for Engineers and System Designers Mariette Awad and Rahul Khanna Copyright © 2015 by Apress Media, LLC.

Becker, Suzanna, and Geoffrey E. Hinton. “Self-Organizing Neural Network that Discovers Surfaces in Random-Dot Stereograms.” Nature 355, no. 6356 (1992): 161–163.

Boser, Bernhard E, Isabelle M. Guyon, and Vladimir N. Vapnik. “A Training Algorithm for Optimal Margin Classifiers.” In COLT ’92: Proceedings of the Fifth Annual Workshop on Computational Learning Theory, 144–152. New York: ACM, 1992.