THEORETICAL ASPECTS IN THE FORMATION OF
PEDAGOGICAL SCIENCES
International scientific-online conference
91
KUCHAYTIRILGAN O‘QITISH: Q-LEARNING, SARSA
Q.Rahimov
Amaliy matematika va informatika kafedrasi mudiri;
M.Javlonova
Amaliy matematika (sohalar bo’yicha) mutaxassisligi 2-kurs magistranti
Farg’ona davlat universiteti
https://doi.org/10.5281/zenodo.15689011
Annotatsiya.
Mazkur maqolada kuchaytirilgan o’qitishning strukturasi va
algoritmi uning sohalarda keng qo‘llanilishi haqida taklif-tavsiyalar xususida fikr
yuritiladi.
Kalit so’zlar:
Kuchaytirilgan o‘qitish, Q-learning, SARSA
Annotation.
This article discusses the structure and algorithms of
reinforcement learning, along with suggestions and insights regarding its wide
application in various fields.
Keywords:
Reinforcement learning, Q-learning, SARSA.
Kuchaytirilgan o‘qitish (Reinforcement Learning, RL) metodologiyasi
shundan iboratki, aqlli agent (RL-agent) belgilangan muhitda moslasha oladigan
harakatlar ketma-ketligini o‘rganadi — maqsad esa umumiy mukofotni
maksimal darajaga yetkazishdir (1-rasm). Aqlli agent tomonidan bajarilgan
harakat muhit holatida ko‘zga ko‘rinadigan o‘zgarishga sabab bo‘ladi. O‘qitish
texnikasi agent tomonidan bajarilgan eksperimental harakatlar va ularning
muhit holatidagi natijalariga qarab moslashuv modelini shakllantiradi. Umuman
olganda, bu metodologiyani boshqaruv nazariyasiga asoslangan "urinish va
xato" orqali o‘qitish paradigmasi sifatida tushunish mumkin. Harakatlar ketma-
ketligi mukofotlar va jazolar bilan bog‘langan bo‘ladi. RL-agent o‘z siyosatini
(policy) to‘plangan tajriba va natijaviy mukofotlar asosida o‘zgartiradi. U ilgari
amalga oshirgan va mukofotga olib kelgan harakatlarni qayta izlaydi. Barcha
mumkin bo‘lgan harakat–mukofot natijalarining mukammal bazasini tuzish
uchun hali sinovdan o‘tmagan harakatlarni ham sinab ko‘rish zarur bo‘ladi. Bu
harakatlarning foydaliligi to‘g‘risida aniq xulosa chiqarish uchun ba’zilarini bir
necha bor takrorlash kerak bo‘lishi mumkin. Shuning uchun, yangi
imkoniyatlarni o‘rganish (exploration) bilan hozirgi ishonchli harakatlardan
foydalanish (exploitation) o‘rtasida muvozanatni ta’minlash zarur.
RL metodologiyasi quyidagi asosiy elementlardan iborat:
Siyosat (Policy) – RL-agentning asosiy tarkibiy qismi bo‘lib, u muhitning
qabul qilingan holatiga mos ravishda boshqaruv harakatlarini belgilaydi. Kritik
(Critic) – bu taxminiy qiymat funksiyasi hisoblnadi. U agent tomonidan amaldagi
siyosat asosida bajarilgan harakatlarni baholaydi. Shuningdek, kritik agent
THEORETICAL ASPECTS IN THE FORMATION OF
PEDAGOGICAL SCIENCES
International scientific-online conference
92
hozirgi holatning bajarilgan harakatga nisbatan qanday ishlashini aniqlaydi va
siyosatga uzluksiz tuzatishlar kiritadi. Mukofot funksiyasi (Reward Function) –
bu funksiyaning vazifasi — boshqaruv harakati natijasida hosil bo‘lgan muhit
holatining foydalilik darajasini baholaydi. Model (Model) – kelajakdagi
harakatlar oqibatlarini bashorat qilishga yordam beradigan rejalashtiruvchi
vosita hisoblanadi. U turli ehtimoliy holatlarni ko‘zdan kechirish orqali
harakatni rejalashtirishni ta’minlaydi.
1-rasm.
Kuchaytirilgan o‘qitishning yuqori darajadagi oqim sxemasi (High-level
flow)
Q-learning
— bu
off-policy
kuchaytirilgan o‘qitish algoritmi. Ya’ni, bu
degani, u
eng yaxshi (ideal) harakatlarni
taxmin qilsa ham, agent real
harakatlarni o‘rganishda har doim shu yo‘lga amal qilmasligi mumkin (masalan,
tasodifiy harakatlar bilan muhitni o‘rganadi).
'
'
'
( , )
( , )
max ( , )
( , )
a
Q s a
Q s a
r
Q s a
Q s a
(2)
Bu yerda:
( , )
Q s a
— holat-harakat juftligi uchun qiymat.
— o‘rganish tezligi (learning rate).
r
— mukofot.
— diskont faktori (kelajakdagi mukofotga ahamiyat darajasi).
THEORETICAL ASPECTS IN THE FORMATION OF
PEDAGOGICAL SCIENCES
International scientific-online conference
93
s
,
'
s
— joriy va keyingi holat.
a
,
'
a
— joriy va keyingi harakat.
Q-learning agenti har doim maksimal
'
'
( , )
Q s a
ni tanlaydi, hatto tajriba
chog‘ida boshqa harakat tanlangan bo‘lsa ham.
SARSA
— bu
on-policy
algoritm. SARSA nomi quyidagilarning bosh
harflaridan tashkil topgan:
S
tate,
A
ction,
R
eward,
S
tate’,
A
ction’. Bu algoritmda
agent o‘z tanlagan harakatlariga tayanadi. Ya’ni, u
real bajarilgan
harakatga
asoslanib o‘rganadi.
'
'
( , )
( , )
( , )
( , )
Q s a
Q s a
r
Q s a
Q s a
(3)
Bu yerda agent holatga qarab harakat tanlaydi, harakat uchun mukofot
oladi, keyingi holat va harakatni ko‘radi va o‘z
Q
-qiymatini shu asosda
yangilaydi.
4-jadval. Q-learning va SARSA farqlari:
Xususiyat
Q-learning
SARSA
Tur
Off-policy
On-policy
O‘rganish manbasi
Optimal
harakat
qiymatiga qarab
Haqiqiy tanlangan
harakatga qarab
Strategiya
Agressiv (maksimal
mukofotga intiladi)
Ehtiyotkor (haqiqiy
harakat asosida)
Tezroq o‘rganish
✅
❌
(barqarorroq,
lekin sekinroq)
Q-learning eng yaxshi mumkin bo‘lgan keyingi harakatni nazarda tutadi.
SARSA esa aynan tanlangan keyingi harakatni oladi.
Q-learning
odatda tezroq
o‘rganadi, ammo ba’zida xavfli yoki noaniq harakatlarni tanlashi mumkin.
SARSA
esa sekinroq o‘rganadi, lekin real holatdagi siyosatga yaqin ishlaydi.
Oddiy misol (labirintdan chiqish):
Q-learning
agent: "Men eng yuqori mukofotga olib boradigan yo‘lni
taxmin qilaman — hatto hozir u yo‘lni tanlamasam ham."
SARSA
agent: "Men hozir tanlagan yo‘limni baholayman — chunki
haqiqiy tajribamdan o‘rganmoqdaman."
•
Foydalanilgan adabiyotlar:
1. Иванов, В. М. И20 Интеллектуальные системы : учебное пособие / В. М.
Иванов. — Екатеринбург : Изд-во Урал. ун-та, 2015. — 92 с.
THEORETICAL ASPECTS IN THE FORMATION OF
PEDAGOGICAL SCIENCES
International scientific-online conference
94
2. Mariette Awad and Rahul Khanna Efficient Learning Machines: Theories,
Concepts, and Applications for Engineers and System Designers Mariette Awad
and Rahul Khanna Copyright © 2015 by Apress Media, LLC.
3. Becker, Suzanna, and Geoffrey E. Hinton. “Self-Organizing Neural Network that
Discovers Surfaces in Random-Dot Stereograms.” Nature 355, no. 6356 (1992):
161–163.
4. Boser, Bernhard E, Isabelle M. Guyon, and Vladimir N. Vapnik. “A Training
Algorithm for Optimal Margin Classifiers.” In COLT ’92: Proceedings of the Fifth
Annual Workshop on Computational Learning Theory, 144–152. New York:
ACM, 1992.