Xorijiy lingvistika va lingvodidaktika
–
Зарубежная
лингвистика
и
лингводидактика
–
Foreign
Linguistics and Linguodidactics
Journal home page:
https://inscience.uz/index.php/foreign-linguistics
Identification of sarcasm in texts for sentimental analysis
Kh
аsаnboy RА
KHIMOV
Andijan State University,
Nаmаngаn Stаte Institute of Foreign Languages
ARTICLE INFO
ABSTRACT
Article history:
Received August 2024
Received in revised form
10 September 2024
Accepted 25 September 2024
Available online
25 October 2024
Humanity has discovered various ways to express emotions.
Depending on the context of speech, these emotions are
sometimes accompanied by sarcasm, particularly when
expressing intense feelings. Over the past few decades, social
media platforms such as Facebook, Instagram, TikTok, Twitter,
and YouTube have become popular tools for people to share such
strong emotions and personal thoughts with wide audiences.
Through techniques like sentiment analysis, this data can be
valuable in various fields, including business, marketing,
production, behavioral analysis, and public management during
ecological or biological crises, as well as in times of war.
Most current research treats sentiment and sarcasm
classification as two separate tasks, approaching each as an
independent text classification problem. In recent years, studies
using deep learning algorithms have significantly improved the
effectiveness of these independent classifiers. However, one of
the main challenges these approaches face is their inability to
accurately classify sarcastic statements as negative. Taking this
into account, we argue that recognizing sarcasm enhances
sentiment classification, and vice versa. In this work, we
demonstrate that these two tasks are interrelated. This paper
proposes a multi-task learning framework that leverages deep
neural networks to model this interrelation, aiming to improve
the overall effectiveness of sentiment analysis.
2181-3701
/©
2024 in Science LLC.
https://doi.org/10.47689/2181-3701-vol2-iss4
This is an open-access article under the Attribution 4.0 International
(CC BY 4.0) license (
https://creativecommons.org/licenses/by/4.0/deed.ru
Keywords:
sentiment analysis,
social media platforms,
NLP,
sarcasm,
deep learning algorithm,
multi-task learning,
polarity,
tokenization.
Sentiment tahlil uchun matnlardagi kinoyalarni aniqlash
ANNOTATSIYA
Kalit so‘zlar
:
sentiment analizi,
Insoniyat o‘z his
-
tuyg‘ularini ifoda etishning turli xil usullarini
topgan. Nutq vaziyatidan kelib chiqib, bu hislar ba’zan kinoya bilan
1
Bаsic Doctorаl Stud
ent, Andijan State University,
Intern Teаcher, Nаmаngаn Stаte Institute of Foreign Languages.
Xorijiy lingvistika va lingvodidaktika
–
Зарубежная лингвистика
и лингводидактика
–
Foreign Linguistics and Linguodidactics
Special Issue
–
4 (2024) / ISSN 2181-3701
96
ijtimoiy media platformalari,
NLP,
kinoya(sarcazm) ,
deep learning algoritm,
multi-task learning,
polaritet,
tokenizatsiya
qo‘shilib keladi, ayniqsa kuchli tuyg‘ularni namoyon qilayotganda.
So‘nggi o‘n yillar mobaynida, Facebook, Instagram, TikTok, Twitter
va You Tube kabi ijtimoiy tarmoq platformalari odamlar ana
shunday kuchli his-
tuyg‘ulari, shaxsiy fikr
-mulohazalarini ifoda
qilib , ko‘plab auditoriyalar bilan baham ko‘rish uchun mashhur
vositalarga aylandi. Sentiment analiz kabi mos ajratib olish
texnikalari bilan, bu ma’lumotlar biznes, marketing, ishlab
chiqarish, xulq-atvor analizi, ekologik va biologik kulfatlar yoki
u
rushlar davrida omma boshqaruvi kabi ko‘plab jabhalarda foydali
bo‘la oladi. Hozirgi izlanishlarning aksariyati bularni ikkita alohida
topshiriqlar sifatida qabul qiladi. Aksariyat sentiment va sarkazm
klassifikatsiya yondashuvlari mustaqil ravishda matnni tasniflash
muammosi sifatida ko‘rib chiqilgan. So‘nggi yillarda chuqur
o‘rganish algoritmlaridan foydalanib qilingan tadqiqot ishlari bu
mustaqil klassifikatorlarning samaradorligini sezilarli darajada
oshirgan. Bu yondashuvlar tomonidan duch kelinadigan eng katta
muammolardan biri bu -
ular kinoyali gaplarni to‘g‘ri tarzda salbiy
deb tasniflay olmasliklarida edi. Buni inobatga olgan holda, biz
kinoyani aniqlashni bilish sentiment klassifikatsiyasiga yordam
berishini va aksincha ekanligini da’vo qilamiz. B
izning ishimiz
ushbu ikki topshiriqlar o‘zaro bog‘liq ekanligini ko‘rsatdi. Ushbu
maqola sentiment analizining umumiy samaradorligini oshirish
maqsadida ushbu o‘zaro bog‘liqlikni modellashtirish uchun chuqur
neytral tarmoqlardan foydalanadigan multi-task learningga
asoslangan ramkani taklif qiladi.
Выявление иронии в текстах для сентиментального
анализа
АННОТАЦИЯ
Ключевые слова:
анализ тональности,
платформы социальных
сетей,
NLP,
сарказм,
алгоритмы глубокого
обучения,
обучение с несколькими
задачами,
полярность,
токенизация.
Человечество нашло множество способов выражения
эмоций, которые, в зависимости от ситуации, могут
сопровождаться сарказмом, особенно при передаче сильных
чувств. За последние десятилетия социальные платформы,
такие как Facebook, Instagram, TikTok, Twitter и YouTube,
стали популярными каналами для выражения эмоций и
личных размышлений широкой аудитории. С помощью
методов анализа тональности эти данные находят
применение в таких сферах, как бизнес, маркетинг,
производство, анализ поведения и управление обществом в
условиях экологических и биологических катастроф или
военных
конфликтов.
Большинство
современных
исследований рассматривают анализ тональности и
сарказма
как
две
отдельные
задачи
текстовой
классификации. В последние годы благодаря алгоритмам
глубокого обучения удалось существенно повысить
эффективность этих классификаторов. Однако одна из
ключевых проблем заключается в том, что такие подходы
часто
не
способны
корректно
классифицировать
Xorijiy lingvistika va lingvodidaktika
–
Зарубежная лингвистика
и лингводидактика
–
Foreign Linguistics and Linguodidactics
Special Issue
–
4 (2024) / ISSN 2181-3701
97
саркастические высказывания как негативные. В связи с
этим мы утверждаем, что умение распознавать сарказм
улучшает классификацию тональности и наоборот,
поскольку эти задачи взаимосвязаны. В данной статье
предложена модель на основе обучения с несколькими
задачами (multi
-
task learning), использующая глубокие
нейронные сети для моделирования взаимосвязи между
классификацией тональности и сарказма, что повышает
общую эффективность анализа тональности.
Datareportal sayti ma’lumotlariga qaraganda, 2024
-
yilda dunyo bo‘ylab internetdan
foydalanuvchi soni 5.35 milliard kishini yoki dunyo aholisining taxminan 66.2 foizini
tashkil etmoqda.
Bu yil davomida internet foydalanuvchilari soni 1.8 foizga o‘sib, jami 97
million yangi foydalanuvchi 2023 yilda internetdan birinchi marta foydalangan. Jami
umumiy miqdorning 90% i ijtimoiy media foydalanuvchilari hisoblanadi [1]. Instagram,
Facebook, TikTok kabi ijtimoiy media platformalari bizning hayotimizning ajralmas
qismiga aylandi. Biz bu ijtimoiy media platformalari orqali tadbirkorlik, ishbilarmonlik
voqealaridan tortib, shaxsiy fikr va his-
tuyg‘ularimizni ham deyarli hammasini baham
ko‘ramiz. Bundan tashqari, ijtimoiy media deyarli real vaqt rejimida axborot olish u
chun
ommabop va ishonchli platforma ham hisoblanadi. Odamlar ijtimoiy mediada boshqa
foydalanuvchilardan olingan va baham ko‘rilgan ma’lumotlarga katta ishonch bilan
qaraydilar. Boshqacha qilib aytganda, odamlar bir-birlarini ijtimoiy media platformalari
o
rqali xabardor qilib, ularga ta’sir ko‘rsata oladilar. Bu jamiyatga ijtimoiy, siyosiy va
iqtisodiy jihatdan sezilarli ta’sir ko‘rsatadi. O‘zbekistonda ham so‘nggi paytlarda
biznesmenlar o‘z mahsulotlarini iste’molchilarining ehtiyojlarini tushunish va o‘z
mahsulotlarini yoki xizmatlarini reklama qilish uchun yuqorida sanab o‘tilgan ijtimoiy
platformalar bilan bir qatorda turli sayt va ilovalarni ham yuritishmoqda. Ular Yandex Go,
Uzum Market, ZoodMall, OLX kabi ilovalar orqali iste’molchilar ko‘rishni ist
agan
narsalarini tanlash va qanday munosabat bildirishini to‘liq nazorat qilishadi. Birgina
mahsulot haqidagi sharh iste’molchilar xatti
-
harakatiga va qaror qabul qilishiga ta’sir
qilishi mumkin. Natijada, kompaniyaning muvaffaqiyati va muvaffaqiyatsizligi ommaga
oshkor qilinib, ijtimoiy media platformalari orqali tez va keng tarqaladi. Masalan, Podium
tomonidan o‘tkazilgan bir tadqiqotga ko‘ra, internet foydalanuvchilarining 93% i xaridlari
va qarorlariga mijozlar sharhlari ta’sir qiladi [2]. Shunday ekan,
agar kompaniya o‘z
mijozlarining fikrlari bilan tezroq hamnafas bo‘lsa, raqobatchilariga qarshi muvaffaqiyatli
strategiya ishlab chiqishda ko‘proq ustunliklarda ega bo‘ladi. Tanganing ikki tomoni bor
deganlaridek, faqatgina ishlab chiqaruvchilar emas, xar
idorlar ham o‘z navbatida bunday
qulayliklardan ,aynan bildirilgan emotsional fikrlar bilan tovarni yoki xizmatni sotib
olishdan avval tanishish, yoki haqqoniy fikrlarini erkin ifoda etish orqali kompaniyadan
sifatli xizmatni talab qila olish imkoniyati tufayli manfaatdordir. Ijtimoiy mediaga yana bir
ta’sir COVID
-19 pandemiyasi tarqalganida kuzatildi. 2019-
yil dekabr oyida paydo bo‘lgan
ushbu pandemiya 2022-
yil oktyabr holatiga ko‘ra 619 milliondan ortiq kishiga yuqib, 6,55
milliondan ortiq odamning hayot
iga zomin bo‘ldi. Bu odamlar orasida yuqtirib olishdan
qo‘rqish va kundalik hayoti haqida katta tashvish va stressni keltirib chiqardi. Amerika
Psixologiya Assotsiatsiyasi ma’lumotlariga ko‘ra, AQSh kattalari COVID
-19
pandemiyasining dastlabki kunlaridan beri eng yuqori stress darajasini qayd etishgan, va
bunga sabab bo‘lgan stressning 80% i COVID
-
19 tufayli bo‘lgan uzaytirilgan stressdan
Xorijiy lingvistika va lingvodidaktika
–
Зарубежная лингвистика
и лингводидактика
–
Foreign Linguistics and Linguodidactics
Special Issue
–
4 (2024) / ISSN 2181-3701
98
iborat [4]. Ijtimoiy media odamlar uchun o‘zini tanitishning eng tezkor yo‘llaridan biriga
aylandi va shu sababli ijtimoiy tarmoqlardagi axborot olami ularning fikr-mulohazalarini
aks ettiruvchi ma’lumotlar bilan to‘ldirilmoqda. Albatta, ushbu fikr
-mulohazalarni tahlil
qilish ularning his-
tuyg‘ulari va kayfiyatini aniqlashning to‘g‘ridan
-
to‘g‘ri yo‘li hisoblanadi
[5]. Sentimental analiz bu tahlilning asosini tashkil qiladi. Yaqinda sentiment analiz
o‘zining ahamiyatini ko‘rsatib, COVID
-19 pandemiyasi davrida odamlarning his-
tuyg‘ularini tushunishda muhim rol o‘ynadi. Bu hukumatga COVID
-
19 bilan bog‘liq
odamlarning xavotirlarini tushunishda va shunga mos ravishda tegishli choralarni
ko‘rishda yordam berdi [14].
*Sentiment analiz(sentimental analysis) - bu odamlarning hayollari, hissiyot va
tuyg‘ularini analiz qilish, ya’ni hayol, his va tuyg‘ularni, ijobiy, salbiy va neytral
kategoriyalariga ajratish texnikasidir.
Sentiment analiz (hissiy tahlil, fikrlarni tagiga yetish)
–
bu tabiiy tilni qayta ishlash
(NLP)da matnni tahlil qilish va kompyuter lingvistikasi texnikalaridan foydalanib,
tuzilmagan matndan subyektiv ma’lumotlarni aniqlash, ajratish va tasniflash jarayon
i [6].
Bu jumlalar ularning ma’nosidan olingan so‘z belgilari yordamida
polaritetini aniqlashga
qaratilgan [ 7, 8]. Natijada, sentiment analiz turli postlar va sharhlar kabi tuzilmagan
ma’lumotlar manbalaridan foydali ma’lumotlarni olish uchun muhim texnika hisoblanadi
va bu texnika internetdagi mahsulot sharhlaridan fikrlarni
olish uchun keng qo‘llaniladi
[9]. Shu paytgacha sentiment analizni bir qator boshqa sohalarda, masalan, fond bozorini
bashorat qilish [10] va terrorchilik hujumlariga javoblarda ham qo‘llanilgan [11]. Bundan
tashqari, sentiment analiz va tabiiy til ishla
b chiqarish sohalarining o‘zaro kesishuvi
tadqiqotlari sentiment analizning qo‘llanilishiga oid bir qator muammolarni, masalan, ko‘p
tillilikni qo‘llab
-quvvatlash [12] va kinoyani aniqlash kabi masalalarni muhokama qilgan.
Kinoya(sarcazm) - ostida salbiy
niyat yotgan ijobiy gap deb ta’riflanadi. U ikki xil
ma’noda qo‘llaniladi: 1. Masxaralash, kulish uchun asl ma’nosidan boshqa, majoziy
ma’noda aytilgan so‘z, gap; qochirim, istehzo, piching, kesatiq ifodasi. 2. ad. Uslubiy vosita:
badiiy asardagi inkor eti
sh usullaridan biri bo‘lib, biror shaxs yoki narsa ustidan kesatiq,
qochiriq vositasida yashirin kulishdan iborat [13].
Avtomatlashtirilgan tahlilning ko‘plab yutuqlari bilan birga cheklovlari ham mavjud
bo‘lib, ular tabiiy tilning noaniqligi va post qilingan kontentning xususiyatlari tufayli
amalga oshirish murakkabligiga olib keladi. Shu muammolar ta’sirida, o’zbekcha dur
dona
asarlar avtomatik tarjimada o‘z qiymatini yo‘qotib, yaroqsiz holga kelishi mumkin. Ijtimoiy
tarmoqlardagi postlarni o‘rganish ham avtomatik tahlil turidagi cheklovlarning bir misoli
bo‘lib, ular odatda hashtaglar, emotsiyalar va havolalar bilan birga
keladi, bu esa
ifodalangan kayfiyatni aniqlashni qiyinlashtiradi. Bundan tashqari, avtomatlashtirilgan
texnikalar katta hajmdagi belgilangan postlar to‘plamini yoki kayfiyat qiymatlari bilan
bog‘liq hissiy so‘zlar lug‘atini talab qiladi. Insonlardan farqli o‘laroq, mashinalar matndagi
subyektivlikni, masalan, kinoyali kontekstni tushunishda qiynaladi [15]. Odamlar
ko‘pincha kinoyali matnlarda o‘zining salbiy his
-
tuyg‘ularini ifodalash uchun
ruhlantiruvchi so‘zlarni ishlatishadi. Bu holat kinoyali his
-
tuyg‘
ularni tahlil qilish
modellari uchun aldanishiga olib kelishi mumkin, agar model aynan kinoyani hisobga
oladigan tarzda ishlab chiqilmagan bo‘lsa. Alaloqibat, kinoyali jumlalarda ishlatiladigan
atamalar xilma-xilligini hisobga olganda, his-
tuyg‘ularni tahlil qilish modelini o‘rgatish
murakkablashadi.
Xorijiy lingvistika va lingvodidaktika
–
Зарубежная лингвистика
и лингводидактика
–
Foreign Linguistics and Linguodidactics
Special Issue
–
4 (2024) / ISSN 2181-3701
99
Kinoyali matnlarning noto‘g‘ri tasniflanishi natijasida jumlaning polariteti o‘zgarib
ketishi mumkinligini hisobga olgan holda, ushbu maqolaning asosiy maqsadi mavjud his-
tuyg‘ular tahlili modelining aniqligini oshirish va yanada aqlli ma'lumotlarni ajrati
b olish
uchun kinoya aniqlashning his-
tuyg‘ular tahliliga ta'sirini o‘rganishdir. Bu ilmiy
maqolamiz orqali ikki xil maqsadni ko‘zladik. Birinchidan, his
-
tuyg‘ular tahlili va kinoya
aniqlashni yanada o‘rinli va aniqroq ma'lumotlarni ajratib olish uchun bir
lashtiruvchi
umumiy ramka yaratamiz. Boshqa tomondan, model murakkabligini kamaytirish va
samaradorligini oshirish uchun his-
tuyg‘ular tahlili va kinoya aniqlashni bir vaqtning
o‘zida o‘rgatuvchi chuqur multi
-
vazifa o‘rganishni taklif qilamiz.
His-
tuyg‘ular tahlilining ildizlarini Ikkinchi jahon urushigacha bo‘lgan qo‘lyozma
hujjatlar orqali kuzatish mumkin, bu davrda asosiy e'tibor asosan siyosatga qaratilgan edi.
2000-
yillarning o‘rtalaridan boshlab, Internetdagi turli mazmundagi subyektiv
ma'lumotlarni qazib olish uchun Tabiiy Tilni Qayta Ishlash (NLP) texnologiyalaridan
foydalanib, his-
tuyg‘ular tahlili faol tadqiqot yo‘nalishiga aylandi. His
-
tuyg‘ular tahlili
modellari uchun an’anaviy mashinani o‘rganish algoritmlaridan tortib, chuqur o‘rgan
ish
algoritmigacha bo‘lgan turli xil usullar taklif etilgan. Masalan, mashinani o‘rganish
yordamida his-
tuyg‘ular tahlili 1980
-yillargacha aksariyat tabiiy tilni qayta ishlash(NLP)
algoritmlari murakkab qo‘lda yozilgan qoidalar majmuasiga asoslangan edi.
Shundan
so‘ng, tabiiy tilni qayta ishlash sohasida mashinani o‘rganish algoritmlari joriy etilishi bilan
inqilob yuz berdi. Dastlabki ishlarda his-
tuyg‘ularni ijobiy va salbiy toifalarga ajratish usuli
asosida klassifikatsiya qilish amalga oshirilgan, masalan [7], his-
tuyg‘ularni klassifikatsiya
qilishda uchta mashinani o‘rganish algoritmi qo‘llanilgan. Ushbu algoritmlar:
1. Support Vector Machine (SVM),
2. Naïve Bayes klassifikatori
3. Maximum Entropy algoritmi
Klassifikatsiya jarayoni n-gram usuli yordamida amalga oshirilgan; bu usulda
unigram, bigram va ikkala usulning kombinatsiyasi qo‘llangan. Shuningdek, mashinani
o‘rganish algoritmlarini kiritish uchun bag
-of-words (BOW) paradigmasidan ham
foydalanilgan. Tadqiqotlar natijasida ularning ishlash samaradorligi istiqbolli
ko‘rsatkichlar bergan.
Hujjat darajasidagi his-
tuyg‘ularni tahlil qilish uchun so‘zlar orasidagi sintaktik
munosabatlardan foydalanilgan [16]. Ushbu maqolada SVM algoritmi uchun xususiyat
sifatida xizmat qiluvchi sub-
sekanslar va bog‘liqlik daraxtlari jumlalardan hosil qilingan.
Unigram, bigram, so‘zlar ketma
-
ketligi va bog‘liqlik ham har bir jumladan ajratib olinib,
tahlil uchun ishlatilgan. Shunga o‘xshash boshqa bir ishda esa so‘z vektorlarini o‘rganish
va keyinchalik semantik termin (hujjat ma'lumoti) va boy his-
tuyg‘u mazmun
ini olish
uchun nazoratsiz va nazoratli usullar aralashmasidan foydalanilgan [17].
Yuqori darajadagi n-
gram frazalarni past darajadagi o‘lchovli semantik latent fazo
bilan birlashtiruvchi mexanizm taklif qilingan [18]. Bu mexanizm his-
tuyg‘ularni tasniflash
funksiyasini aniqlash uchun ishlatilgan. Ular shuningdek, latent fazo parametrlarini
baholaydigan va tasniflash vazifasiga yo‘naltirilgan diskriminatsion tizim yaratish uchun
SVM dan foydalanganlar. Ushbu usul ikkilik tasniflash va ko‘p ballik his
-
tuyg‘ular tasnifini
amalga oshirishi mumkin, bu his-
tuyg‘u ballari to‘plamidagi prognozlashni o‘z ichiga oladi.
Entropiya bilan vaznlashgan genetik algoritm (EWGA) va SVM yordamida his-
tuyg‘ularni tasniflash usuli taklif etilgan[19]. Sintaktik va stilistik xususiyatlardan iborat
turli xil xususiyatlar to‘plami baholangan. Stilistik jihatdan, bu usul so‘z uzunligi t
aqsimoti,
Xorijiy lingvistika va lingvodidaktika
–
Зарубежная лингвистика
и лингводидактика
–
Foreign Linguistics and Linguodidactics
Special Issue
–
4 (2024) / ISSN 2181-3701
100
lug‘at boyligi va maxsus belgilar chastotasini o‘lchaydi. Genetik algoritmdan
foydalanishdan oldin turli xil his-
tuyg‘u atributlariga vaznlar beriladi, bu esa his
-
tuyg‘ularni tasniflashni optimallashtirishga xizmat qiladi. Modelni tasdiqlash uchun SVM
va o
‘n marta krossvalidatsiya texnikasi qo‘llanilgan va istiqbolli natijalar olingan.
So‘nggi yillarda deep learning algoritmini keng qabul qilindi, chunki u an’anaviy,
vazifaga xos xususiyatlarni ishlab chiqishni talab qilmaydi, bu esa uni his-
tuyg‘ularni tahlil
qilish uchun kuchliroq alternativaga aylantiradi. Aynan shu algoritm tomonidan
hujjatlarning o‘xshashligini aniqlash uchun chuqur neyron tarmoqdan foydalanadigan
arxitektura taklif qilingan [20]. Arxitekturasi T&C dan olingan ko‘plab bozor yangiliklari
yordamida maqolalarning vektorli shakllarini yaratishga o‘rgatilgan. Belgilangan
hujjatlar
orasida kosinus o‘xshashligi, hujjatlarning polaritetini hisobga olib, lekin mazmunini
e’tiborsiz qoldirgan holda hisoblangan. Taklif etilgan usul maqolalarning o‘xshashlik
baholashida ajoyib natijalarni ko‘rsatdi.
Hujjat darajasida his-
tuyg‘ularni tahlil qilish uchun esa ketma
-ketlikni
modellashtiruvchi neyron tarmoq taklif qilingan bo‘lib, asosan vaqtga bog‘liq xususiyatga
ega mijozlar sharhlariga e’tibor qaratilgan [21]. Ularning usuli mahsulot va
foydalanuvchilar
ni taqsimlangan holda ifodalashni o‘rganish uchun qayta takrorlanuvchi
neyron tarmoqni (RNN-
GRU) o‘rgatdi. Tayyor ifodalar keyinchalik his
-
tuyg‘ularni
tasniflash uchun mashinani o‘rganish klassifikatoriga yuborilgan. Hosil bo‘lgan usul Yelp
va IMDb dan oli
ngan uchta ma’lumotlar to‘plamida sinovdan o‘tgan. Har bir baholash
reyting bali bo‘yicha tenglangan va tarmoqni o‘rgatish uchun orqaga qaytarish algoritmi
Adamning stoxastik optimizatsiyasi yordamida yo‘qotish funksiyasini hisoblash uchun
ishlatilgan. Simulyatsiya natijalari mahsulot va foydalanuvchilarni taqsimlangan holda
o‘rganishning ketma
-ketlik modellashtirishi hujjat darajasidagi his-
tuyg‘ularni tasniflash
samaradorligini oshirishini ko‘rsatdi.
[22]-da esa jumla darajasida his-
tuyg‘ularni tahlil qilish uchun Uzun
-Qisqa Muddatli
Xotira (Deep Recurrent Neural Network- (RNN-LSTM)) dan tashkil topgan chuqur qayta
takrorlanuvchi neyron tarmoq (RNN) taklif qilingan, chunki so‘zlarni kiritish vakili, hi
s-
tuyg‘u bilimlari, his
-
tuyg‘u o‘zgartiruvchi qoidalar, statistik va lingvistik bilimlarni o‘z
ichiga olgan yagona xususiyat to‘plamiga asoslangan his
-
tuyg‘ular tahlili oldin
o‘rganilmagan edi. Ushbu kombinatsiya ketma
-ketlikni qayta ishlash imkonini bergan va
an’anaviy usullarning ayrim kamchiliklarini bartaraf etgan. [23]
-da esa real vaqt rejimidagi
nozik his-
tuyg‘ularni tahlil qilish uchun ConvNet
-SVMBoVW deb nomlangan gibrid chuqur
o‘rganish usuli taklif etilgan. Gibrid polaritetni hisoblash uchun agreg
atsiya modeli
yaratilgan va vizual kontentning his-
tuyg‘usini bashorat qilish uchun bag
-of-visual-word
(BoVW) ni o‘rgatish uchun SVM ishlatilgan.
Taklif etilgan usullar nafaqat his-
tuyg‘ularni besh darajada (juda ijobiy, ijobiy,
neytral, salbiy va juda salbiy) nozik darajada tahlil qilish imkonini berdi, balki mavjud
usullardan ham yuqori natijalarni ko‘rsatdi. [24] tomonidan o‘tkazilgan tadqiqotda
arab
tilidagi onlayn avtomobil va ko‘chmas mulk sharhlari ma’lumotlar to‘plamidagi his
-
tuyg‘ular tahlil qilingan. Ular Bi
-
LSTM (Yo‘nalishli Uzun
-Qisqa Muddatli Xotira), LSTM,
GRU, CNN (Konvolyutsion Neyron Tarmoqlar) va CNN-
GRU kabi chuqur o‘rganish
algori
tmlarini BERT so‘z embedding modeli bilan birlashtirgan holda ishlatganlar.
Ko‘chmas mulk ma’lumotlar to‘plamida taxminan 6,434 fikr, avtomobil ma’lumotlar
to‘plamida esa 6,585 ga yaqin fikr mavjud edi. Har ikkala ma’lumotlar to‘plamidagi
yozuvlarga uch xil his-
tuyg‘u turi (salbiy, ijobiy va aralash) berilgan. BERT va LSTM bilan
Xorijiy lingvistika va lingvodidaktika
–
Зарубежная лингвистика
и лингводидактика
–
Foreign Linguistics and Linguodidactics
Special Issue
–
4 (2024) / ISSN 2181-3701
101
birga ishlatilganda, avtomobil ma’lumotlar to‘plamida eng yuqori F1 ball 98,71% ni tashkil
etdi. Boshqa tomondan, ko‘chmas mulk uchun CNN bilan birga ishlatilganida maksimal F1
ball 98,67% ga yetdi.
So‘nggi vaqtlarda multi
-
task learning chuqur o‘rganish tadqiqotlarida katta
e'tiborga sazovor bo‘ldi. Multi
-task learning bitta umumiy model orqali bir nechta
vazifalarni bir vaqtda bajarish imkonini beradi. [25]-da CNN va RNN asosida multi-vazifa
o‘rganis
h yondashuvi taklif qilingan. Ushbu model avtomatlashtirilgan sitata tahlilini
yaxshilash va bir vaqtda o‘rgatish uchun sitata his
-
tuyg‘usini klassifikatsiya qilish (CSC) va
sitata maqsadini klassifikatsiya qilish (CPC) ni birgalikda o‘rgatadi va shuningde
k, trening
ma’lumotlari yetishmasligi va vaqt talab qiluvchi xususiyatlarni ishlab chiqish
muammosini bartaraf etadi. Kinoyani aniqlash orqali mustaqil his-
tuyg‘ularni tasniflovchi
modelni yaxshilash usuli taklif qilingan bo‘lib [26], bizning taklif qilgan
metodimizga
o‘xshashdir. Bu usulda ikkita aniq o‘rgatilgan model talab qilinadi: his
-
tuyg‘u modeli va
kinoya modeli. Kinoyani aniqlash uchun xususiyatlarni ajratishda asosiy so‘z xususiyatlari,
Unigram va 4 Boaziz xususiyatlari, jumladan, tinish belgilari
bilan bog‘liq xususiyatlar, his
-
tuyg‘u bilan bog‘liq xususiyatlar va leksik va sintaktik xususiyatlar qo‘llangan. Kinoya
aniqlash uchun Random Forest algoritmi, his-
tuyg‘ularni klassifikatsiya qilish uchun esa
Naïve Bayes algoritmi ishlatilgan. Model 80.4
% aniqlik, 91.3% qaytaruvchanlik va 83.2%
aniqlik natijalarini ko‘rsatdi. Baholash natijalari kinoyani aniqlash his
-
tuyg‘ularni tahlil
qilish natijalarini taxminan 5.49% ga yaxshilanishini ko‘rsatdi. Ushbu bo‘limda N
-gram,
Gibrid MLT va Chuqur o‘rganish us
ullari kabi his-
tuyg‘ular tahlili bo‘yicha tadqiqotchilar
tomonidan qo‘llanilgan turli texnikalar kiritilgan. Shuningdek, ma'lumotlar to‘plamini
tanlash va ma'lumotlarni raqamli vektor shakliga aylantirish, yuqori natijalar olish uchun
tadqiqotchilar tomonidan qadam sifatida amalga oshiriladi. Turli usullardan olingan
aniqlik ko‘rsatkichlari yuqori bo‘lib, masalan, N
-gram usuli SVM yordamida 94,6%
aniqlikka erishgan [18], va gibrid MLT usuli EWGA va SVM gibridi yordamida 91,7% ga
yetgan [19]. Ushbu chuqur o
‘rganish usullarining aksariyati an’anaviy usullardan yuqori
natijalarni ko‘rsatdi. Biroq, bu usullarda ba’zi kamchiliklarni ham kuzatish mumkin. Ilgari
muhokama qilinganidek, kinoyali kontekst his-
tuyg‘ularni tasniflashda muhim rol
o‘ynaydi. Agar tizim ki
noyani hisobga olmasa, kinoyali matn ijobiy tvit sifatida tasniflanadi,
bu esa noto‘g‘ri tasniflanishga olib keladi. Ko‘proq aniq natijalar olish uchun bu noto‘g‘ri
tasniflanishni hal qilish uchun qo‘shimcha qadam talab qilinadi. Yaqin o‘n yillik
o‘tmishimizda mashinani o‘rganish va chuqur o‘rganish usullaridan foydalanib, matnga
asoslangan hujjatlarni yuklab olish va tushunish sohasida muhim yutuqlarga erishildi.
Biroq, mavjud texnikalarda tillarning o‘ziga xosligi, masalan, his
-
tuyg‘ularni ifodalashda
kinoya ishlatilishi kabi cheklovlar mavjud. Ushbu masala [26] har bir vazifa uchun ikkita
aniq o‘rgatilgan model yordamida hal qilingan. Bu usul yanada aniqroq his
-
tuyg‘ular
tahlilini taqdim etadi, lekin yuqori murakkablik, uzoqroq ishlov berish vaqti va haddan
tashqari o‘rganishga moyillik bilan keladi. Maqola orqali biz kinoyani aniqlash orqali his
-
tuyg‘ular tasnifini yaxshilovchi to‘liq ramkani taklif qilamiz. Model murakkabligini va
ishlov berish vaqtini kamaytirish uchun biz ramkada multi-task learningdan foydalanamiz.
Xorijiy lingvistika va lingvodidaktika
–
Зарубежная лингвистика
и лингводидактика
–
Foreign Linguistics and Linguodidactics
Special Issue
–
4 (2024) / ISSN 2181-3701
102
Bosqich
Tushuntirish
Ma'lumotlarni
yig'ish(Data
Acquisition)
Sentiment
va
Kinoya
ma'lumotlar to'plamlari kirish
ma'lumotlari sifatida qo‘llaniladi.
Oldindan ishlov berish
(Pre-Processing)
Ma'lumotlarga ishlov berish jarayonlari
quyidagilarni o‘z ichiga oladi:
➢
Tokenizatsiya
:
Matnni
so‘zlarga
ajratish.
➢
So‘zlarni
normalizatsiya qilish
: So‘z
shakllarini standartlashtirish.
➢
Shovqinli so‘zlarni olib tashlash
:
Keraksiz so‘zlarni olib tashlash.
➢
Tin
belgilari
olib
tashlash:
Punktuatsiyalarni olib tashlash.
➢
Keraksiz
so‘zlarni
olib
tashlash
:
Umumiy
so‘zlarni (masalan, "va",
"lekin") olib tashlash.
➢
Stemming
: So‘zlarni ildiz shakliga
keltirish.
Ko‘p vazifali o‘rganish
tarmog‘i
(Multi-Task
Learning
Network)
Neyron tarmoq
bir vaqtning o‘zida sentiment
va kinoyani aniqlash vazifalarini bajaradi.
Ko‘p
qatlamli
perseptron qatlami (Multi-
Perceptron Layer)
Bu tarmoq ikki bo’limga bo‘linadi:
➢
Sentiment tasnifi: Matnning sentimentini
aniqlash (ijobiy, salbiy, neytral).
➢
Kinoya tasnifi: matnda kinoya mavjudligini
aniqlash
Baholash (Evolution)
Model samaradorligi Tasdiqlash aniqligi va
Tasdiqlash yo'qotilishi kabi mezonlar bilan
baholanadi.
Xorijiy lingvistika va lingvodidaktika
–
Зарубежная лингвистика
и лингводидактика
–
Foreign Linguistics and Linguodidactics
Special Issue
–
4 (2024) / ISSN 2181-3701
103
FOYDALANILGAN ADABIYOTLAR RO‘YXATI:
1.
https://datareportal.com/reports/digital-2024-deep-dive-the-state-of-
internet-adoption
2.
Huang, C., Wang, Y., Li, X., Ren, L., Zhao, J., Hu, Y., Zhang, L., Fan, G., Xu, J., Gu, X.,
Cheng, Z., Yu, T., Xia, J., Wei, Y., Wu, W., Xie, X., Yin, W., Li, H., Liu, M., & Cao, B. (2020). Clinical
features of patients infected with 2019 novel coronavirus in Wuhan China. The Lancet,
395(10223), 497
–
506. https:// doi. org/ 10. 1016/ s0140- 6736(20) 30183-5
3.
American Psychological Association. (n.d.). APA: U.S. adults report highest
stress level since early days of the COVID-19 pandemic. American Psychological
Association. Retrieved October 6, 2022, from https:// www. apa. org/ news/ press/
releases/ 2021/ 02/ adults- stress- pandemic
4.
Online Reviews Stats & Insights. Podium. (n.d.). Retrieved October 6, 2022,
from https:// www. podium.com/ resources/ podium- state- of- online- reviews.
5.
De Choudhury, Munmun, Counts, & Scott. (2012). The nature of emotional
expression in social media: measurement, inference and utility. Human Computer
Interaction Consortium (HCIC).
6.
Zhao, J., Liu, K., & Xu, L. (2016). Sentiment analysis: Mining opinions,
sentiments, and emotions. Computational Linguistics, 42(3), 595
–
598. https://doi. org/
10. 1162/ coli_r_ 00259
7.
Pang, B., & Lee, L. (2004). A sentimental education: Sentiment analysis using
subjectivity summarization based on minimum cuts. In: Proceedings of the 42nd Annual
Meeting on Association for Computational Linguistics
–ACL ’04. https:// doi. org/ 10.
3115/ 12189 55. 12189 90
8.
Turney, P. D. (2001). Thumbs up or thumbs down? Semantic orientation
applied to unsupervised classification of reviews. Proceedings of the 40th Annual Meeting
on Association for Computational Linguistics
–ACL ’02. https:// doi. org/ 10.
3115/ 10730
83. 10731 53
9.
Dave, K., Lawrence, S., & Pennock, D. M. (2003). Mining the peanut gallery:
Opinion extraction and semantic classification of product reviews. In: Proceedings of the
Twelfth International Conference on World Wide Web -
WWW ’03. https:// doi. org/ 10.
1145/ 775152. 775226
10.
Khadjeh Nassirtoussi, A., Aghabozorgi, S., Ying Wah, T., & Ngo, D. C. (2014).
Text mining for market prediction: A systematic review. Expert Systems with Applications,
41(16), 7653
–
7670. https:// doi.org/ 10. 1016/j. eswa. 2014. 06. 009
11.
Burnap, P., Williams, M. L., Sloan, L., Rana, O., Housley, W., Edwards, A., Knight,
V., Procter, R., & Voss, A. (2014). Tweeting the terror: Modelling the social media reaction
to the Woolwich terrorist attack. Social Network Analysis and Mining. https:// doi. org/
10. 1007/ s13278- 014- 0206-4
12.
Hogenboom, A., Heerschop, B., Frasincar, F., Kaymak, U., & de Jong, F. (2014).
Multi-lingual support for lexicon-based sentiment analysis guided by semantics. Decision
Support Systems, 62, 43
–
53. https:// doi. org/ 10. 1016/j. dss. 2014. 03. 004
13.
O‘zbek tilining izohli lug‘ati sayt: https://izoh.uz/word/kinoya
14. Arunachalam, R., & Sarkar, S. (2013). The new eye of government: Citizen
sentiment analysis in social media. In: Proceedings of the IJCNLP 2013 Workshop on
Natural Language Processing for Social Media (SocialNLP), 23
–
28.
Xorijiy lingvistika va lingvodidaktika
–
Зарубежная лингвистика
и лингводидактика
–
Foreign Linguistics and Linguodidactics
Special Issue
–
4 (2024) / ISSN 2181-3701
104
15. Diana, M., & MA, G. (2014). Who cares about sarcastic tweets? Investigating the
impact of sarcasm on sentiment analysis. Lrec 2014 Proceedings.
16. Matsumoto, S., Takamura, H., & Okumura, M. (2005). Sentiment classification
using word sub-sequences and dependency sub-trees. Advances in Knowledge Discovery
and Data Mining. https:// doi.org/ 10. 1007/ 11430 919_ 37
17. Maas, A., Daly, R. E., Pham, P. T., Huang, D., Ng, A. Y., & Potts, C. (2011). Learning
word vectors for sentiment analysis. Proceedings of the 49th Annual Meeting of the
Association for Computational Linguistics: Human Language Technologies, 142
–
150.
18. Bespalov, D., Bai, B., Qi, Y., & Shokoufandeh, A. (2011). Sentiment classification
based on supervised latent N-gram analysis. Proceedings of the 20th ACM International
Conference on Information and Knowledge Management -
CIKM ’11. https:// doi. org/ 1
0.
1145/ 20635 76. 20636 35
19. Abbasi, A., Chen, H., & Salem, A. (2008). Sentiment analysis in multiple languages:
Feature selection for opinion classification in web forums. ACM Transactions on
Information Systems, 26(3), 1
–
34. https:// doi. org/ 10. 1145/ 13616 84. 13616 8520.
Yanagimoto, H., Shimada, M., & Yoshimura, A. (2013). Document similarity estimation for
sentiment analysis using neural network. 2013 IEEE/ACIS 12th International Conference
on Computer and Information Science (ICIS). https:// doi. org/ 10. 1109/ icis. 2013. 66078
25
21. Chen, T., Xu, R., He, Y., Xia, Y., & Wang, X. (2016). Learning user and product
distributed representations using a sequence model for sentiment analysis. IEEE
Computational Intelligence Magazine,11(3), 34
–
44. https:// doi. org/ 10. 1109/ mci. 2016.
25725 39
22. Abdi, A., Shamsuddin, S. M., Hasan, S., & Piran, J. (2019). Deep learning-based
sentiment classification of evaluative text based on multi-feature fusion. Information
Processing & Management, 56(4),1245
–
1259. https:// doi. org/ 10. 1016/j. ipm. 2019. 02.
018
23. Kumar, A., Srinivasan, K., Cheng, W.-H., & Zomaya, A. Y. (2020). Hybrid context
enriched deep learning model for fine-grained sentiment analysis in textual and visual
semiotic modality social data. Information Processing & Management, 57(1), 102141.
https:// doi. org/ 10. 1016/j. ipm. 2019. 102141
24. Yafoz, A., & Mouhoub, M. (2021). Sentiment analysis in Arabic social media using
deep learning models. 2021 IEEE International Conference on Systems, Man, and
Cybernetics SMC. https:// doi. org/10. 1109/ smc52 423. 2021. 96592 45
25. Yousif, A., Niu, Z., Chambua, J., & Khan, Z. Y. (2019). Multi-task learning model
based on recurrent convolutional neural networks for citation sentiment and purpose
classification. Neurocomputing, 335,195
–
205. https:// doi. org/ 10. 1016/j. neucom. 2019.
01. 021
26. Yunitasari, Y., Musdholifah, A., & Sari, A. K. (2019). Sarcasm detection for
sentiment analysis in Indonesian tweets. IJCCS Indonesian Journal of Computing and
Cybernetics Systems, 13(1), 53.https:// doi. org/ 10. 22146/ ijccs. 41136
