Kontent qismiga oʻtish

Korpus lingvistikasi

Vikipediya, erkin ensiklopediya

Korpus lingvistikasi – bu tilni matn korpusi orqali oʻrganishning empirik usuli.[1] Korpuslar – bu maʼlum bir til xilma-xilligini ifodalashga qaratilgan haqiqiy, „haqiqiy dunyo“, nutq yoki yozuv matnining muvozanatli, koʻpincha qatlamli toʻplamlari. Bugungi kunda korpuslar odatda mashina tomonidan oʻqiladigan maʼlumotlar toʻplamidir[1] Bugungi kunda korpuslar odatda mashina tomonidan oʻqiladigan maʼlumotlar toʻplamidir.

Korpus lingvistikasi shuni koʻrsatadiki, tilni tahlil qilish, tabiiy ravishda, eksperimental aralashuvlarsiz toʻplangan haqiqiy til maʼlumotlaridan foydalanganda aniqroq ishlaydi. Katta hajmdagi matnlar, hatto undan ham kichikroq toʻplamlar tilshunoslarga sifat jihatidan oʻrganish qiyin boʻlgan lingvistik tushunchalar boʻyicha miqdoriy tahlillar oʻtkazish imkonini beradi[2]

Matn-korpus usuli tabiiy tildagi matnlar toʻplamidan ushbu tilni boshqaradigan mavhum qoidalarni aniqlash uchun foydalanadi. Ushbu natijalar bir xil tarzda tahlil qilingan turli tillar oʻrtasidagi munosabatlarni oʻrganishga yordam beradi. Dastlab, korpuslar manba matnlaridan qoʻlda yaratilgan boʻlsa, endi bu jarayon avtomatlashtirilgan.

Korpus nafaqat lingvistik tadqiqotlar uchun, balki lugʻatlar va maʼlumotnoma grammatikalarini tuzishda ham qoʻllangan. Bu amaliyot 1969-yilda "The American Heritage Dictionary of English Language" nomli lugʻat bilan boshlandi va 1985-yilda "A Comprehensive Grammar of the English Language" grammatik qoʻllanmasi nashr etilishi bilan davom etdi.

Mutaxassislar korpusga qanday izoh berish haqida turli fikrlarga ega. Jon MakHardy Sinklerning fikricha, matnlar oʻz ichida tushunarli boʻlishi uchun minimal izohga ega boʻlishi kerak[3] to the Survey of English Usage team (University College, London). Boshqa tomondan, London Universitet kollejining Survey of English Usage tadqiqot guruhi batafsil izohlar tilni yaxshiroq tushunishimizga yordam beradi, deb hisoblaydi[4].

Grammatikani taʼriflash boʻyicha dastlabki harakatlar muhim diniy yoki madaniy matnlarga asoslangan edi. Masalan, Prātiśākhya adabiyoti Vedalardagi sanskrit tilining tovush naqshlarini tasvirlab bergan va Pāṇinining klassik sanskrit grammatikasi bu matnlarni tahlil qilgan. Xuddi shunday, ilk arab grammatikachilari ham Qurʼon tiliga eʼtibor qaratishgan. Gʻarbiy Yevropada olimlar Bibliya tilini va boshqa muhim matnlarni oʻrganish uchun konkordanslar yaratdilar.

Ingliz tili korpusi

[tahrir | manbasini tahrirlash]

1967 yilda Henry Kučera va U. Nelson Frencis tomonidan nashr etilgan Hozirgi Amerika ingliz tilisining hisoblash tahlili nomli kitob zamonaviy korpus lingvistikasida muhim voqea boʻldi. Ushbu ish 1961-yilda Amerika ingliz tilisidagi bir million soʻzni oʻz ichiga olgan toʻplam boʻlgan Brown korpusini tahlil qildi[5].

Koʻp tilli korpus

[tahrir | manbasini tahrirlash]

1990-yillarda tabiiy tilni qayta ishlash (NLP) uchun statistik usullardan foydalanishda, ayniqsa, mashina tarjimasida muhim yutuqlarga erishildi. Bu IBM Research kompaniyasidagi ish va Kanada parlamenti va Yevropa Ittifoqining barcha hukumat ishlarini rasmiy tillariga tarjima qilgan koʻp tilli matnlardan foydalanish tufayli yuzaga keldi.

Yevropadan hududidan tashqari tillarda ham korpuslar mavjud. Misol uchun, Yaponiyadagi Yapon tili va tilshunosligi milliy instituti yapon tilining ogʻzaki va yozma bir nechta korpuslarini yaratdi. Imo-ishora tili korpusi ham video maʼlumotlardan foydalanilgan holda yaratilgan[6].

Korpus tilshunosligi maʼlumotlarni nazariya bilan bogʻlash uchun bir nechta tadqiqot usullarini ishlab chiqdi. Wallis va Nelson (2001) 3A modelini taqdim etdilar: Annotatsiya, abstrakt va tahlil.

  • Annotatsiya matnlarga sxemani qoʻllashni oʻz ichiga oladi. Bunga tizimli belgilash, nutqning bir qismini teglash, tahlil qilish va shu kabi boshqa shakllari kiradi.
  • Abstrakt sxemadagi atamalarni nazariy model yoki maʼlumotlar toʻplamidagi atamalarga tarjima qilishni oʻz ichiga oladi. U koʻpincha tilshunoslarga yoʻnaltirilgan qidiruvlarni oʻz ichiga oladi, lekin tahlilchilar uchun qoidalarni oʻrganishni ham oʻz ichiga olishi mumkin.
  • Tahlil maʼlumotlar toʻplamini statistik tekshirish, manipulyatsiya qilish va umumlashtirishdan iborat. Tahlil statistik baholashni, qoidalar asoslarini optimallashtirishni yoki bilimlarni aniqlash usullarini oʻz ichiga olishi mumkin.
  1. 1,0 1,1 Meyer, Charles F.. English Corpus Linguistics, 2nd, Cambridge: Cambridge University Press, 2023 — 4-bet. 
  2. Hunston, S. (2006-01-01), „Corpus Linguistics“, in Brown, Keith (muh.), Encyclopedia of Language & Linguistics (Second Edition), Oxford: Elsevier, 234–248-bet, doi:10.1016/b0-08-044854-2/00944-5, ISBN 978-0-08-044854-1, qaraldi: 2023-10-31
  3. Sinclair, J. 'The automatic analysis of corporaʼ, in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82). Berlin: Mouton de Gruyter. 1992.
  4. Wallis, S. 'Annotation, Retrieval and Experimentationʼ, in Meurman-Solin, A. & Nurmi, A. A. (ed.) Annotating Variation and Change. Helsinki: Varieng, [University of Helsinki]. 2007. e-Published
  5. Francis, W. Nelson; Kučera, Henry. Computational Analysis of Present-Day American English. Providence: Brown University Press, 1 June 1967. ISBN 978-0870571053. 
  6. „National Center for Sign Language and Gesture Resources at B.U.“. www.bu.edu. Qaraldi: 2023-yil 31-oktyabr.