Brown korpusi

Brown universitetidagi hozirgi Amerika ingliz tilisining standard korpusi, oddiygina "Brown Corpus" nomi bilan tanilgan. U Amerikancha ingliz tilidagi matn namunalarining elektron toʻplami boʻlib, turli janrlarni oʻz ichiga olgan dunyodagi birinchi korpus hisoblanadi. Ushbu korpus kundalik soʻzlashuvda soʻz turkumlarining chastotasi va tarqalishini ilmiy jihatdan birinchi boʻlib oʻrganishni tadbiq etdi. Rod-Aylenddagi Braun universitetida Genri Kuchera va U. Nelson Frensis tomonidan tuzilgan ushbu korpus umumiy til korpusi boʻlib, 1961- yilda Qoʻshma Shtatlarda nashr etilgan asarlardan jami bir million soʻzdan iborat boʻlgan 500 ta ingliz tili namunalarini oʻz ichiga oladi.

Tarixi

1967-yilda Kuchera va Frensis oʻzlarining "Hozirgi Amerika ingliz tilisining hisoblash tahlili" nomli klassik asarini nashr etishdi, ular bugungi kunda oddiygina "Brown Corpus" deb nomlanuvchi lingvistik modelning asosiy statistik maʼlumotlarini taqdim etdi^[1].

Brown Corpusi hozirgi Amerika ingliz tilisining puxtalik bilan tuzilgan korpusi boʻlib, u turli manbalardan olingan yigʻilgan millionga yaqin soʻzni oʻz ichiga oladi. Kuchera va Frensis uni turli xil lingvistik tahlillar orqali tekshirib chiqdilar va ulardan tilshunoslik, psixologiya, statistika hamda sotsiologiyaning elementlarini birlashtirilgan boy va rang-barang opusni tuzdilar. U kompyuter lingvistikasida juda keng qoʻllangan va koʻp yillar davomida ushbu sohada eng koʻp keltirilgan manbalar qatoriga kiritilgan^[2].

Birinchi leksikostatistik tahlil nashr etilganiga koʻp boʻlmasdan, Boston nashriyoti Houghton-Mifflin oʻzining yangi Amerika merosi lugʻat uchun bir million soʻz, uch qatorli iqtiboslar bazasini taqdim etishi uchun Kucheraga murojaat qildi. Birinchi marta 1969-yilda paydo boʻlgan ushbu yangi lugʻat soʻzlar chastotasi va boshqa maʼlumotlarni olish uchun korpus lingvistikasidan foydalangan holda tuzilgan birinchi lugʻat edi.

Dastlabki Brown korpusi faqat soʻzlarning va ularning har birida joylashuv identifikatori mavjud edi. Keyingi bir necha yil ichida nutq qismlarining teglari qoʻllandi. Grine va Rubin yorliqlash dasturi (nutqni teglashning bir qismiga qarang) bunda katta yordam berdi, biroq xatolar sonining yuqori darajasi keng qamrovli qoʻlda tuzatish ishlarini talab qilinishini anglatardi.

Teglangan Brown korpusida nutqning 80 ga yaqin qismidan iborat tanlovdan, shuningdek, birikma shakllar, qisqarishlar, olinma soʻzlar va boshqa bir nechta hodisalar uchun maxsus koʻrsatkichlardan foydalanilgan va Lancaster-Oslo-Bergen korpusi, Freiburg-Brown Corpus of American English (FROWN) (1990-yillarning boshidan Amerika ingliz tilisi) ^[3] kabi koʻplab keyingi korpuslar uchun namuna boʻlgan. Korpusni teglash, Endryu Makki tomonidan dasturlashtirilgan va ingliz tili grammatikasi boʻyicha kitoblarda hujjatlashtirilgan ishlar ancha murakkab statistik tahlilni amalga oshirish imkonini berdi^[4].

Qiziqarli jihatlardan biri shundaki, hatto katta namunalarda ham soʻzlarning chastotasini pasaytirish boʻyicha grafiklashtirish giperbola hosil qiladi: n – eng tez-tez uchraydigan soʻzning chastotasi taxminan 1/ n ga proportsionaldir. Shunday qilib, „the“ Brown Corpusining qariyb 7% ni tashkil qiladi, „to“ va „of“ 3% dan koʻproq; 50 000 ga yaqin soʻzlarning umumiy soʻz boyligining taxminan yarmi hapaks legomenadir yaʼni korpusda faqat bir marta uchraydigan soʻzlar^[5]. Bu oddiy daraja vachastotalar munosabati Jorj Kingsli Zipf tomonidan favqulodda xilma-xil hodisalar uchun qayd etilgan (masalan, uning "Til psixobiologiyasi " ga qarang) va Zipf qonuni sifatida eʼtirof etilgan.

Brown korpus tilshunoslik sohasidagi bu kabi ishlarning debochasi boʻlgan boʻlsa-da, hozirgi vaqtda tipik korpuslar (masalan, zamonaviy Amerika ingliz tilisi korpusi, Britaniya milliy korpusi yoki ingliz tilining xalqaro korpusi) odatda 100 million soʻzdan iborat boʻlib, ancha kattaroqdir.

Namuna taqsimoti

Korpus 500 ta namunadan iborat boʻlib, 15 turdagi janr boʻyichadir. 1961-yilda ushbu janrlarning har birida nashr etilgan miqdorga mutanosib ravishda taqsimlanadi. Namuna sifatifa tanlab olingan barcha asarlar 1961-yilda nashr etilgan. Aniqlanishicha, ular birinchi marta oʻsha paytda nashr etilgan va amerikalik ingliz tilida soʻzlashuvchilar tomonidan yozilgan.

Korpus dastlab 1961-yilda 15 ta matn turidan olingan 1 014 312 ta soʻzdan tarkib topgan.

Yana qarang

LOB Corpus, Brown Corpus bilan bir xil parametrlarga asoslangan Britaniya ingliz tili korpusi
Britaniya milliy korpusi

Manbalar

↑ Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
↑ Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html (Wayback Machine saytida 2014-05-18 sanasida arxivlangan).
↑ Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.
↑ Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.
↑ Kirsten Malmkjær, The Linguistics Encyclopedia, 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.

Havolalar

[1] Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.

[2] Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html (Wayback Machine saytida 2014-05-18 sanasida arxivlangan).

[3] Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.

[4] Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.

[5] Kirsten Malmkjær, The Linguistics Encyclopedia, 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.

[1]

[2]

[3]

[4]

[5]