Foydalanuvchi:Gulshoda Safarova/Brown korpusi

Brown universitetidagi hozirgi Amerika ingliz tilisining standard korpusi, oddiygina "Brown Corpus" nomi bilan tanilgan. U Amerikancha ingliz tilidagi matn namunalarining elektron to'plami bo'lib, turli janrlarni o'z ichiga olgan dunyodagi birinchi korpushisoblanadi. Ushbu korpus kundalik so'zlashuvda so'z turkumlarining chastotasi va tarqalishini ilmiy jihatdan birinchi bo'lib o'rganishni tadbiq etdi. Rod-Aylenddagi Braun universitetida Genri Kuchera va U. Nelson Frensis tomonidan tuzilgan ushbu korpus umumiy til korpusi bo'lib, 1961- yilda Qo'shma Shtatlarda nashr etilgan asarlardan jami bir million so'zdan iborat bo'lgan 500 ta ingliz tili namunalarini o'z ichiga oladi.

Tarixi

1967-yilda Kuchera va Frensis o'zlarining "Hozirgi Amerika ingliz tilisining hisoblash tahlili" nomli klassik asarini nashr etishdi, ular bugungi kunda oddiygina "Brown Corpus" deb nomlanuvchi lingvistik modelning asosiy statistik ma'lumotlarini taqdim etdi^[1].

Brown Corpusi hozirgi Amerika ingliz tilisining puxtalik bilan tuzilgan korpussi bo'lib, u turli manbalardan olingan yig'ilgan millionga yaqin so'zni o'z ichiga oladi. Kuchera va Frensis uni turli xil lingvistik tahlillar orqali tekshirib chiqdilar va ulardan tilshunoslik, psixologiya, statistika hamda sotsiologiyaning elementlarini birlashtirilgan boy va rang-barang opusni tuzdilar. U kompyuter lingvistikasida juda keng qo'llanilgan va ko'p yillar davomida ushbu sohada eng ko'p keltirilgan manbalar qatoriga kiritilgan^[2].

Birinchi leksikostatistik tahlil nashr etilganiga ko'p bo'lmasdan, Boston nashriyoti Houghton-Mifflin o'zining yangi Amerika merosi lug'at uchun bir million so'z, uch qatorli iqtiboslar bazasini taqdim etishi uchun Kucheraga murojaat qildi. Birinchi marta 1969-yilda paydo bo'lgan ushbu yangi lug'at so'zlar chastotasi va boshqa ma'lumotlarni olish uchun korpus lingvistikasidan foydalangan holda tuzilgan birinchi lug'at edi.

Dastlabki Brown Corpusi faqat so'zlarning va ularning har birida joylashuv identifikatori mavjud edi. Keyingi bir necha yil ichida nutq qismlarining teglari qo'llanildi. Grine va Rubin yorliqlash dasturi ( nutqni teglashning bir qismiga qarang) bunda katta yordam berdi, biroq xatolar sonining yuqori darajasi keng qamrovli qo'lda tuzatish ishlarini talab qilinishini anglatardi.

Teglangan Brown Corpusida nutqning 80 ga yaqin qismidan iborat tanlovdan, shuningdek, birikma shakllar, qisqarishlar, olinma so'zlar va boshqa bir nechta hodisalar uchun maxsus ko'rsatkichlardan foydalanilgan va Lancaster-Oslo-Bergen korpusi, Freiburg-Brown Corpus of American English (FROWN) (1990-yillarning boshidan Amerika ingliz tilisi) ^[3] kabi ko'plab keyingi korpuslar uchun namuna bo'lgan. Korpusni teglash, Endryu Makki tomonidan dasturlashtirilgan va ingliz tili grammatikasi bo'yicha kitoblarda hujjatlashtirilgan ishlar ancha murakkab statistik tahlilni amalga oshirish imkonini berdi^[4].

Qiziqarli jihatlardan biri shundaki, hatto katta namunalarda ham so'zlarning chastotasini pasaytirish bo'yicha grafiklashtirish giperbola hosil qiladi: n - eng tez-tez uchraydigan so'zning chastotasi taxminan 1/ n ga proportsionaldir. Shunday qilib, "the" Brown Corpusining qariyb 7% ni tashkil qiladi, "to" va "of" 3% dan ko'proq; 50 000 ga yaqin so'zlarning umumiy so'z boyligining taxminan yarmi hapaks legomenadir ya'ni korpusda faqat bir marta uchraydigan so'zlar^[5]. Bu oddiy daraja vachastotalar munosabati Jorj Kingsli Zipf tomonidan favqulodda xilma-xil hodisalar uchun qayd etilgan (masalan, uning "Til psixobiologiyasi " ga qarang) va Zipf qonuni sifatida e'tirof etilgan.

Brown korpus tilshunoslik sohasidagi bu kabi ishlarning debochasi bo'lgan bo'lsa-da, hozirgi vaqtda tipik korpuslar (masalan , zamonaviy Amerika ingliz tilisi korpusi, Britaniya milliy korpusi yoki ingliz tilining xalqaro korpusi ) odatda 100 million so'zdan iborat bo'lib, ancha kattaroqdir.

Namuna taqsimoti

Korpus 500 ta namunadan iborat bo'lib, 15 turdagi janr bo'yichadir. 1961-yilda ushbu janrlarning har birida nashr etilgan miqdorga mutanosib ravishda taqsimlanadi. Namuna sifatifa tanlab olingan barcha asarlar 1961-yilda nashr etilgan. Aniqlanishicha, ular birinchi marta o'sha paytda nashr etilgan va amerikalik ingliz tilida so'zlashuvchilar tomonidan yozilgan.

Korpus dastlab 1961-yilda 15 ta matn turidan olingan 1 014 312 ta soʻzdan tarkib topgan.

Yana qarang

LOB Corpus, Brown Corpus bilan bir xil parametrlarga asoslangan Britaniya ingliz tili korpusi
Britaniya milliy korpusi

Manbalar

↑ Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
↑ Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.
↑ Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.
↑ Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.
↑ Kirsten Malmkjær, The Linguistics Encyclopedia, 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.

Havolalar

[[Turkum:Amaliy tilshunoslik]] [[Turkum:Tilshunoslik]]

[1] Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.

[2] Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.

[3] Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.

[4] Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.

[5] Kirsten Malmkjær, The Linguistics Encyclopedia, 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.

[1]

[2]

[3]

[4]

[5]