Nutq korpuslari
Bu maqolaga boshqa birorta sahifadan
ishorat yoʻq. (May 2024) |
Bu maqola avtomat tarjima qilingan yoki mashina tarjimasi tayinli oʻzgartirishsiz chop etilgani eʼtirof etilmoqda. Tarjimani tekshirib chiqish hamda maqoladagi mazmuniy va uslubiy xatolarini tuzatish kerak. Siz maqolani tuzatishga koʻmaklashishingiz mumkin. (Shuningdek, tarjima boʻyicha tavsiyalar bilan tanishib chiqishingiz mumkin.) DIQQAT! BU OGOHLANTIRISHNI OʻZBOSHIMCHALIK BILAN OLIB TASHLAMANG! Maqolaning originali koʻrsatilinmagan. |
Nutq korpusi (yoki ogʻzaki korpus) – bu nutq audio fayllar va matn transkripsiyalarining maʼlumotlar bazasi. Boshqa koʻplab korpuslar singari nutq texnologiyasidagi nutq korpusi, akustik modellarni yaratish maqsadida foydalaniladi (keyinchalik ular nutqni aniqlash yoki soʻzlovchini identifikatsiya qilish mexanizmi bilan birgalikda ishlatilishi mumkin)[1]. Tilshunoslikda soʻzlashuv korpusi fonetik, dialoglar tahlili, dialektologiya va boshqa shu kabi koʻplab sohalarda tadqiqot qilish uchun ishlatiladi[2][3].
„Korpora“ soʻzi ingliz tilida korpus soʻzining koʻpligidir (yaʼni koʻplab shu singari maʼlumotlar bazasini anglatadi).
Nutq korpusining ikki turi mavjud:
- Nutqni oʻqish – bu quyidagilarni oʻz ichiga oladi:
- Iqtiboslar
- Radio eshittiruv yangiliklari
- Leksikalar roʻyxati
- Raqamlar ketma-ketligi
- Spontan nutq – bu quyidagilarni oʻz ichiga oladi:
- Dialoglar – ikki yoki undan ortiq odamlar oʻrtasida (uchrashuvlarni oʻz ichiga oladi; shunday korpuslardan biri KEC);
- Hikoyalar – hikoya qiluvchi shaxs (bunday korpuslardan biri Buckeye Corpus);
- Xaritadagi topshiriqlar – bir kishi boshqasiga xaritadagi mashrutni tushuntiradi;
- Uchrashuv-vazifalar – ikki kishi individual jadvallar asosida umumiy uchrashuv vaqtini topishga harakat qiladi.
Nutq korpusining oʻziga xos turi – bu ona tili boʻlmagan maʼlumotlar bazasi boʻlib, bu korpusdagi nutqlar boshqa chet tili aksentida beriladi.
Yana qarang:
[tahrir | manbasini tahrirlash]- Arab nutqi korpusi
- Umumiy ovoz
- EXMARalDA
- Lingua Libre, onlayn bepul vosita
- Bolalar nutqi korpuslari roʻyxati
- Ona tili boʻlmagan maʼlumotlar bazasi
- Praat
- Ogʻzaki ingliz korpusi
- BABEL nutq korpusi
- TIMIT
- Transkriptator
- Transkripsiya (tilshunoslik)
Manbalar
[tahrir | manbasini tahrirlash]- ↑ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). „Optimization of data-driven filterbank for automatic speaker verification“. Digital Signal Processing. 104-jild. 102795-bet. arXiv:2007.10729. Bibcode:2020DSP...10402795S. doi:10.1016/j.dsp.2020.102795.
- ↑ Reece, Andrew; Cooney, Gus; Bull, Peter; Chung, Christine; Dawson, Bryn; Fitzpatrick, Casey; Glazer, Tamara; Knox, Dean et al. (2022-03-01). "Advancing an Interdisciplinary Science of Conversation: Insights from a Large Multimodal Corpus of Human Speech". arXiv:2203.00674 [cs.CL].
- ↑ „Santa Barbara Corpus of Spoken American English | Department of Linguistics – UC Santa Barbara“. www.linguistics.ucsb.edu. Qaraldi: 2023-yil 26-aprel.
- Edvards, Jeyn / Lampert, Martin (tahrirlar) (1992): Talking Data – Diskurs tadqiqotida transkripsiya va kodlash. Hillsdeyl: Erlbaum.
- Leech, Jeffrey / Myers, Greg / Thomas, Jenny (tahrirlar) (1995): Kompyuterda ingliz tili: Transkripsiya, belgilash va qoʻllash. Xarlou: Longman.
Havolalar
[tahrir | manbasini tahrirlash]- Ogʻzaki Amerika ingliz tilining Santa Barbara korpusi
- Buckeye Corpus Suhbat nutqining Baki korpusi
- KEC – Karl Eberxards korpusi oʻz-oʻzidan gapiradigan janubiy nemis tilidagi dialoglar – audio va artikulyar yozuvlar
- Koʻp tillilik boʻyicha tadqiqot markazidagi Ogʻzaki til korpusi (Wayback Machine saytida 2017-05-06 sanasida arxivlangan)
- ODTU Anqaradagi Ogʻzaki Turk Korpusi
- ILTEC Lisbondagi Corp-Oral Corpus bilan Corpus Client bilan gaplashdi (Wayback Machine saytida 2022-01-20 sanasida arxivlangan)
- VoxForge – ochiq manbali nutq korpusi
- OLAC: Ochiq til arxivlari hamjamiyati
- Nutq signallari uchun BAS Bavariya arxivi
- Hind ingliz va hind tillari uchun Simmortel Speech Recognition Corpus (Archive.is saytida 2013-04-11 sanasida arxivlangan)
- ELRA: Yevropa til resurslari assotsiatsiyasi
- Polsha tilining PELCRA suhbat korpusi
- Arab nutqi korpusi
- Siyosiy nutqlar korpusi : Gonkong Baptist universiteti kutubxonasi tomonidan ishlab chiqilgan Amerika va Xitoy siyosatchilarining siyosiy nutqlariga bepul kirish
- Inson nutqining katta multimodal korpusi
Andoza:Natural Language ProcessingTabiiy tilni qayta ishlash