Kontent qismiga oʻtish

Nutq korpuslari

Vikipediya, ochiq ensiklopediya

Nutq korpusi (yoki ogʻzaki korpus) – bu nutq audio fayllar va matn transkripsiyalarining maʼlumotlar bazasi. Boshqa koʻplab korpuslar singari nutq texnologiyasidagi nutq korpusi, akustik modellarni yaratish maqsadida foydalaniladi (keyinchalik ular nutqni aniqlash yoki soʻzlovchini identifikatsiya qilish mexanizmi bilan birgalikda ishlatilishi mumkin)[1]. Tilshunoslikda soʻzlashuv korpusi fonetik, dialoglar tahlili, dialektologiya va boshqa shu kabi koʻplab sohalarda tadqiqot qilish uchun ishlatiladi[2][3].

„Korpora“ soʻzi ingliz tilida korpus soʻzining koʻpligidir (yaʼni koʻplab shu singari maʼlumotlar bazasini anglatadi).

Nutq korpusining ikki turi mavjud:

  1. Nutqni oʻqish – bu quyidagilarni oʻz ichiga oladi:
    • Iqtiboslar
    • Radio eshittiruv yangiliklari
    • Leksikalar roʻyxati
    • Raqamlar ketma-ketligi
  2. Spontan nutq – bu quyidagilarni oʻz ichiga oladi:
    • Dialoglar – ikki yoki undan ortiq odamlar oʻrtasida (uchrashuvlarni oʻz ichiga oladi; shunday korpuslardan biri KEC);
    • Hikoyalar – hikoya qiluvchi shaxs (bunday korpuslardan biri Buckeye Corpus);
    • Xaritadagi topshiriqlar – bir kishi boshqasiga xaritadagi mashrutni tushuntiradi;
    • Uchrashuv-vazifalar – ikki kishi individual jadvallar asosida umumiy uchrashuv vaqtini topishga harakat qiladi.

Nutq korpusining oʻziga xos turi – bu ona tili boʻlmagan maʼlumotlar bazasi boʻlib, bu korpusdagi nutqlar boshqa chet tili aksentida beriladi.

  • Arab nutqi korpusi
  • Umumiy ovoz
  • EXMARalDA
  • Lingua Libre, onlayn bepul vosita
  • Bolalar nutqi korpuslari roʻyxati
  • Ona tili boʻlmagan maʼlumotlar bazasi
  • Praat
  • Ogʻzaki ingliz korpusi
  • BABEL nutq korpusi
  • TIMIT
  • Transkriptator
  • Transkripsiya (tilshunoslik)
  1. Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). „Optimization of data-driven filterbank for automatic speaker verification“. Digital Signal Processing. 104-jild. 102795-bet. arXiv:2007.10729. Bibcode:2020DSP...10402795S. doi:10.1016/j.dsp.2020.102795.
  2. Reece, Andrew; Cooney, Gus; Bull, Peter; Chung, Christine; Dawson, Bryn; Fitzpatrick, Casey; Glazer, Tamara; Knox, Dean et al. (2022-03-01). "Advancing an Interdisciplinary Science of Conversation: Insights from a Large Multimodal Corpus of Human Speech". arXiv:2203.00674 [cs.CL]. 
  3. „Santa Barbara Corpus of Spoken American English | Department of Linguistics – UC Santa Barbara“. www.linguistics.ucsb.edu. Qaraldi: 2023-yil 26-aprel.
  • Edvards, Jeyn / Lampert, Martin (tahrirlar) (1992): Talking Data – Diskurs tadqiqotida transkripsiya va kodlash. Hillsdeyl: Erlbaum.
  • Leech, Jeffrey / Myers, Greg / Thomas, Jenny (tahrirlar) (1995): Kompyuterda ingliz tili: Transkripsiya, belgilash va qoʻllash. Xarlou: Longman.

Andoza:Natural Language ProcessingTabiiy tilni qayta ishlash