Bioinformatika

Bioinformatika — umumiy biologiya, molekulyar biologiya , kibernetika, genetika , kimyo, informatika , matematika va statistikani birlashtirgan fanlararo sohadir. Katta hajmdagi maʼlumotlarni tahlil qilishni talab qiladigan keng koʻlamli biologik muammolar bioinformatika dasturlari yordamida hal qilinadi.^[1]. Bioinformatika asosan kompyuter usullarini oʻrganish va ishlab chiqishni oʻz ichiga oladi va biologik maʼlumotlarni olish, tahlil qilish, saqlash, tartibga solish va vizualizatsiya qilishga qaratilgan.^[2]. Bioinformatika amaliy matematika , statistika va informatika usullardan foydalanadi. Bioinformatika biokimyo , biofizika , ekologiya va boshqa sohalarda qoʻllanadi. Bu sohada eng koʻp qoʻllanadigan dasturlar va texnologiyalar Python , R , Java , C# , C++ dasturlash tillaridir; belgilash tili — XML ; maʼlumotlar bazalari uchun dasturlash tili — SQL; Parallel hisoblashning dasturiy va apparat arxitekturasi — CUDA; texnik hisob-kitoblarga oid masalalarni yechish uchun amaliy dasturlar toʻplami va ushbu paketda qoʻllanadigan dasturlash tili — MATLAB va elektron jadvallar

Kirish

Bioinformatika biologiyaning koʻplab sohalarining muhim qismiga aylandi. Bioinformatikaning tahlil usullari ushbu soha rivojlanishidan oldin deyarli imkonsiz boʻlgan katta hajmdagi eksperimental maʼlumotlarni sharhlash imkonini beradi. Genetika va genomika sohasida bioinformatika genomlarning funksional annotatsiyasi, mutatsiyalarni aniqlash va tahlil qilishda yordam beradi. Bularning ichida muhim vazifalarnig biri gen ekspressiyasi va uni tartibga solish usullarini oʻrganishdir. Bundan tashqari, bioinformatika dasturlari genomik maʼlumotlarni solishtirish imkonini beradi, bu molekulyar evolyutsiya qonuniyatlarini oʻrganishga imkon tugʻdiradi. Umuman olganda, bioinformatika tizim biologiyasining muhim qismi boʻlgan biokimyoviy yoʻllar va tarmoqlarni tahlil qilish va kataloglashda yordam beradi. Strukturaviy biologiyada u DNK, RNK va oqsil tuzilmalarini, shuningdek molekulyar oʻzaro taʼsirlarni modellashtirishda yordam beradi. Biologik maʼlumotlarni qayta ishlash sohasidagi soʻnggi yutuqlar biomeditsina sohasida sezilarli oʻzgarishlarga olib keldi. Bioinformatikaning rivojlanishi tufayli olimlar irsiy va orttirilgan kasalliklarning asosiy molekulyar mexanizmlarini aniqlashga muvaffaq boʻlishdi, bu esa samarali davolash usullarini ishlab chiqishga va kasalliklarni tashxislash uchun aniqroq testlarni ishlab chiqishga yordam beradi.^[3]. Bemorlarga dori vositalarining samaradorligi va salbiy taʼsirini bashorat qilishga imkon beruvchi tadqiqot yoʻnalishi farmakogenetika deyiladi. Farmakogenetikaning asosi bioinformatika usullariga tayangan.

DNK va oqsil ketma — ketliklari

DNK va oqsil ketma — ketliklari aniqlanishining bioinformatika fani tarixida 1950-yillardagi yutuqlardan kuzatish mumkin. 1953 — yil fevral oyida Watson va Crick DNK molekulasining modelini taklif qilishdi va 1953 — yil may oyida ular Nature jurnalida genetik maʼlumot kodining tashuvchisi sifatida DNK molekulyasiga oid maqola chop etishdi.^[4]. Shuningdek, 1950-yillarning oxirida Sanger birinchi oqsil ketma-ketligini, insulinni nashr etdi.^[5],^[6]. Aminokislotalar ketma-ketligini aniqlashning eng koʻp qoʻllanadigan usuli — Edman degradatsiya usuli, uning asosiy kamchiligi uzun oqsil ketma-ketligini olishda qiyinchilik tugʻdiradi. Nazariy tarafdan har bir reaktsiya uchun maksimal 50-60 aminokislota toʻgʻri keladi. Bu muammoning yechimini amerikalik olim va fizik kimyogar Margaret Dejhoff (1925-1983) kompyuter dasturlaridan faol foydalangan holda va ularni biologiya va tibbiyot sohalarida qoʻllash imkoniyatlarini ishlab chiqqan. U 1962-yilda Edman peptid sekvensiyasi maʼlumotlaridan foydalangan holda oqsilning birlamchi tuzilishini aniqlash dasturi boʻlgan COMPROTEINni ishlab chiqdi.^[7]. COMPROTEIN-da aminokislotalar ketma-ketligini kiritish va chiqarish uch harfli qisqartmalarda taqdim etilgan. Oqsil ketma-ketligi maʼlumotlarini qayta ishlashni soddalashtirish uchun Dayhoff keyinchalik bugungi kunda ham qoʻllanadigan bir harfli aminokislota kodini ishlab chiqdi. Dayhoffning ushbu sohaga qoʻshgan hissasi shunchalik kattaki, Milliy Biotexnologiya Axborot Markazining (NCBI) sobiq direktori Devid J. Lipman uni „bioinformatikaning onasi va otasi“ deb atagan.^[8].

Yangi oqsil ketma-ketliklarining toʻplanishi bilan ularda baʼzi nuqsonlar kuzatila boshlandi. Masalan, Tsukerkandl va Pauling umurtqali hayvonlarning ortologik oqsillari (masalan, gemoglobin) konvergent evolyutsiya natijasi boʻlishi uchun juda koʻp ketma-ketlik oʻxshashligini koʻrsatishini aniqladilar. Yangi evolyutsion farazlarni tasdiqlash uchun yangi matematik va kompyuter usullari kerak edi.^[9]. Oqsil ketma-ketliklarini juftlik bilan aniqlash uchun birinchi dinamik dasturlash algoritmi 1970 — yilda Needleman va Wunsch tomonidan ishlab chiqilgan. Bir nechta ketma-ketlikni aniqlash algoritmlari ancha keyin paydo boʻldi: birinchi amaliy algoritm 1987 — yilda Da-Fei Feng va Russell F. Duolittle tomonidan ishlab chiqilgan.^[10]. Uning soddalashtirilgani CLUSTAL algoritmi bugungi kunda ham qoʻllanilmoqda. Bundan tashqari, 1978 — yilda Dayhoffni oʻz ichiga olgan bir guruh olimlar 85 % dan ortiq oʻziga xoslikka ega boʻlgan 71oqsil oilasining filogenetik daraxtlarini tuzishdi va unda nuqtali mutatsiyalarni (PAMs) kuzatish asosida birinchi almashtirish modelini yaratdilar. Natijada, aminokislotalarni almashtirish ehtimoli qiymatlarini oʻz ichiga olgan matritsa olindi.^[11].

1970-yilda Frensis Krik tomonidan nashr etilgan „Molekulyar biologiyaning markaziy dogmasi“ va 68 kodon bilan kodlangan barcha aminokislotalarning progressiv identifikatsiyasi, 1970-1980-yillarda oqsil evolyutsiyasidan DNK evolyutsiyasiga bosqichma-bosqich oʻzgarishiga olib keldi. DNK ketma-ketligini aniqlashni oʻrganish kerak edi. Birinchi keng tarqalgan DNK sekvensiyasi usuli 1976-yilda Maxam-Gilbert sekvensiyasi usuli edi.^[12]. Biroq, eng koʻp qoʻllanadigan usul 1977 — yilda Frederik Sanger laboratoriyasida ishlab chiqilgan boʻlib, u bugungi kunda ham qoʻllanadi. Sanger sekvensiyasi oʻsha vaqt uchun juda katta hajmdagi maʼlumotni olish imkonini berdi, ammo ketma-ket boʻlishi mumkin boʻlgan fragmentlarning hajmi yuzlab nukleotidlar bilan cheklangan edi, bu faqat bakteriofag genomlari kabi kichik genomlarni oʻrganish uchun etarli edi. Birinchi Sanger sekvensiyasi dasturi 1979-yilda Rojer Staden tomonidan nashr etilgan.^[13].

Genom

21-asr boshlarida inson genomining nashr etilishi bilan bioinformatikaning genomik davri boshlandi. Loyiha 1991 — yilda Qoʻshma Shtatlarda boshlangan va 13 yil davomida 2,7 milliard dollarga tushgan.^[14]. 1998 — yilda Celera Genomics inson genomini ketma-ketliklarni aniqlash va yigʻish boʻyicha raqobatbardosh xususiy tadqiqotni ishlab chiqdi. Tadqiqot 10 barobar kamroq pul talab qildi va 454 va Illumina kabi yangi eksperimental ketma-ketlik strategiyalarini ishlab chiqildi. DNK ketma-ketligining aniqlashga ketkan xarajat ancha kamaydi, bu esa ommaviy maʼlumotlar bazalarida ketma-ketliklar sonining katta oʻsishiga olib keldi. Biologik maʼlumotlarni saqlash va tezkor qayta ishlash usullarini ishlab chiqish zarurati tugʻildi. 2005-yilda Genomik Standartlar Konsortsiumi tashkil etildi va genomik ketma-ketlikni nashr qilish uchun zarur boʻlgan minimal maʼlumotlarni belgilab berdi.^[15].

Bioinformatika fani maqsadlari

Bioinformatikaning asosiy maqsadi biologik jarayonlarni tushunishga hissa qoʻshishdir. Bioinformatikani boshqa biologiya yoʻnalishlaridan ajratib turadigan jihati shundaki, u ushbu maqsadga erishish uchun intensiv hisoblash usullarini yaratish va qoʻllashga qaratilgan. Shunga oʻxshash usullarga misollar namunani aniqlash, maʼlumotlarni olish, mashinani oʻrganish algoritmlari va biologik maʼlumotlarni vizualizatsiya qilishdir. Tadqiqotchilarning asosiy saʼy-harakatlari ketma-ketlikni moslashtirish, genlarni topish (genlarni kodlovchi DNK mintaqasini qidirish), genomni dekodlash, dori-darmonlarni loyihalash, dori-darmonlarni ishlab chiqish, oqsil tuzilishini moslashtirish, oqsil tuzilishini bashorat qilish, genlar ifodasini bashorat qilish muammolarini hal qilishga qaratilgan.va oqsil-oqsil oʻzaro taʼsiri, genom boʻylab assotsiatsiyalarni izlash va evolyutsiyani modellashtirish.

Bioinformatika bugungi kunda biologik maʼlumotlarni boshqarish va tahlil qilishda yuzaga keladigan amaliy va nazariy muammolarni hal qilish uchun maʼlumotlar bazalari, algoritmlar, hisoblash va statistik usullar va nazariyani yaratish va takomillashtirishni nazarda tutadi.^[16].

Tadqiqotning asosiy yoʻnalishlari

Genetik ketma-ketlikni tahlil qilish

1977-yilda Phi -X174 fagi ketma-ketligi aniqlangandan beri koʻpayib borayotgan organizmlarning DNK ketma-ketligi dekodlanadi va maʼlumotlar bazalarida saqlanadi. Ushbu maʼlumotlar oqsil ketma-ketligini va tartibga soluvchi hududlarni aniqlash uchun ishlatiladi. Bir xil yoki turli turlardagi genlarni taqqoslash oqsil funktsiyalarida yoki turlar oʻrtasidagi munosabatlarda oʻxshashlikni koʻrsatishi mumkin (shunday qilib Filogenetik daraxtlarni tuzish mumkin). Maʼlumotlar miqdori ortishi bilan ketma-ketlikni qoʻlda tahlil qilish uzoq vaqtdan beri imkonsiz boʻlib qoldi. Hozirgi kunda milliardlab juftliklardan iborat minglab organizmlarning genom nukleotidlarini qidirish kompyuter dasturlaridan foydalaniladi. Dasturlar turli turlarning genomlaridagi oʻxshash DNK ketma-ketliklarini noyob tarzda aniqlashi mumkin; koʻpincha bunday ketma-ketliklar oʻxshash funktsiyalarga ega va farqlar kichik mutatsiyalar natijasida yuzaga keladi, masalan, alohida nukleotidlarni almashtirish, nukleotidlarni kiritish va ularning „yoʻqolishi“ (deletsiya) larni keltirsak boʻladi.

Evolyutsion hisoblash biologiyasi

Evolyutsion biologiya turlarning kelib chiqishi va paydo boʻlishini, shuningdek ularning vaqt oʻtishi bilan rivojlanishini oʻrganadi. Bioinformatika fani evolyutsion biologlarga bir necha usulda yordam beradi:

koʻp sonli organizmlarning evolyutsiyasini nafaqat tuzilishi yoki fiziologiyasi boʻyicha emas, balki ularning DNKsidagi oʻzgarishlarni oʻrganishda ;
butun genomlarni solishtirganda (BLAST), murakkab evolyutsion hodisalarni oʻrganish, masalan: genlarning koʻpayishi, gorizontal gen oʻtkazilishi va bakterial ixtisoslashgan omillarni bashorat qilish;
vaqt oʻtishi bilan tizimning harakatini bashorat qilish uchun populyatsiyalarning kompyuter modellarini yaratish;
koʻp sonli turlar toʻgʻrisidagi maʼlumotlarni oʻz ichiga olgan nashrlarni kuzatish.

Genetik algoritmlardan foydalanadigan boinformatika sohasi koʻpincha hisoblash evolyutsion biologiyasi bilan chalkashib ketadi, ammo bu ikki soha bir-biriga bogʻliq boʻlishi shart emas. Ushbu sohadagi ishlar algoritmlar va hisob-kitoblarni yaxshilash uchun maxsus dasturlardan foydalanadi va replikatsiya, rekombinatsiya yoki mutatsiya orqali diversifikatsiya va tabiiy tanlanish orqali omon qolish kabi evolyutsion tamoyillarga asoslanadi.

Asosiy bioinformatik dasturlar

ACT (Artemis Comparison Tool) (Wayback Machine saytida 2011-01-09 sanasida arxivlangan) — genomik tahlil
Arlequin — populyatsiya genetik maʼlumotlarini tahlil qilish
Bioconductor — bu bioinformatika boʻyicha tadqiqotlar uchun koʻplab mustaqil paketlarni taqdim etadigan katta FLOSS loyihasi.
BioEdit — nukleotidlar va aminokislotalar ketma-ketligini bir nechta taxrir qilish uchun muharrir.
BioNumerics (Wayback Machine saytida 2012-08-19 sanasida arxivlangan) — universal dasturiy taʼminot toʻplami
BLAST — nukleotidlar va aminokislotalar ketma-ketligi maʼlumotlar bazasida tegishli ketma-ketliklarni qidirish
Clustal — nukleotidlar va aminokislotalar ketma-ketligini taxrirlash.
DnaSP — DNK ketma-ketligi polimorfizmini tahlil qilish
FigTree — filogenetik daraxtlar muharriri
Genepop — populyatsiya genetik tahlili
Genetix — Populyatsiya genetik tahlili (faqat fransuz tilida mavjud)
JalView —nukleotidlar va aminokislotalar ketma-ketligini bir nechta tekislash uchun muharrir.
MacClade — interaktiv evolyutsion maʼlumotlarni tahlil qilish uchun pulli dasturidir.
MEGA — molekulyar evolyutsion genetik tahlil
Mesquite (Wayback Machine saytida 2022-06-09 sanasida arxivlangan) — qiyosiy biologiya Java dasturi
Muscle — nukleotid va aminokislotalar ketma-ketligini koʻp taqqoslash. ClustalW ga qaraganda tezroq va aniqroq
PAUP — parsimoniya yordamida filogenetik tahlil
PHYLIP — filogenetik dasturiy taʼminot toʻplami
Phylo_win (Wayback Machine saytida 2022-10-21 sanasida arxivlangan) — filogenetik tahlil. Dastur grafik interfeysga ega.
PopGene —pulyatsiyalarning genetik xilma-xilligini tahlil qilish
Populations — populyatsiya genetik tahlili
PSI Protein Classifier — PSI-BLAST dasturi yordamida olingan natijalarning qisqacha mazmuni
Seaview (Wayback Machine saytida 2013-12-04 sanasida arxivlangan) — Filogenetik tahlil (GUI)
SplitsTree (Wayback Machine saytida 2018-03-14 sanasida arxivlangan) — filogenetik daraxtlarni qurish uchun dastur
UGENE — bu rus tilidagi bepul vosita, nukleotidlar va aminokislotalar ketma-ketligini bir nechta marta taxrirlash, filogenetik tahlil, annotatsiya, maʼlumotlar bazalari bilan ishlash.
ZENBU — natijalar xulosasi

Bioinformatika tuzilishi

Strukturaviy bioinformatika oqsillarning fazoviy tuzilishini bashorat qilish uchun algoritmlar va dasturlarni ishlab chiqishni oʻz ichiga oladi. Strukturaviy bioinformatikada tadqiqot mavzulari:

Makromolekulyarlarning rentgen difraksion tahlili (XRD).
XRD maʼlumotlaridan tuzilgan makromolekulyar modelning sifat koʻrsatkichlari
Makromolekulaning sirtini hisoblash algoritmlari
Oqsil molekulasining gidrofobik yadrosini topish algoritmlari
Oqsillarning strukturaviy domenlarini topish algoritmlari
Oqsil tuzilmalarining fazoviy moslashuvi
SCOP va CATH domenlarining strukturaviy tasniflari
Molekulyar dinamika

Manbalar

↑ Can, T. Bioinformatikaga kirish // miRNomics: MicroRNK Biologiyasi va Hisoblash tahlili: [ uz. ] / Muharrirlar Malik Yusuf va Jens Allmer. — Totowa, NJ: Humana Press, 2014. — P. 51-71. — 325 b. — (Molekulyar biologiyada metodlar; 1107-jild). — ISBN 978-1-62703-748-8. — ISBN 978-1-62703-747-1 doi : 10.1007/978-1-62703-748-8_4
↑ https://www.researchgate.net/publication/231337374_Computational_Biology_Bioinformatics_A_Gentle_Overview
↑ Manisekhar S. R., Siddesh G. M., Manvi S. S. Introduction to Bioinformatics // Statistical Modelling and Machine Learning Principles for Bioinformatics Techniques, Tools, and Applications. — Springer, Singapore, 2020. — S. 3-9.
↑ Watson J. D., Crick F. H. Genetical implications of the structure of deoxyribonucleic acid // Nature : journal. — 1953. — May (vol. 171, no. 4361). — P. 964—967. — doi:10.1038/171964b0. — Bibcode: 1953Natur.171..964W. — PMID 13063483.
↑ Sanger F., Thompson E. O. P. The amino-acid sequence in the glycyl chain of insulin. 1. The identification of lower peptides from partial hydrolysates //Biochemical Journal. — 1953. — T. 53. — №. 3. — S. 353.
↑ Sanger F., Thompson E. O. P. The amino-acid sequence in the glycyl chain of insulin. 2. The investigation of peptides from enzymic hydrolysates //Biochemical Journal. — 1953. — T. 53. — №. 3. — S. 366.
↑ Dayhoff M. O., Ledley R. S. uter program to aid primary protein structure determination //Proceedings of the December 4-6, 1962, fall joint computer conference. — 1962. — S. 262—274.
↑ Moody G. Digital code of life: how bioinformatics is revolutionizing science, medicine, and business //John Wiley & Sons, 2004.
↑ Gauthier J. et al. A brief history of bioinformatics //Briefings in bioinformatics. — 2019. — T. 20. — №. 6. — S. 1981—1996.
↑ Needleman SB, Wunsch CD. A general method applicable to the search for similarities in the amino acid sequence of two proteins //J Mol Biol 1970;48:443-53.
↑ Dayhoff M., Schwartz R., Orcutt B. 22 a model of evolutionary change in proteins //Atlas of protein sequence and structure. — MD : National Biomedical Research Foundation Silver Spring, 1978. — T. 5. — S. 345—352.
↑ Maxam A. M., Gilbert W. A new method for sequencing DNA //Proceedings of the National Academy of Sciences. — 1977. — T. 74. — №. 2. — S. 560—564.
↑ Staden R. A strategy of DNA sequencing employing computer programs //Nucleic acids research. — 1979. — T. 6. — №. 7. — S. 2601—2610.
↑ [NHGRI. Human Genome Project Completion: Frequently Asked Questions. National Human Genome Research Institute (NHGRI). https://www.genome.gov/11006943/ Human-Genome-Project-Completion-Frequently-]
↑ Field D, Sterk P, Kottmann R, et al. Genomic standards consortium projects. Stand Genomic Sci 2014;9:599-601.
↑ Robert Ghrist — Homological Algebra and Data.

[1] Can, T. Bioinformatikaga kirish // miRNomics: MicroRNK Biologiyasi va Hisoblash tahlili: [ uz. ] / Muharrirlar Malik Yusuf va Jens Allmer. — Totowa, NJ: Humana Press, 2014. — P. 51-71. — 325 b. — (Molekulyar biologiyada metodlar; 1107-jild). — ISBN 978-1-62703-748-8. — ISBN 978-1-62703-747-1 doi : 10.1007/978-1-62703-748-8_4

[2] ttps://www.researchgate.net/publication/231337374_Computational_Biology_Bioinformatics_A_Gentle_Overview

[3] Manisekhar S. R., Siddesh G. M., Manvi S. S. Introduction to Bioinformatics // Statistical Modelling and Machine Learning Principles for Bioinformatics Techniques, Tools, and Applications. — Springer, Singapore, 2020. — S. 3-9.

[4] Watson J. D., Crick F. H. Genetical implications of the structure of deoxyribonucleic acid // Nature : journal. — 1953. — May (vol. 171, no. 4361). — P. 964—967. — doi:10.1038/171964b0. — Bibcode: 1953Natur.171..964W. — PMID 13063483.

[5] Sanger F., Thompson E. O. P. The amino-acid sequence in the glycyl chain of insulin. 1. The identification of lower peptides from partial hydrolysates //Biochemical Journal. — 1953. — T. 53. — №. 3. — S. 353.

[6] Sanger F., Thompson E. O. P. The amino-acid sequence in the glycyl chain of insulin. 2. The investigation of peptides from enzymic hydrolysates //Biochemical Journal. — 1953. — T. 53. — №. 3. — S. 366.

[7] Dayhoff M. O., Ledley R. S. uter program to aid primary protein structure determination //Proceedings of the December 4-6, 1962, fall joint computer conference. — 1962. — S. 262—274.

[8] Moody G. Digital code of life: how bioinformatics is revolutionizing science, medicine, and business //John Wiley & Sons, 2004.

[9] Gauthier J. et al. A brief history of bioinformatics //Briefings in bioinformatics. — 2019. — T. 20. — №. 6. — S. 1981—1996.

[10] Needleman SB, Wunsch CD. A general method applicable to the search for similarities in the amino acid sequence of two proteins //J Mol Biol 1970;48:443-53.

[11] Dayhoff M., Schwartz R., Orcutt B. 22 a model of evolutionary change in proteins //Atlas of protein sequence and structure. — MD : National Biomedical Research Foundation Silver Spring, 1978. — T. 5. — S. 345—352.

[12] Maxam A. M., Gilbert W. A new method for sequencing DNA //Proceedings of the National Academy of Sciences. — 1977. — T. 74. — №. 2. — S. 560—564.

[13] Staden R. A strategy of DNA sequencing employing computer programs //Nucleic acids research. — 1979. — T. 6. — №. 7. — S. 2601—2610.

[14] [NHGRI. Human Genome Project Completion: Frequently Asked Questions. National Human Genome Research Institute (NHGRI). https://www.genome.gov/11006943/ Human-Genome-Project-Completion-Frequently-]

[15] Field D, Sterk P, Kottmann R, et al. Genomic standards consortium projects. Stand Genomic Sci 2014;9:599-601.

[16] Robert Ghrist — Homological Algebra and Data.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]