DALL-E

Vikipediya, ochiq ensiklopediya
„Ajdahoga taqlid qilayotgan jirafa“, „Ajdahodan yasalgan jirafa“ matni berilganda DALL-E tomonidan yaratilgan tasvirlar.

DALL-E va DALL-E 2 — bu OpenAI tomonidan tabiiy til tavsiflaridan raqamli tasvirlarni yaratish uchun ishlab chiqilgan, „koʻrsatmalar“ deb nomlangan mashinani oʻrganish modellari. DALL-E 2021-yil yanvar oyida OpenAI tomonidan blog postida ochilgan va tasvirlarni yaratish uchun oʻzgartirilgan GPT-3 versiyasidan foydalanadi. 2022-yil aprel oyida OpenAI DALL-E 2 ni eʼlon qildi, bu tushunchalar, atributlar va uslublarni birlashtira oladigan yuqori aniqlikdagi real tasvirlarni yaratishga moʻljallangan[1].

OpenAI har ikkala model uchun manba kodini chiqarmagan. Ammo OpenAI veb-saytida cheklangan namunali koʻrsatmalardan chiqish mavjud. 2022-yil 20-iyulda DALL-E 2 beta-bosqichga kirdi va kutish roʻyxatiga kiritilgan 1 million kishiga taklif yuborildi[2][3]. Etika va xavfsizlik bilan bogʻliq xavotirlar tufayli tadqiqotni koʻrish uchun oldindan tanlangan foydalanuvchilarga kirish cheklangan edi[4][5]. 2022-yil 28-sentabrda DALL-E 2 hamma uchun ochildi. Kutish roʻyxati talabi olib tashlandi;[6] foydalanuvchilar maʼlum miqdordagi rasmlarni bepul yaratishlari va qoʻshimcha rasmlarni sotib olishlari mumkin[7].

Dastur nomi animatsion robot Pixar qahramoni WALL-E va ispan surrealist rassomi Salvador Dali nomlarining portmantosidir.

Texnologiya[tahrir | manbasini tahrirlash]

Generativ Oldindan Oʻqitilgan Transformator (GPT) modeli dastlab OpenAI tomonidan 2018-yilda Transformer arxitekturasidan foydalangan holda ishlab chiqilgan. Birinchi iteratsiya, 2019-yilda GPT-2 ishlab chiqarish uchun kengaytirildi; 2020-yilda 175 milliard parametrga ega GPT-3 ishlab chiqarish uchun yana kengaytirildi. DALL-E modeli GPT-3 ning multimodal ilovasi boʻlib, 12 milliard parametrga ega. U matnni piksellar bilan almashtiradi. DALL-E 2 3,5 milliard parametrdan foydalanadi. Bu avvalgisidan kichikroq degani[8].

DALL-E CLIP (Contrastive Language-Image Pre-trening) bilan birgalikda ishlab chiqilgan va ommaga eʼlon qilingan. CLIP — bu internetdan olingan matn sarlavhalari bilan 400 million juft tasvirlar ustida oʻqitiladigan nol-shot oʻrganishga asoslangan alohida model[9]. Uning vazifasi maʼlumotlar toʻplamidan tasodifiy tanlangan 32 768 ta sarlavhadan qaysi sarlavha tasvirga mos kelishini bashorat qilish orqali DALL-E chiqishini „tushunish va tartiblash“dan iborat. Ushbu model eng mos chiqishlarni tanlash uchun DALL-E tomonidan yaratilgan tasvirlarning kattaroq boshlangʻich roʻyxatini filtrlash uchun ishlatiladi.

Imkoniyatlari[tahrir | manbasini tahrirlash]

DALL-E fotorealistik tasvirlar, rasmlar va emoji kabi turli uslublarda tasvirlarni yaratishi mumkin. U oʻz tasvirlaridagi ob’ektlarni manipulyatsiya qilishi va qayta tartibga solishi mumkin. Bundan tashqari aniq koʻrsatmasiz dizayn elementlarini yangi kompozitsiyalarga toʻgʻri joylashtirishi mumkin. Thom Dann taʼkidlaganidek, „Masalan, burnini chayqayotgan, latte ichgan yoki velosipedda ketayotgan daikon turpini chizish soʻralganda, DALL-E koʻpincha roʻmolcha, qoʻllar va oyoqlarni chizishda xatoliklar qilishi mumkin“. DALL-E odatda nishonlash bilan bogʻliq boʻlgan koʻrsatmalarga Rojdestvo tasvirlarini qoʻshishadi. Bundan tashqari, DALL-E vizual va dizayn tendentsiyalari haqida keng tushunchani namoyish etadi. 

Uning vizual fikrlash qobiliyati Raven matritsalarini yechish uchun yetarli (koʻpincha odamlarga aqlni oʻlchash uchun vizual testlar qoʻllaniladi)[10].

Ochiq kodli ilovalar[tahrir | manbasini tahrirlash]

DALL-E ning ochiq manbali ilovalarini yaratishga bir necha bor urinishlar boʻlgan[11]. Hugging Faceʼs Spaces platformasida 2022-yilda chiqarilgan Craiyon (DALL-E Mini 2022-yil iyun oyida OpenAI tomonidan nomni oʻzgartirish talab qilinmaguncha) oʻrgatilgan original sunʼiy intellekt modelidir. U 2022-yilning oʻrtalarida kulgili tasvirlarni yaratish qobiliyati tufayli chiqarilganidan keyin ommaviy axborot vositalarining eʼtiborini tortdi.

Stable Diffusionʼda 2022-yil avgust oyida ommaga chiqarilgan DALL-E ga oʻxshash manba kodi mavjud.[12]

Manbalar[tahrir | manbasini tahrirlash]

  1. „DALL·E 2“ (inglizcha). OpenAI. Qaraldi: 6-iyul 2022-yil.
  2. „DALL·E Now Available in Beta“ (inglizcha). OpenAI (20-iyul 2022-yil). Qaraldi: 20-iyul 2022-yil.
  3. Allyn, Bobby. „Surreal or too real? Breathtaking AI tool DALL-E takes its images to a bigger stage“ (inglizcha). NPR (20-iyul 2022-yil). Qaraldi: 20-iyul 2022-yil.
  4. „DALL·E Waitlist“ (inglizcha). labs.openai.com. Qaraldi: 6-iyul 2022-yil.
  5. „From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art“ (inglizcha). the Guardian (18-iyun 2022-yil). Qaraldi: 6-iyul 2022-yil.
  6. „DALL·E Now Available Without Waitlist“ (inglizcha). OpenAI (28-sentabr 2022-yil). Qaraldi: 5-oktabr 2022-yil.
  7. „Midjourney“ (inglizcha). Midjourney. Qaraldi: 20-iyul 2022-yil.
  8. Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (12–aprel 2022–yil). „Hierarchical Text-Conditional Image Generation with CLIP Latents“. arXiv:2204.06125. {{cite magazine}}: Cite magazine requires |magazine= (yordam)CS1 maint: date format ()
  9. „'DALL-E' AI generates an image out of anything you describe“ (inglizcha). Engadget. Qaraldi: 18-iyul 2022-yil.
  10. „DALL·E: Creating Images from Text“ (inglizcha). OpenAI (5-yanvar 2021-yil). Qaraldi: 13-avgust 2022-yil.
  11. jina-ai/dalle-flow, Jina AI, 17–iyun 2022–yil, qaraldi: 17–iyun 2022–yil{{citation}}: CS1 maint: date format ()
  12. Growcoot. „Open Source AI Image Generator Stable Diffusion Released to the Public“ (inglizcha). PetaPixel (23-avgust 2022-yil). Qaraldi: 5-oktabr 2022-yil.