Apakah Dalle-mini dan Bagaimana Ia Berfungsi?

Apakah Dalle Mini Dan Bagaimana Ia Berfungsi



Dalle-mini ialah model pembelajaran mendalam yang boleh menjana imej berkualiti tinggi daripada teks input pengguna. Ia berdasarkan model DALL-E, yang OpenAI dikeluarkan pada Januari 2021. DALL-E bermaksud “ Bahasa Terselit dan Ungkapan Terpendam ” ialah rangkaian saraf berasaskan pengubah yang boleh mengekod teks dan imej ke dalam ruang terpendam biasa, dan kemudian menyahkodnya semula ke dalam mana-mana modaliti.

Artikel ini akan menerangkan kandungan berikut:







Apa itu Dalle-mini?

Beri dia-mini ialah versi DALL-E yang lebih kecil dan lebih pantas, yang dicipta oleh EleutherAI, sebuah kolektif penyelidikan sumber terbuka. Dalle-mini hanya menggunakan 6 bilion parameter, berbanding dengan 12 bilion DALL-E, dan ia boleh dijalankan pada satu GPU. Dalle-mini juga menggunakan tokenizer dan perbendaharaan kata yang berbeza untuk input teks, yang menjadikannya lebih serasi dengan bahasa dan domain yang berbeza:




Catatan : Pengguna boleh menjana imej percuma menggunakan Dalle-mini dengan mengikuti pautan .



Apakah Kerja Dalle-mini?

Idea utama di sebalik Dalle-mini ialah kuasa transformer, iaitu rangkaian saraf. Mereka boleh mempelajari kebergantungan jarak jauh dan corak kompleks dalam data berjujukan, seperti teks atau imej.





Transformer terdiri daripada dua bahagian utama: pengekod dan penyahkod. Bahagian pertama mengambil input (penerangan teks) dan mengubahnya menjadi vektor tersembunyi. Selepas itu, penyahkod mengambilnya dan menghasilkan output (imej) yang berkaitan dengan input.

Apakah Perbezaan antara Dalle-mini dan DALL-E?

Dalle-mini dan DALL-E menggunakan seni bina penyahkod pengekod yang dikongsi untuk kedua-dua teks dan imej. Mereka boleh mengekod dan menyahkod kedua-dua modaliti menggunakan rangkaian yang sama. Ini membolehkan mereka mempelajari ruang terpendam biasa yang menangkap hubungan semantik antara teks dan imej. Selepas itu, membolehkan mereka melakukan penjanaan silang modal, seperti mencipta imej daripada teks atau sebaliknya.



Bagaimana Dalle-mini Berfungsi?

Untuk menjana imej daripada perihalan teks, Dalle-mini mula-mula menandakan teks menggunakan algoritma pengekodan pasangan bait (BPE), yang membahagikan teks kepada unit subkata berdasarkan kekerapan dan kejadian bersama:


Mari kita pergi ke perincian kerja dalaman Dalle-mini:

Kerja Dalaman Dalle-mini

Mari kita andaikan, perkataan ' bermain 'mungkin dibahagikan kepada' pla ” dan “ ying ”. Token kemudian dipetakan ke ID berangka menggunakan perbendaharaan kata 8192 token. ID dimasukkan ke dalam pengekod, menghasilkan perwakilan terpendam bersaiz 256 x 64:


Penyahkod kemudian mengambil perwakilan terpendam dan menjana imej bersaiz 256 x 256 piksel. Penyahkod menggunakan proses autoregresif, yang bermaksud bahawa ia menjana setiap piksel satu demi satu, dikondisikan pada piksel sebelumnya dan perwakilan terpendam.

Bagaimana untuk Menjana Imej daripada Penerangan Teks Menggunakan Dalle-mini?

Untuk menjana penerangan teks daripada imej menggunakan Dalle-mini, masukkan teks ke dalam tetingkap gesaan. Sebagai contoh, taip ' Lukisan bunga rawak ” dalam gesaan dan tekan “ Lari butang ”:


Output menunjukkan bahawa Dalle-mini telah menghasilkan imej yang berkaitan mengikut teks input.

Kesimpulan

Dalle-mini ialah model luar biasa yang menunjukkan potensi transformer untuk penjanaan rentas mod. Mereka boleh mencipta imej yang realistik dan pelbagai daripada huraian bahasa semula jadi, serta teks yang koheren dan relevan daripada imej. Mereka juga boleh mengendalikan gubahan kompleks, seperti menggabungkan berbilang objek atau atribut dalam satu imej atau teks. Artikel ini telah menerangkan Dalle-mini dan cara kerjanya secara terperinci.