Untuk membuat sebuah karya gambar ilustrasi, biasanya seorang ilustrator digital akan menggunakan software khusus desain grafis, misalnya seperti Adobe Photoshop, Adobe Illustrator, ataupun software untuk menggambar digital lainnya.
Namun bagaimana bila kita tidak mempunyai keahlian khusus untuk menggambar tetapi ingin menghasilkan karya ilustrasi yang unik dengan mudah dan cepat?
Teknologi kecerdasan buatan atau yang biasa dikenal dengan AI (Artificial Intelligence) adalah salah satu solusinya. Teknologi AI saat ini memang sudah banyak diimplementasikan pada berbagai sektor teknologi. Salah satu contohnya adalah pada robot, gadget, kamera, smartphone, maupun beragam perangkat lunak (software). Tidak terkecuali pada bidang digital art ini. Kita bisa menghasilkan gambar ilustrasi unik dengan menggunakan teknologi AI Text to Image. Teknologi ini bisa menghasilkan gambar ilustrasi unik berdasarkan kata pencarian yang kita input berkat adanya teknologi kecerdasan buatan.
Setelah itu, sistem akan mencari gambar yang relevan dengan keyword yang diambil dari berbagai sumber website di internet, lalu menggabungkannya menjadi satu hingga menghasilkan gambar yang terlihat unik. Salah satu project Text to Image AI yang cukup terkenal saat ini adalah Stable Diffusion.
Project ini berlisensi open source, sehingga siapa saja bisa melihat source code-nya di GitHub untuk menggunakan sekaligus mengembangkannya. Metode di atas disebut dengan text-guided image-to-image translation and upscaling yang juga cukup mirip dengan yang digunakan oleh software nVidia CANVAS yang sudah pernah kami bahas di artikel sebelumnya. Hal tersebut tidak dapat diketahui dari sumber mana saja komponen gambar yang mereka ambil lalu mereka gabungkan hingga menjadi satu kesatuan yang unik.
Namun menurut kami kemungkinan besar mereka bisa saja mengumpulkan banyak contoh gambar dari website semacam Devian Art, Pinterest, Microstock, atau sejenisnya lalu mengolahnya sedemikian rupa hingga membuat hasil output terlihat berbeda dari gambar aslinya. Stable Diffusion dikembangkan berkat kolaborasi antara Stability AI dan Runway.
Perlu diketahui, Stable Diffusion menggunakan database image-set dari LAION-5B yang mampu mengumpulkan hingga 5 miliar gambar yang sudah dipublikasikan di internet. Setiap perintah teks akan dicocokkan dengan model gambar yang ada di internet (umumnya didapatkan dari info metadata atau alt tag yang ada pada gambar pada suatu website). Selanjutnya beberapa gambar tersebut akan digabungkan hingga menghasilkan gambar ilustrasi yang unik. Perintah teksnya (disebut dengan prompt) diproses menggunakan CLIP ViT-L/14, 60M UNet dan 123M text encoder. Model ini relatif ringan dijalankan dengan menggunakan GPU setidaknya dengan 10GB VRAM.