Pindahkan gambar dengan mudah: Text2Video-Zero adalah model AI yang mengubah model teks-ke-gambar menjadi generator video Zero-Shot

Sumber: https://arxiv.org/abs/2303.13439

Kami telah melihat munculnya model AI generatif selama dua bulan terakhir. Mereka beralih dari menghasilkan gambar seperti wajah beresolusi rendah menjadi menghasilkan gambar fotorealistik beresolusi tinggi dengan cukup cepat. Sekarang dimungkinkan untuk mendapatkan gambar foto-realistis yang unik dengan mendeskripsikan apa yang ingin Anda lihat. Selain itu, mungkin yang lebih mengesankan adalah kenyataan bahwa kami bahkan dapat menggunakan templat siaran untuk menghasilkan video bagi kami.

Kontributor utama AI generatif adalah model siaran. Mereka mengambil prompt teks dan menghasilkan keluaran yang cocok dengan deskripsi itu. Mereka melakukan ini dengan secara bertahap mengubah sekumpulan angka acak menjadi gambar atau video sambil menambahkan lebih banyak detail agar terlihat seperti deskripsi. Model ini belajar dari kumpulan data yang berisi jutaan sampel, sehingga mereka dapat menghasilkan visual baru yang terlihat seperti yang pernah mereka lihat sebelumnya. Namun, terkadang kumpulan data bisa menjadi masalah utama.

Hampir selalu tidak mungkin melatih model siaran untuk pembuatan video dari awal. Mereka membutuhkan kumpulan data yang sangat besar dan juga peralatan untuk memenuhi kebutuhan mereka. Membangun kumpulan data semacam itu hanya mungkin dilakukan oleh beberapa lembaga di dunia, karena mengakses dan mengumpulkan data semacam itu di luar jangkauan kebanyakan orang karena biaya. Kita perlu menggunakan pola yang ada dan mencoba membuatnya berfungsi untuk kasus penggunaan kita.

🚀 GABUNG komunitas Subreddit ML tercepat

Bahkan jika Anda berhasil menyiapkan kumpulan data teks-video dengan jutaan, atau bahkan milyaran, pasangan, Anda masih harus menemukan cara untuk mendapatkan kekuatan perangkat keras untuk menjalankan model berskala besar ini. Akibatnya, tingginya biaya model pengiriman video menyulitkan banyak pengguna untuk menyesuaikan teknologi ini dengan kebutuhan mereka sendiri.

READ Google berjuang untuk memperbaiki game Stadia barunya setelah menutup studionya sendiri

Bagaimana jika ada jalan keluar dari persyaratan ini? Bisakah kita memiliki cara untuk mengurangi biaya pelatihan model streaming video? Saatnya bertemu Text2Video-Nol

Text2Video-Nol adalah template teks-ke-video generatif no-shot, artinya tidak memerlukan pelatihan untuk menyesuaikan. Ini menggunakan model teks-ke-gambar pra-terlatih dan mengubahnya menjadi model pembuatan video yang konsisten waktu. Pada akhirnya, video menampilkan urutan gambar secara cepat untuk merangsang gerakan. Gagasan menggunakannya secara berurutan untuk menghasilkan video adalah solusi sederhana.

Namun, kita tidak bisa hanya menjalankan pola pembuatan gambar ratusan kali dan mengombinasikan hasilnya di akhir. Ini tidak akan berhasil karena tidak ada cara untuk memastikan model menggambar objek yang sama sepanjang waktu. Kami membutuhkan cara untuk memastikan konsistensi temporal model.

Untuk memastikan konsistensi waktu, Text2Video-Nol menggunakan dua sedikit modifikasi.

Pertama, ini memperkaya vektor laten dari gambar yang dihasilkan dengan informasi gerak untuk menjaga konsistensi keseluruhan adegan dan waktu latar belakang. Ini dilakukan dengan menambahkan informasi gerak ke vektor laten alih-alih hanya mengambil sampelnya secara acak. Namun, vektor laten ini tidak memiliki batasan yang cukup untuk merepresentasikan warna, bentuk, atau identitas tertentu, yang menyebabkan inkonsistensi temporal, terutama untuk objek latar depan. Oleh karena itu, modifikasi kedua diperlukan untuk mengatasi masalah ini.

Modifikasi kedua menyangkut mekanisme perhatian. Untuk memanfaatkan kekuatan perhatian antar-bingkai dan pada saat yang sama mengeksploitasi model difusi pra-pelatihan tanpa pelatihan ulang, setiap lapisan perhatian diri diganti dengan perhatian antar-bingkai, dan perhatian untuk setiap gambar difokuskan pada gambar pertama. Itu membantu Text2Video-Nol untuk melestarikan konteks, penampilan, dan identitas objek latar depan di seluruh urutan.

Eksperimen menunjukkan bahwa modifikasi ini menghasilkan pembuatan video berkualitas tinggi dan konsisten waktu, meskipun tidak memerlukan pelatihan pada data video berskala besar. Selain itu, ini tidak terbatas pada sintesis teks-video tetapi juga berlaku untuk pembuatan video bersyarat dan khusus, serta pengeditan video dengan instruksi teks.

READ Realme Narzo N55 diluncurkan di India hari ini: Cara menonton streaming langsung dan detail lainnya

Memeriksa Kertas Dan GithubGenericName. Jangan lupa untuk bergabung subreddit 19rb+ ML kami, Saluran Perselisihan, Dan Surel, tempat kami berbagi berita penelitian AI terbaru, proyek AI keren, dan banyak lagi. Jika Anda memiliki pertanyaan tentang artikel di atas atau jika kami melewatkan sesuatu, jangan ragu untuk mengirim email kepada kami di [email protected]

🚀 Temukan 100 alat AI di AI Tools Club

Ekrem Çetinkaya memperoleh gelar B.Sc. pada tahun 2018 dan M.Sc. pada tahun 2019 dari Ozyegin University, Istanbul, Türkiye. Dia menulis tesis M.Sc.-nya tentang denoising citra menggunakan jaringan konvolusional yang dalam. Saat ini ia sedang menempuh studi doktoral. gelar di Universitas Klagenfurt, Austria, dan bekerja sebagai peneliti di proyek ATHENA. Minat penelitiannya meliputi pembelajaran mendalam, visi komputer, dan jaringan multimedia.