Microsoft AI Bisa Membuat Foto Berbicara, Canggih namun Berbahaya

- Advertisement -

Microsoft telah meluncurkan model AI yang mampu menganimasikan foto menggunakan audio. Ini merupakan inovasi luar biasa namun menyimpan potensi bahaya.

Essanews melaporkan, Rabu (24/4/2024) model yang dikenal sebagai Microsoft VASA-1 ini, mampu membuat gambar berbicara, menganimasikan potret manusia untuk disinkronkan dengan rekaman suara. Teknologi ini secara impresif mengubah foto biasa menjadi animasi realistis dari orang-orang yang sedang berbicara atau bernyanyi.

Microsoft melakukan eksperimen menggunakan potret yang dihasilkan dengan StyleGAN2 dan DALL-E 3. Fitur ini efektif pada foto realistis orang dan avatar kartun, dengan pengujian bahkan mencakup animasi Mona Lisa yang terkenal.

Model VASA-1 bukan hanya menyinkronkan gerakan bibir, namun juga menangkap totalitas ekspresi wajah dan gerakan kepala secara alami yang membuat animasi terlihat lebih realistis.

Model tersebut mendukung pembuatan animasi dalam resolusi 512 x 512 piksel pada frame rate 45 frame per detik dalam modus offline. Ini juga dapat menghasilkan rekaman waktu nyata hingga 40 frame per detik dengan penundaan minimal hanya 170 ms pada komputer desktop yang dilengkapi kartu grafis NVIDIA GeForce RTX 4090.

Microsoft fokus menghasilkan animasi untuk potret virtual, namun mereka menyadari potensi penyalahgunaan teknologi ini untuk tindakan kejahatan seperti pemalsuan identitas.

Perusahaan telah secara terbuka menolak penggunaan model VASA-1 untuk tujuan menipu atau membuat konten berbahaya dengan gambar orang-orang nyata. Sebagai hasilnya, Microsoft memutuskan untuk tidak merilis versi demonstrasi, API, atau produk lengkapnya ke publik. Mereka memanfaatkan teknologi ini untuk meningkatkan deteksi konten palsu.

Source link

Post Views: 158