Kajian terobosan oleh Universiti di Buffalo telah mendedahkan bahawa model bahasa yang besar seperti ChatGPT boleh memainkan peranan penting dalam mengenal pasti imej palsu yang mendalam. Walaupun belum setepat algoritma pengesanan semasa, model ini menawarkan kelebihan unik, termasuk menerangkan penemuan mereka dalam bahasa biasa. Perkembangan ini membuka kemungkinan baharu untuk meningkatkan forensik media dan memerangi maklumat salah.
Dalam dunia yang semakin dikuasai oleh kecerdasan buatan, baik dalam bentuk teks dan imej, kebimbangan terhadap penyebaran deepfakes adalah besar. Walau bagaimanapun, yang baru mengkaji diketuai oleh pasukan penyelidik dari Universiti di Buffalo menawarkan jalan yang menjanjikan untuk mengubah AI terhadap dirinya sendiri. Kerja perintis ini meneroka sama ada model penjanaan teks seperti ChatGPT boleh mengenal pasti imej yang dijana AI, yang dikenali sebagai deepfakes.
Dibentangkan pada Persidangan IEEE/CVF mengenai Penglihatan Komputer & Pengecaman Corak, kajian itu mendapati bahawa walaupun ChatGPT dan model bahasa besar (LLM) yang serupa tidak mengatasi prestasi algoritma pengesanan deepfake terkini, keupayaan pemprosesan bahasa semula jadi mereka memberikan kelebihan yang bermakna.
"Apa yang membezakan LLM daripada kaedah pengesanan sedia ada ialah keupayaan untuk menerangkan penemuan mereka dengan cara yang boleh difahami oleh manusia, seperti mengenal pasti bayang yang salah atau sepasang anting-anting yang tidak sepadan," Siwei Lyu, pengarang utama kajian itu dan Profesor Inovasi SUNY Empire dalam Jabatan Sains Komputer dan Kejuruteraan dalam Pusat Pengajian Kejuruteraan dan Sains Gunaan UB, berkata dalam a Siaran akhbar. "LLM tidak direka bentuk atau dilatih untuk pengesanan deepfake, tetapi pengetahuan semantik mereka menjadikannya sangat sesuai untuk itu, jadi kami mengharapkan untuk melihat lebih banyak usaha ke arah aplikasi ini."
Penyelidikan yang dijalankan dengan kerjasama Universiti di Albany dan Universiti Cina Hong Kong, Shenzhen dan disokong oleh Yayasan Sains Kebangsaan, menggariskan kepentingan kritikal untuk memahami cara model bahasa memproses imej. LLM ini, yang dilatih pada kandungan teks yang luas, kini turut menggunakan pangkalan data besar foto berkapsyen untuk membezakan hubungan antara perkataan dan visual.
"Manusia juga melakukan ini. Sama ada tanda berhenti atau meme viral, kami sentiasa memberikan penerangan semantik kepada imej,” kata Shan Jai, pengarang pertama dan penolong pengarah makmal kajian itu di Makmal Forensik Media UB, dalam siaran berita. "Dengan cara ini, imej menjadi bahasa mereka sendiri."
Percubaan itu menugaskan GPT-4 dengan penglihatan (GPT-4V) dan Gemini 1.0 Google dengan membezakan antara wajah sebenar dan wajah yang dijana AI dengan mengesan manipulasi dan artifak sintetik. Walaupun ketepatan yang lebih rendah berbanding model pengesanan tercanggih, ChatGPT mencapai kira-kira 79.5% ketepatan dalam mengenal pasti artifak sintetik dalam imej yang dijana oleh penyebaran terpendam dan 77.2% dalam yang dicipta oleh StyleGAN.
"Ini adalah setanding dengan kaedah pengesanan deepfake yang lebih awal, jadi dengan bimbingan segera yang betul, ChatGPT boleh melakukan kerja yang agak baik dalam mengesan imej yang dijana AI," tambah Lyu, yang juga pengarah bersama Pusat Integriti Maklumat UB.
Kelebihan penting ChatGPT ialah keupayaannya untuk menyatakan proses membuat keputusannya dalam bahasa yang mudah. Sebagai contoh, apabila diberikan gambar lelaki berkaca mata yang dijana AI, model itu dengan tepat menyatakan, "rambut di sebelah kiri imej sedikit kabur" dan "peralihan antara orang itu dan latar belakang agak mendadak dan kurang kedalaman.” Ketelusan ini menjadikan LLM lebih mesra pengguna.
Kredit: Universiti di Buffalo
Walau bagaimanapun, prestasi ChatGPT kekal di bawah algoritma pengesanan deepfake terkemuka, yang mempunyai kadar ketepatan pada pertengahan hingga tinggi 90-an. LLM seperti ChatGPT bergelut untuk mengenal pasti perbezaan statistik peringkat isyarat yang sering digunakan oleh algoritma pengesanan untuk mengesan imej yang dijana AI.
"ChatGPT hanya tertumpu pada keabnormalan tahap semantik," kata Lyu. "Dengan cara ini, intuitif semantik hasil ChatGPT sebenarnya boleh menjadi pedang bermata dua untuk pengesanan palsu."
Selain itu, tidak semua LLM sepadan dengan keberkesanan ChatGPT. Walaupun Gemini melakukan yang sama dalam mengesan artifak sintetik, bukti sokongannya selalunya tidak masuk akal. Selain itu, LLM kadangkala enggan menganalisis imej secara langsung, dengan menyatakan, "Maaf, saya tidak dapat membantu dengan permintaan itu," apabila tahap keyakinan rendah.
"Model itu diprogramkan untuk tidak menjawab apabila ia tidak mencapai tahap keyakinan tertentu," tambah Lyu. "Kami tahu bahawa ChatGPT mempunyai maklumat yang berkaitan dengan pengesanan deepfake, tetapi, sekali lagi, pengendali manusia diperlukan untuk merangsang bahagian pangkalan pengetahuannya."
Kajian ini menunjukkan potensi masa depan di mana LLM yang diperhalusi boleh menjadi alat penting dalam forensik media, menyerlahkan evolusi dan inovasi berterusan dalam penyelidikan AI.