Perbezaan dalam Pengesanan Ucapan Kebencian Model AI Didedahkan dalam Kajian Baharu

Kajian oleh Annenberg School for Communication mendedahkan perbezaan yang ketara antara model AI, termasuk model dari OpenAI, DeepSeek dan Google, dalam mengesan ucapan kebencian, yang boleh membawa implikasi serius untuk penyederhanaan kandungan dan keselamatan komuniti dalam talian.

Kecerdasan buatan telah muncul sebagai pemain utama dalam menyederhanakan kandungan dalam talian, terutamanya ucapan benci, kerana platform berusaha untuk mengekang polarisasi politik dan melindungi kesihatan mental. Walau bagaimanapun, kajian terbaru dari Annenberg School for Communication di University of Pennsylvania menyerlahkan isu kritikal: penilaian ucapan benci oleh model AI terkemuka adalah jauh dari konsisten.

"Syarikat teknologi swasta telah menjadi penimbang tara de facto tentang ucapan yang dibenarkan di dataran awam digital, namun mereka berbuat demikian tanpa sebarang piawaian yang konsisten," kata Yphtach Lelkes, seorang profesor bersekutu di Annenberg School for Communication, dalam satu kenyataan berita.

Pelajar kedoktoran Lelkes dan Annenberg, Neil Fasching menjalankan analisis perbandingan berskala besar pertama bagi sistem penyederhanaan kandungan AI, mengkaji konsistensi mereka dalam menilai ucapan benci.

Kajian mereka, diterbitkan dalam Penemuan Persatuan Linguistik Pengiraan, menganalisis tujuh model terkemuka: dua model OpenAI, dua model Mistral, Claude 3.5 Sonnet, DeepSeek V3 dan Google Perspective API.

Para penyelidik menganalisis 1.3 juta ayat sintetik yang mengejutkan meliputi 125 kumpulan, menggunakan pelbagai istilah, termasuk neutral dan penghinaan, berkaitan dengan agama, kecacatan, umur dan banyak lagi.

Ambilan Utama Daripada Kajian

1. Keputusan Tidak Konsisten Merentas Model

"Penyelidikan menunjukkan bahawa sistem penyederhanaan kandungan mempunyai ketidakkonsistenan dramatik apabila menilai kandungan ucapan benci yang sama, dengan sesetengah sistem membenderakan kandungan sebagai berbahaya manakala yang lain menganggapnya boleh diterima," kata Fasching, yang merupakan ahli Kumpulan Demokrasi dan Maklumat, dalam siaran berita.

Lelkes, yang juga pengarah bersama Makmal Penyelidikan Polarisasi dan Pusat Rangkaian Maklumat dan Demokrasi, menambah bahawa ketidakkonsistenan ini boleh menghakis kepercayaan orang ramai dan mewujudkan persepsi berat sebelah. Kajian itu mendapati varians dalam ketekalan dalaman model, menonjolkan cabaran mengimbangi ketepatan pengesanan dengan mengelakkan terlalu sederhana.

2. Ketidakkonsistenan yang dinyatakan untuk Kumpulan Tertentu

"Ketidakkonsistenan ini amat ketara untuk kumpulan demografi tertentu, menyebabkan sesetengah komuniti lebih terdedah kepada bahaya dalam talian berbanding yang lain," tambah Fasching.

Penyelidikan menunjukkan penilaian pertuturan kebencian yang lebih konsisten untuk kumpulan berdasarkan orientasi seksual, bangsa dan jantina, manakala kebolehubahan meningkat untuk kumpulan yang ditentukan oleh tahap pendidikan, minat peribadi dan kelas ekonomi.

3. Pengendalian Ayat Neutral dan Positif Berbeza

Terutamanya, minoriti ayat adalah neutral atau positif untuk menguji pengenalan palsu ucapan kebencian. Sistem seperti Claude 3.5 Sonnet dan klasifikasi kandungan khusus Mistral menganggap semua penghinaan sebagai berbahaya, manakala yang lain memfokuskan pada konteks dan niat.

Penulis terkejut dengan pembahagian yang jelas dalam cara model mengklasifikasikan kes ini, dengan sedikit jalan tengah.

sumber: Sekolah Komunikasi Annenberg, Universiti Pennsylvania