Teknik AI Baharu Mengatasi Korelasi Palsu Tanpa Pengetahuan Terdahulu

Penyelidik di North Carolina State University telah membangunkan teknik AI baru untuk mengatasi korelasi palsu, walaupun ia tidak diketahui. Kejayaan ini boleh meningkatkan prestasi dan kebolehpercayaan model AI dengan ketara.

Penyelidik di North Carolina State University telah melancarkan teknik baharu untuk menangani salah satu masalah paling berterusan dalam latihan model kecerdasan buatan (AI) — korelasi palsu. Perkaitan ini sering menyebabkan sistem AI membuat keputusan berdasarkan maklumat yang tidak relevan atau mengelirukan, menghalang ketepatan dan kebolehpercayaan model ini.

"Teknik ini adalah novel kerana ia boleh digunakan walaupun anda tidak tahu apa hubungan palsu yang bergantung kepada AI," kata pengarang yang sepadan Jung-Eun Kim, penolong profesor sains komputer di NC State, dalam satu siaran berita.

Model AI, semasa fasa latihan mereka, kadangkala melekat pada ciri yang tidak penting disebabkan oleh apa yang dikenali sebagai bias kesederhanaan. Sebagai contoh, AI yang dilatih untuk mengenal pasti anjing dalam gambar mungkin menggunakan kolar sebagai ciri pengenalpastian utama jika banyak imej latihan menggambarkan anjing dengan kolar. Ini boleh membawa kepada keputusan yang salah, seperti salah mengenal pasti kucing dengan kolar sebagai anjing.

Kaedah konvensional untuk mengatasi masalah ini melibatkan mengenal pasti dan melaraskan ciri-ciri palsu dalam data latihan. Walau bagaimanapun, dalam banyak kes, penentuan ciri-ciri palsu ini tidak mudah malah tidak mungkin, menjadikan pendekatan tradisional tidak berkesan.

"Matlamat kami dengan kerja ini adalah untuk membangunkan teknik yang membolehkan kami memutuskan korelasi palsu walaupun kami tidak tahu apa-apa tentang ciri palsu itu," tambah Kim.

Kaedah baharu, yang dipanggil "pemangkasan data," melibatkan mengalih keluar subset kecil sampel yang paling sukar daripada data latihan. Sampel ini biasanya memaksa model AI untuk bergantung pada maklumat yang tidak berkaitan yang membawa kepada korelasi palsu.

"Mungkin terdapat variasi ketara dalam sampel data yang disertakan dalam set data latihan," tambah Kim. "Sesetengah sampel boleh menjadi sangat mudah, sementara yang lain mungkin sangat kompleks. Dan kita boleh mengukur betapa 'sukarnya' setiap sampel berdasarkan bagaimana model itu berkelakuan semasa latihan."

Hipotesis yang mendasari pendekatan ini ialah menghapuskan sebahagian kecil daripada sampel data yang paling mencabar juga menghapuskan mereka yang mempunyai ciri palsu, justeru meningkatkan prestasi model tanpa menyebabkan kesan buruk yang ketara.

Para penyelidik menunjukkan bahawa teknik novel ini menghasilkan hasil terkini, malah mengatasi kaedah sedia ada yang memerlukan pengenalpastian ciri palsu.

Kertas kerja semakan rakan sebaya, bertajuk “Memutuskan Hubungan Palsu dengan Pemangkasan Data,” akan dibentangkan pada Persidangan Antarabangsa mengenai Perwakilan Pembelajaran (ICLR) yang akan diadakan di Singapura dari 24 hingga 28 April.

Kejayaan ini mempunyai potensi besar untuk bidang AI, menjanjikan ketepatan dan kebolehpercayaan yang lebih besar dalam hasil model AI tanpa keperluan menyeluruh untuk mengenal pasti dan membetulkan korelasi palsu secara individu.

sumber: Universiti Negeri Carolina Utara