Model AI Meramalkan Keseronokan dan Kelancaran Panggilan Zum

Satu kajian baharu oleh saintis NYU mendedahkan model AI yang boleh meramalkan kelancaran dan keseronokan persidangan video dengan menganalisis tindakan mengambil giliran dan muka perbualan. Kejayaan ini boleh meningkatkan secara mendadak mesyuarat maya, menjadikannya lebih cekap dan menyeronokkan.

Sejak wabak COVID-19 bermula, platform persidangan video seperti Zoom dan MS Teams telah menjadi bahagian penting dalam kerja dan kehidupan sosial kami. Walaupun kelebihannya, platform ini sering mengalami detik-detik yang terasa janggal atau tidak produktif. Kini, satu pasukan saintis dari Universiti New York menawarkan penyelesaian berteknologi tinggi untuk menjadikan mesyuarat maya lebih menyeronokkan dan cekap.

Para penyelidik telah membangunkan model kecerdasan buatan yang mampu menilai tingkah laku manusia semasa persidangan video. Ini termasuk memantau pengambilan giliran perbualan dan ekspresi muka untuk meramalkan sama ada interaksi ini lancar dan menyeronokkan.

"Model pembelajaran mesin kami mendedahkan dinamik rumit interaksi sosial peringkat tinggi dengan menyahkod corak halus dalam isyarat audio dan video asas daripada persidangan video," kata pengarang utama Andrew Chang, rakan pasca doktoral di Jabatan Psikologi NYU, dalam keluaran baharu. "Penerobosan ini mewakili satu langkah penting ke arah mempertingkatkan pengalaman persidangan video secara dinamik dengan menunjukkan cara untuk mengelakkan kegelinciran perbualan sebelum ia berlaku."

Untuk mencipta keajaiban pembelajaran mesin ini, lebih 100 jam rakaman Zum telah dianalisis. Model itu mengambil perhatian terhadap suara, ekspresi muka dan pergerakan badan untuk mengenal pasti unsur-unsur gangguan yang menjadikan perbualan kurang lancar atau menyeronokkan.

Menariknya, model itu mendapati bahawa "senyap yang janggal" lebih memudaratkan kualiti pertemuan daripada perbualan yang bertindih, menunjukkan bahawa perdebatan yang bertenaga adalah lebih baik daripada tempoh senyap.

Untuk mengesahkan model, lebih daripada 300 hakim manusia menyemak rakaman persidangan video yang sama, menilai betapa lancar dan menyeronokkan mereka mendapati pertukaran itu. Penilaian mereka sejajar rapat dengan ramalan AI, mengesahkan kebolehpercayaan model.

"Persidangan video kini menjadi ciri yang menonjol dalam kehidupan kita, jadi memahami dan menangani detik negatifnya adalah penting untuk bukan sahaja memupuk komunikasi dan perhubungan interpersonal yang lebih baik tetapi juga untuk meningkatkan kecekapan pertemuan dan kepuasan kerja pekerja," tambah pengarang kanan Dustin Freeman, seorang sarjana pelawat di Jabatan Psikologi NYU. "Dengan meramalkan detik-detik kerosakan perbualan, kerja ini boleh membuka jalan kepada sistem persidangan video untuk mengurangkan kerosakan ini dan melancarkan aliran perbualan dengan sama ada secara tersirat memanipulasi kelewatan isyarat untuk menampung atau secara eksplisit memberikan isyarat kepada pengguna, yang sedang kami uji."

Penyelidikan pasukan, diterbitkan dalam prosiding Persidangan Antarabangsa IEEE mengenai Akustik, Pertuturan dan Pemprosesan Isyarat (ICASSP), mempamerkan kemajuan ketara dalam bidang komunikasi maya, dengan aplikasi berpotensi yang boleh melangkaui persidangan video kepada pelbagai bentuk komunikasi jauh.

Kertas kerja itu dikarang bersama oleh Viswadruth Akkaraju dan Ray McFadden Cogliano, kedua-duanya pelajar siswazah di Sekolah Kejuruteraan Tandon NYU pada masa itu, serta David Poeppel, seorang profesor psikologi di NYU dan Persatuan Max Planck di Munich, Jerman.

sumber: Universiti New York