Satu kajian baharu dari Universiti Birmingham mencadangkan menggunakan pandangan sosiolinguistik untuk menambah baik model bahasa yang besar, menangani isu kritikal seperti berat sebelah sosial dan maklumat salah. Penyelidik menyerlahkan keperluan mendesak untuk data bahasa yang pelbagai untuk mencipta sistem AI yang lebih adil dan beretika.
Penyelidikan baharu dari Universiti Birmingham memberi penerangan tentang laluan kritikal untuk menambah baik model bahasa besar (LLM) dengan menyepadukan prinsip sosiolinguistik. Pendekatan inovatif ini boleh meningkatkan dengan ketara kesaksamaan dan kebolehpercayaan sistem kecerdasan buatan seperti ChatGPT, menangani isu lazim maklumat salah dan berat sebelah masyarakat.
Kajian itu, diterbitkan dalam Frontiers in Artificial Intelligence, menekankan bahawa sistem AI yang popular sering goyah disebabkan oleh ketidakcukupan dalam pangkalan data bahasa yang digunakan untuk latihan mereka. Pangkalan data ini gagal mewakili kepelbagaian dialek, daftar dan perubahan temporal yang intrinsik kepada mana-mana bahasa dengan tepat, yang membawa kepada output AI yang boleh mengekalkan stereotaip dan ketidaktepatan yang berbahaya.
"Apabila digesa, AI generatif seperti ChatGPT mungkin lebih berkemungkinan menghasilkan gambaran negatif tentang etnik dan jantina tertentu, tetapi penyelidikan kami menawarkan penyelesaian bagaimana LLM boleh dilatih dengan cara yang lebih berprinsip untuk mengurangkan berat sebelah sosial," penulis utama Jack Grieve, seorang profesor di Jabatan Linguistik dan Komunikasi di Universiti Birmingham, berkata dalam a Siaran akhbar.
Kajian itu mencadangkan bahawa jika LLM diperhalusi pada set data yang mencerminkan spektrum penuh kepelbagaian bahasa, nilai masyarakat sistem AI ini boleh dipertingkatkan dengan lebih baik. Pendekatan ini boleh mengimbangi perwakilan kumpulan sosial dan konteks yang berbeza, memastikan sistem AI bukan sahaja lebih tepat tetapi juga lebih beretika.
"Kami mencadangkan bahawa meningkatkan kepelbagaian sosiolinguistik data latihan adalah jauh lebih penting daripada sekadar mengembangkan skalanya," tambah Grieve. "Atas semua sebab ini, kami percaya terdapat keperluan yang jelas dan mendesak untuk wawasan sosiolinguistik dalam reka bentuk dan penilaian LLM."
Implikasi kajian ini adalah meluas. Dengan membenamkan pemahaman yang lebih mendalam tentang struktur masyarakat dan kesannya terhadap penggunaan bahasa ke dalam reka bentuk LLM, kajian itu membuka jalan kepada sistem AI yang memberi perkhidmatan yang lebih baik kepada manusia. Memandangkan AI terus membenamkan dirinya dalam pelbagai sektor masyarakat, daripada perkhidmatan pelanggan kepada cadangan yang diperibadikan, memastikan sistem ini beroperasi tanpa berat sebelah adalah penting.