Walaupun kehebatannya dalam pelbagai domain, AI masih kurang dalam pengetahuan sejarah peringkat pakar, dengan model berprestasi tinggi hanya mendapat markah 46% pada ketepatan. Kajian itu menyerlahkan batasan dan potensi masa depan untuk AI dalam penyelidikan sejarah.
Chatbot kecerdasan buatan telah merevolusikan bidang daripada perkhidmatan pelanggan kepada penyelidikan undang-undang, tetapi penemuan baharu menunjukkan bahawa sistem ini masih bergelut dengan pengetahuan sejarah yang kompleks. Sekumpulan saintis kerumitan dan pakar AI baru-baru ini menilai prestasi model bahasa lanjutan, termasuk ChatGPT-4, pada soalan sejarah peringkat Ph.D. Hasilnya, dibentangkan pada persidangan NeurIPS di Vancouver, mendedahkan jurang yang ketara dalam pemahaman sejarah mereka.
Diketuai oleh Peter Turchin, seorang saintis kerumitan di Complexity Science Hub (CSH), dan Maria del Rio-Chanona, seorang penolong profesor di University College London, kajian itu menguji model AI seperti ChatGPT-4 Turbo, Llama dan Gemini terhadap ujian yang ketat. penanda aras dibangunkan menggunakan Bank Data Sejarah Global Seshat. Penanda aras itu merangkumi hampir 600 masyarakat, lebih 36,000 titik data dan lebih daripada 2,700 rujukan ilmiah.
“Model bahasa besar (LLM), seperti ChatGPT, telah sangat berjaya dalam beberapa bidang — contohnya, mereka telah berjaya dengan menggantikan paralegal. Tetapi apabila ia datang untuk membuat pertimbangan tentang ciri-ciri masyarakat masa lalu, terutamanya yang terletak di luar Amerika Utara dan Eropah Barat, keupayaan mereka untuk berbuat demikian adalah lebih terhad, "kata Turchin, yang mengetuai kumpulan penyelidikan CSH mengenai kerumitan sosial dan keruntuhan. dalam a Siaran akhbar.
Walaupun terdapat penambahbaikan daripada lelaran terdahulu, model berprestasi terbaik, GPT-4 Turbo, hanya mencapai ketepatan 46% pada ujian sejarah pilihan berganda yang direka untuk pelajar siswazah. Walaupun ini lebih baik daripada ketepatan 25% yang dijangkakan daripada tekaan rawak, ia menggariskan batasan AI dalam memahami konteks sejarah yang bernuansa.
"Saya fikir chatbots AI akan melakukan lebih baik," tambah del Rio-Chanona, yang juga ahli fakulti luar di CSH dan pengarang yang sepadan. "Sejarah sering dilihat sebagai fakta, tetapi kadangkala tafsiran diperlukan untuk memahaminya."
Salah satu penemuan paling mengejutkan kajian itu ialah kekhususan domain keupayaan AI.
“Keputusan ini menunjukkan bahawa 'kecerdasan' buatan agak khusus domain. LLM berfungsi dengan baik dalam beberapa konteks, tetapi sangat buruk, berbanding manusia, dalam konteks lain," tambah Turchin.
Prestasi berbeza dengan ketara merentas tempoh masa dan kawasan geografi yang berbeza. Model AI lebih tepat dalam menjawab soalan tentang sejarah purba, terutamanya dari 8,000 SM hingga 3,000 SM tetapi bergelut dengan ketara dengan peristiwa sejarah yang lebih terkini dari 1,500 CE hingga kini.
Terdapat juga perbezaan ketara dalam ketepatan berdasarkan fokus geografi, dengan model seperti OpenAI menunjukkan prestasi yang lebih baik untuk Amerika Latin dan Caribbean tetapi kurang berkesan untuk Afrika Sub-Sahara.
Pengarang pertama Jakob Hauser, seorang saintis pemastautin di CSH, menjelaskan kepentingan menetapkan penanda aras tersebut.
“Kami mahu menetapkan penanda aras untuk menilai keupayaan LLM ini untuk mengendalikan pengetahuan sejarah peringkat pakar. Seshat Databank membolehkan kami melangkaui soalan 'pengetahuan am'," katanya dalam siaran berita.
Kajian itu seterusnya menyerlahkan bahawa model AI cemerlang dalam kategori tertentu seperti sistem perundangan dan kerumitan sosial tetapi goyah dalam topik yang berkaitan dengan diskriminasi dan mobiliti sosial.
"Pengambilan utama daripada kajian ini ialah LLM, walaupun mengagumkan, masih kekurangan kedalaman pemahaman yang diperlukan untuk sejarah lanjutan. Mereka bagus untuk fakta asas, tetapi apabila ia datang kepada siasatan sejarah peringkat PhD yang lebih bernuansa, mereka masih belum mencapai tugas itu,” tambah del Rio-Chanona.
Memandang ke hadapan, pasukan penyelidik, yang termasuk pakar dari Universiti Oxford dan Institut Alan Turing, menyasarkan untuk mengembangkan set data mereka dan memperhalusi penanda aras mereka untuk memasukkan soalan sejarah yang lebih pelbagai dan kompleks.
"Kami merancang untuk terus memperhalusi penanda aras dengan menyepadukan titik data tambahan dari pelbagai wilayah, terutamanya Global Selatan," tambah Hauser. "Kami juga berharap untuk menguji model LLM yang lebih terkini, seperti o3, untuk melihat sama ada ia boleh merapatkan jurang yang dikenal pasti dalam kajian ini."
Penemuan ini menawarkan pandangan kritikal untuk kedua-dua ahli sejarah dan pembangun AI, menonjolkan bidang untuk penambahbaikan dan potensi untuk penyepaduan AI yang lebih baik dalam penyelidikan sejarah.