Mengesan Berita Palsu dengan Bantuan Algoritma

Penyelidik di Universiti Michigan baru-baru ini membangunkan algoritma yang dapat mengenal pasti cerita berita palsu lebih baik daripada manusia. Algoritma menggunakan petunjuk linguistik untuk membezakan antara cerita-cerita faktual dan tidak tepat.

Algoritma ini boleh digunakan oleh agregator berita utama dan laman media sosial seperti Google News dan Facebook untuk mengesan dan memerangi maklumat salah.

Memerangi berita palsu

Selepas pilihan raya 2016, "berita palsu" menjadi kata kunci politik sebagai ramai yang berspekulasi bahawa cerita berita yang tersebar di Facebook mempengaruhi keputusan pilihan raya.

Kisah berita yang melaporkan maklumat palsu atau dipersoalkan telah berkembang di laman media sosial dalam beberapa tahun yang lalu. Cerita-cerita ini, yang dibuat sama ada sebagai klik-umpan atau dengan niat untuk mempengaruhi pandangan orang ramai, telah mencetuskan kontroversi dalam politik dan menyebabkan masalah utama untuk platform media sosial yang bergelut untuk mengawal selia data dan cerita besar-besaran yang diedarkan di laman web mereka.

Sejak pilihan raya 2016, Facebook telah mengambil langkah untuk melawan pengedaran kandungan palsu pada platform mereka. Mereka telah cuba mengharamkan pengguna terkenal, seperti pengulas sayap kanan Alex Jones, berkerja dengan permaidani pihak ketiga, dan yang membolehkan pengguna membenderakan cerita yang tidak tepat.

Usaha-usaha ini mempunyai kejayaan yang terhad hingga ke tahap ini, meningkatkan keperluan strategi baru untuk memasuki lipatan. Algoritma yang secara automatik dan pasti mengenal pasti berita palsu menawarkan alat yang menarik.

"Terdapat usaha yang ketara sejak kebelakangan ini dalam komuniti penyelidikan untuk menangani masalah ini," katanya Rada Mihalcea, seorang profesor kejuruteraan elektrik dan sains komputer di UM dan penyelidik utama projek itu.

"Bagaimanapun, kebanyakan kerja, termasuk cabaran baru-baru ini di sekitar berita palsu, telah difokuskan pada pemahaman pendirian dan pengesahan fakta dan fakta."

"Dari apa yang saya tahu, ini adalah sistem pertama yang membincangkan pengenalan automatik cerita berita palsu secara keseluruhan, dan kerana ia biasanya muncul dalam talian," katanya meneruskan.

Penyelidikan lain telah lebih terhad, mencari untuk mengenali klik-bait, atau mempelajari perbezaan antara berita satir dan sebenar, menurut Mihalcea.

Pada masa ini, laman berita palsu terutamanya bergantung kepada fakta-fakta dam manusia, yang memerlukan masa. Dengan banyaknya berita berita yang dikongsi bersama dalam talian, ini bermakna bahawa kebanyakan kisah palsu tidak ditangkap, dan jika mereka, mereka telah dibaca oleh orang yang cukup untuk membuat kesan.

Pengesahan automatik boleh membantu pengagregat berita dan laman media sosial mencari berita berita palsu sebelum ini, dan mungkin lebih tepat, daripada pengawal selia manusia.

Mihalcea berkata algoritma pasukannya boleh digunakan oleh kedua-dua pengguna dan laman media sosial untuk membenderakan cerita dan membezakan antara media yang boleh dipercayai dan tidak boleh dipercayai. Ia telah menunjukkan bahawa ia dapat mengenal pasti berita-berita palsu di kadar kejayaan 76-peratus, yang merupakan margin kesilapan yang signifikan, tetapi lebih tinggi daripada kadar kejayaan manusia 70 peratus.

Bagaimana ia berfungsi?

Algoritma baru mengambil pendekatan yang agak unik untuk mengenal pasti cerita berita palsu. Ia menggunakan analisis linguistik, yang bermaksud ia mengkaji ciri-ciri kuantitatif dalam setiap gaya dan kandungan penulisan artikel, dari struktur tatabahasa, kepada penggunaan tanda baca dan kerumitan bahasa.

"Kami bermula dengan mengumpulkan data berita - baik palsu dan sah - yang boleh digunakan untuk mempelajari ciri-ciri berita palsu," kata Mihalcea. "Kami mewakili data menggunakan beberapa ciri - urutan kata-kata, tanda baca, kategori perkataan, hubungan sintaktik, dan lain-lain.

"Sebagai contoh, salah satu ciri tersebut boleh menjadi nombor yang mencerminkan bilangan kali kita melihat perkataan 'cerita', yang lain adalah bilangan kali kita melihat kata-kata dalam hubungan kata kerja subjek, dan sebagainya. Wakil-wakil ini kemudian dimasukkan ke dalam algoritma pembelajaran, yang akhirnya memutuskan bagaimana untuk menimbang mereka untuk klasifikasi akhir. "

Mihalcea menjelaskan bahawa petunjuk ini sering berbeza daripada yang dicari oleh manusia. Sebagai contoh, algoritma mengenal pasti kata kunci tertentu yang menandakan ketepatan atau ketidaktepatan, yang mana manusia mungkin tidak mencari secara naluriah.

"Dalam penyelidikan ini dan lain-lain yang kita lakukan terhadap penipuan, kita telah menemui contohnya bahawa penggunaan kata 'I' dikaitkan dengan kebenaran," katanya. "Mudah untuk algoritma untuk mengira bilangan kali 'Saya' berkata, dan mencari perbezaannya.

"Walau bagaimanapun, orang tidak melakukan seperti itu secara semulajadi, dan walaupun ia mungkin mudah, ia akan mengalihkan perhatian mereka daripada pemahaman sebenar teks itu."

Latihan algoritma untuk mengesan penipuan memerlukan mengenal pasti sebilangan besar petunjuk linguistik yang diambil dari contoh penting cerita berita palsu. Ini membentangkan cabaran, kerana cerita berita palsu muncul dan hilang dengan cepat, datang dalam pelbagai genre, dan sering boleh dikelirukan dengan satira.

Pasukan mengelakkan masalah ini dengan merangka sumber berita palsu mereka sendiri. Mereka mengupah penulis luar untuk mengambil cerita berita sebenar dan memburukkan mereka ke dalam kepalsuan. Para penulis telah direkrut menggunakan pasaran internet crowdsourcing Amazon Mechanical Turk.

Mihalcea menyatakan bahawa proses ini selaras dengan bagaimana cerita berita palsu biasanya dicipta di dunia nyata.

Menjelang akhir proses, pasukan mempunyai satu set cerita berita palsu dan palsu 500 untuk memberi makan kepada algoritma tersebut. Selepas algoritma melakukan analisis linguistik pada barang-barang ini, mereka mengujinya dengan cerita berita palsu dan palsu yang ditarik dari internet.

Algoritma kini boleh mengenal pasti cerita penipuan pada kadar peratus 76, yang bagus, tetapi ada ruang untuk penambahbaikan.

Mihalcea menyatakan bahawa terdapat bukti bahawa memberi lebih banyak data algoritma dapat membuat algoritma lebih efektif. Mereka merancang prestasi algoritma sebagai fungsi jumlah data yang dimasukkan ke dalamnya, mewujudkan "lengkung pembelajaran", yang membolehkan mereka melihat apakah algoritma berhenti belajar selepas sejumlah data.

"Apa yang kami perhatikan adalah lebih banyak data yang mungkin membawa peningkatan dalam prestasi, jadi langkah seterusnya semulajadi adalah untuk mengumpul lebih banyak berita, baik palsu dan sah, sebagai satu cara untuk meningkatkan keberkesanan algoritma," katanya.

Kerja-kerja pasukan dalam membangunkan algoritma datang pada titik penting dalam sejarah politik dan media. Hampir separuh daripada rakyat Amerika sekarang terutamanya mendapatkan berita dalam talian mereka, dan lebih dua pertiga mengatakan mereka mendapat sekurang-kurangnya beberapa berita mereka melalui media sosial.

Tetapi internet tetap menjadi sumber maklumat yang sangat tidak terkawal.

"Web - termasuk media sosial - memainkan peranan yang besar dalam masyarakat hari ini, kerana ia merupakan sumber utama maklumat yang digunakan orang untuk membuat keputusan," kata Mihalcea.

"Pertimbangkan contohnya peristiwa politik baru-baru ini, atau perbincangan mengenai vaksinasi, dan sebagainya. Dalam persekitaran ini, di mana semua orang boleh meletakkan 'berita' di luar sana, adalah penting bagi orang untuk mempunyai cara untuk membezakan antara apa yang boleh dipercayai dan apa yang tidak. "