Автоматично откриване на (не)верни онлайн новини на български език | Защитена на: 01/01/1900
Настоящата дипломна работа изследва начини за откриване на достоверни онлайн новини. Това е важен проблем, тъй като съдържание със съмнителна достоверност започна да се разпространява в обезпокоителни мащаби чрез социалните мрежи. От друга страна, бързо нарастващият брой на интернет потребители, направи нуждата от информация огромна. Тази цифровизация се отрази върху хартиените издания - вестници, списания и други информационни източници, като ги пренесе онлайн, под формата на новинарски портали, лични блогове, в социалните медии, като групи, страници, профили и т.н. Това демократизира и ускори създаването на съдържание, но и направи хората по-уязвими на влияние от дезинформация и фалшификации.
В днешно време, поддържането на ниво на информираност и отсяването на спекулации по горещи теми (например, президентските избори в САЩ, промените в ЕС - брекзит, или атентатите в Париж) е от решаващо значение, поради факта, че те имат огромен ефект върху хората, бизнеса, или дори правителствата.
В настоящата дипломна работа, ние представяме експерименти в предсказването на достоверността на новини, публикувани от онлайн новинарски източници на български език. По време на разработката, събрахме примери от три различни източника.
Като първа стъпка, използвахме уеб робот (web crawler), за да извлечем суровия изходен HTML код от публикувани новинарски статии. След което, от него събрахме знания, като автор, заглавие, съдържание и т.н. и ги представихме в структуриран вид. Всеки един от източниците (или негов под-раздел), съдържа достоверни, и/или фалшиви новини, които са анотирани спрямо тяхното съдържание.
Най-големият ни източник за фалшива новини е новинарският портал със смешно съдържание - Не!Новините[1]. Следващият ни източник е личен блог, в който отново е публикувано фалшиво съдържание - Бъзикилийкс[2]. Третият (източник) е новинарският портал на националната телевизия бТВ. Сайтът е разделен на два подраздела - бТВ Лайфстайл[3] с достоверни новини, и бТВ Лайфстайл Дуплекс[4] с фалшиви статии. Последният ни източник, е създаден по време на изследването "Излагането на платени манипулиращи мнението тролове" (“Exposing paid opinion manipulation trolls”) от Михайлов и др., 2015 г.. Той съдържа само достоверни статии. От източниците споменати по-горе, ние съставихме три нови балансирани корпуса, съдържащи достоверни срещу фалшиви новини. Тъй като този проблем не е достатъчно изследван, особено за езици различни от английски, ние предоставяме събраните от нас данни свободно за бъдещи изследвания.
Следващите стъпки от нашата работа са предварителна обработка на данните, и трансформирането им до подходящ формат за използване от алгоритъма за машинно обучение. Като последна фаза, експериментирахме с множество набори от характеристики (features), както и с различни стойности на хипер-параметрите на алгоритмите, като се опитахме да намерим най-добрия подход за откриване на достоверно новинарско съдържание.
В резултат на нашето изследване предложихме езиково-независим подход за автоматично разграничаване на достоверни от фалшиви новини, въз основа на богат набор от характеристики. В частност, ние използваме характеристики свързани с езика (n-грами), “достоверността” (на база на капитализация, пунктуация, използване на местоимения, поляритет на настроението), и семантиката (вграждане на думи и използване данни от DBPedia). Нашите експерименти върху горните три корпуса показаха, че нашият модел може да различи достоверна от фалшива новина с много висока точност, между 75% и 99%.
Резултатите от тази работа са представени и публикувани в научна статия:
Momchil Hardalov, Ivan Koychev, Preslav Nakov. In Search of Credible News. In Proceedings of the 17th International Conference on Artificial Intelligence: Methodology, Systems, Applications (AIMSA’16), pp. 172-180, Varna, Bulgaria, September 7-9, 2016.
[1] http://nenovinite.com/
[2] http://neverojatno.wordpress.com/
[3] http://www.btv.bg/lifestyle/
[4] http://www.btv.bg/lifestyle/duplex/