Дипломна работа

Метод за откриване позициите на медии и влиятелни личности по спорни теми | Защитена на: 01/01/1900

Въведение

В тази дипломна работа представяме метод, който открива позициите на медии и влиятелни личности по спорни теми, както и предсказва техните политически убеждения. Обясняваме как сме достигнали до метода, какви експерименти сме провели, както и даваме интерпретация на резултатите от тях.
Основни понятия
„Спорни теми“ означава актуални, противоречиви казуси или събития.
Ще използваме думата „фактор“ като събирателно понятие за медии и влиятелни личности.
Под „позиция“ на даден фактор спрямо дадена тема имаме предвид дали факторът подкрепя или отхвърля темата, т.е. имаме две възможности за позиция.
Под „политически убеждения“ разбираме леви, центристки или десни възгледи.
Обзор на метода
Методът използва алгоритми за машинно обучение и потребителски данни от социалната мрежа Twitter, както и данни от сайта mediaBiasFactCheck.com.
Най-общо може да бъде разделен на три стъпки:
1) формиране на клъстери от потребители
2) проектиране позициите на потребителите от получените клъстери върху факторите
3) обучение на модел, който предсказва политическите убеждения на факторите.

Стъпка 2) открива позициите по спорни теми, а стъпка 3) - политически убеждения.


Данни

Данните, с които работим, представляват потребителски публикации в социалната мрежа Twitter, наричани туитове. Те са предварително събрани така, че да са свързани с някоя от 8 предварително подбрани теми, които делят обществото на САЩ, а именно:
1) климатични промени
2) оръжеен контрол
3) спорните коментари на представителката Илхан Омар
4) имиграция в САЩ
5) средносрочните избори през 2018
6) полицейско насилие и расизъм
7) номинирането на съдия Брет Кавано
8) за и против ваксинирането.


Метод

Формираме клъстери от потребители, като за всяка от темите вземаме най-активните потребители и изчисляваме близост между всяка двойка потребители.
Всеки потребител представяме чрез вектор, чиито елементи са броевете цитирания (ретуитове) на други потребители. Например, ако потребител А е споделил 3 публикации на потребител Б, 5 на потребител В, и 8 на потребител Д, то векторът, с който представяме А, е <0, 3, 5, 0, 8, 0, …, 0>.
Т.е. методът ни се базира на статистики, свързани с взаимовръзките между потребителите на Twitter, а не на текстовото съдържание на самите публикации, за да образува клъстери.
Основното допускане, което стои зад този метод, е, че когато потребители цитират някакъв фактор, било то като включат линк към някаква статия или споделят дословно мнението на влиятелна личност, то те вероятно са съгласни с позицията на въпросния фактор по темата, която се коментира.
След като имаме векторно представяне на най-активните потребители, пресмятаме косинусова близост между всяка двойка потребители, получавайки квадратна матрица с единици по главния диагонал.
След това преобразувание, на всеки потребител отново съответства вектор. Елементите му са мерките за близост до всеки друг потребител.
Чрез алгоритъма UMAP намаляваме размерността на представянето на всеки потребител до 2, т.е. проектираме векторите в една равнина. Това значително помага за откриването на клъстери.
Алгоритъмът Mean Shift очертава тези клъстери, предоставяйки ни категории, които да асоциираме с потребителите. Той не клъстеризира всички потребители - с него откриваме ядрата на групите, имащи противоположни мнения. Може да се случи така, че Mean Shift да открие повече от 2 клъстера. В този случай ние взимаме двата най-големи, т.е. съдържащи най-много на брой потребители. Останалите ги считаме за неклъстеризирани.
След като сме получили противоположни групи от потребители, използваме библиотеката fastText, за да обучим класификатор, чрез който да разширим клъстерите, т.е. да получим повече на брой потребители от двете групи. Това ни позволява да анализираме по-добре факторите в следващата стъпка.
С това приключва стъпка 1) от общия преглед на метода.

В стъпка 2) анализираме цитираните фактори от клъстеризираните в стъпка 1) потребители. Използваме метрика, която наричаме валентност (valence score), за да „проектираме“ позициите на потребителите върху факторите, които цитират.
Метриката измерва колко се асоциира някакъв фактор с даден клъстер. Има свойствата, че ако някакъв фактор е цитиран много по-често от потребители от един от клъстерите спрямо другия, то стойността на метриката е близка до -1 или до 1. А ако се споделя горе-долу еднакво от двете групи, то стойността й е близка до 0. Тази стойност интерпретираме като позицията на фактора по дадената тема.
В стъпка 3) използваме изчислените валентности за всички теми като атрибутни стойности (features), за да обучим линеен класификатор, който да предсказва политическите убеждения на факторите. Учебните примери се състоят от векторните представяния на факторите, а целевия атрибут (който искаме да предсказваме) взимаме от сайта mediaBiasFactCheck.com.
Класификаторът има 78% точност.


Резултати

От общо 5 406 различни медийни източника, които са цитирани в данните на потребителите, имаме информация за политическите убеждения на 806 (информацията идва от сайта mediaBiasFactCheck.com). След като приложихме метода си до стъпка 2, забелязахме следните зависимости: много от медиите, които имат отрицателна валентност, се класифицират от mediaBiasFactCheck.com като десни медии, докато медии с положителна валентност -- по-скоро като леви. Въпреки че не се наблюдават случаи на екстремно леви медии, корелацията между убеждения и валентност е забележима.
Въвеждаме 5 категории валентност в зависмост от това в кой интервал попада стойността - „--“, ако е в [-1, -0.6), „-“, ако е в [-0.6, -0.2), „0“, ако е в [-0.2, 0.2), „+“, ако е в [0.2, 0.6) и „++“, ако е в [0.6, 1]. На следващата графика тази корелация е онагледена.

Корелацията обяснява, защо линеен класификатор се справя така добре с предсказването на убеждения.


Бъдещо развитие

В бъдеще би могло да бъде разработен метод сходен на този, но който се основава на текстовото съдържание на потребителските публикации, използвайки ембединги или друго векторно представяне на думи и изречения, или метод, който работи с данни от друга социална платформа или форум, или пък използва смесени данни.

Scroll to Top