Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Предсказване на водещата политическа идеология на видео-канали с помощта на акустични, текстови и мета характеристики | Защитена на: 01/01/1900

Предсказване на водещата политическа идеология на видео-канали с помощта на акустични, текстови и мета характеристики

Автор: Йоан Динков, фн.25383

Специалност: Информатика

Магистърска програма: Извличане на информация и откриване на знания

Въведение

Достъпът до информация, както и създаването ѝ е по-евтин и по-лесен процес от всякога до сега. Също така, използването на интернет предоставя възможност новините и информацията да достигат до все повече хора, за все по кратко време. Този нагледно безкраен ресурс от безплатни и лесно достъпни новини създава усещането за информираност в крайния потребител, но това може да е не винаги вярно. Тъй като е невъзможно да се анализират всички гледни точки относно даден проблем/събитие голяма част от медиите показват определени черти на пристрастие към дадена политическа идеология, които често пъти остават незабелязани от крайния потребител. Ние се опитваме да създадем хибридна системата между систематизирано знание на експерти в областта на откриване на политически пристрастия и машинното самообучение, която да анализира и категоризира канали в системата YouTube относно тяхната политическа идеология. Изборът на платформа, произлиза от това че, този нов поток от информация в медийните среди (видео споделяне) е сравнително нов и не дотолкова изследван, въпреки това има достатъчно данни за да се проведен анализ и изследване върху тях. Дипломната работа, разглежда експерименти, в които се наблюдава ефекта от използването на числови характеристики от различни източници на данни (акустични, текстови, мета) върху задачата за предсказване на водещата политическа идеология на YouTube канали посредством 3 класова (ляво-център-дясно) класификация.

Подобни изследвания и завършени проекти в областта

При първоначалното проучване направено за избор на задача, бяха разгледани 28 статии, които анализират различни похвати за откриване на политически пристрастия, фалшиви новини, едностранни крайни пристрастия (крайно-леви, крайно-десни) под формата на пропаганда. Повечето от тях се съсредоточават върху обработка на естествен език (текст), като за източни използват записи от политически дебати, съдебни заседания, новини и постове в социалните мрежи. Всички от тях са проведени върху англоезични източници, като основния източник са новини и данни от САЩ.

Също така бяха представени и обсъдени три системи, които решават част от проблемите на дипломната работа, по определен начин и предоставят визуално обобщена информация до крайния потребител:

TANBIH (http://tanbih.qcri.org) – мултимодална система, класифицираща новинарски англо- и арабоговорящи медии посредством агрегиране на текстов анализ на статиите им. Характеристиките включват – пропаганда, фактологичност, политическа идеология. Анализираните медии наброяват над 1000, докато статиите над 2,000,000.
InVid – удостоверяващ инструмент, позволяващ на потребителите, предимно журналисти, задълбочен анализ на видео клипове от YouTube. Видеата биват проверени за евентуални дубликати и отличителни белези (неконсистентни сцени, подобрявания на определени сцени) за подправено видео.
NELA – инструмент обобщаващ информация от 92 медии, посредством визуалното им представяне в определени категории базирани на различни стилистични характеристики – позитивни емоции, негативни емоции, използване на сложни думи, сензации и други.

Класификационна задача – термини

Въпреки, че задачата ни се състои от напълно класифицирани вече примери и моделите сами извличат характеристиките, с които да характеризират дадения етикет, поставяме следните кратки дефиниции за етикетите, които използваме с цел проверка на получените резултати, както и условно задаване на дефиниции на самите термини, тъй като в различните геополитически райони, тези термини (етикети) могат да имат различно значение.

ляво - либерални медии, често споделят новини на следните теми: увеличаване държавни услуги, закони за запазване на околната среда, данъци за по-богатите, премахване на социалното и икономическо различие, запазване на абортите и др.
център – медиите в този етикет представляват два вида – такива които представят и двете гледни точки (ляво и дясно) еднакво добре или такива които не представят почти нищо от тези политически пристрастия
дясно – консервативни медии, често говорещи за традиции в семейството, запазване на правото на притежаване на оръжие, държавата трябва да се намесва възможно най-малко в управлението в опозиция на индивида и др.

Използвани технологии

Тъй като базираме експериментите си на добре познати алгоритми използваме стандартни библиотеки на езика Python. За класификационния алгоритъм, провеждането и оценяването на експерименти използваме библиотеката Scikit-learn, докато за различните невронни мрежи и тяхното имплементиране използваме Keras.

Данни и числови характеристики

Не успяхме да намерим публично наличен набор от данни за тази задача, затова се наложи да извлечем данните сами и да създадем нов набор от данни. Използвахме два основни източника – Media Bias Fact Check (MBFC) платформа с категоризирани медии от независими журналисти и YouTube API, даващ достъп до различни ресурси свързани с YouTube (канал, видео, субтитри).

Тъй като MBFC няма специализиран API достъп, решихме да свалим данните посредством scraping на HTML страниците им. Така получихме данни за 1980 медии, които включват етикет на политическа нагласа („крайно-ляво“, „ляво“, „център-ляво“, „център“, „център-дясно“, „дясно“, „крайно-дясно“), уеб сайт линк и връзка към YouTube канал. Така направеното механично извличане ни предостави 580 връзки към YouTube.

Това обаче не беше достатъчно. При създаването на този механичен подход, предположихме, че ако дадена медия има връзка към YouTube канал на началната си страница, то този канал ще бъде свързан към нея. Това твърдение се оказа грешно. Голяма част от медиите, не споделяха връзка към каналите си на уеб сайтовете си, въпреки че каналите са напълно актуални и поддържани. Затова всяка една от свалените медии беше ръчно проверена. След ръчната проверка на 1980 медии, открихме че не малка част от анотираните вече връзки са грешни (водят към рекламни канали или други напълно не свързани с дадената медия). Накрая успяхме да открием 1160 YouTube канала, които да отговарят на анотираните в 7 класа медии. От всяко видео, се опитваме да извлечем 5 звукови епизода с дължина от 15 секунди. За да локализираме говора използвахме субтитрите на видеата. Ако дадени субтитри са с непрекъсната дължина от повече или 15 секунди, приемаме че в този откъс присъства говор.

След проведени предварителни експерименти, решихме да отстраним, част от етикетите („център-ляво“, „център-дясно“), тъй като използването на тези етиките, размива понятието за „ляво“, „дясно“ и „център“ и получените класификационни резултати бяха силно влошени. „Крайно-ляво“ и „крайно-дясно“ обединихме към „ляво“ и „дясно“ съответно тъй като броя на такива крайни медии беше пренебрежимо малък (под 5% от цялото множество). Поради технически ограничения, успяхме да извлечем аудио данни за около 3300 видеа. Така набора от данни има следните обобщени стойности представени в Таблица 1.

Характеристика	Стойност
Брой канали	421
Брой видеа	3345
Брой епизоди	15945
Среден брой видеа за канал	7.94
Среден брой звукови епизоди за канал	4.76
Средна дължина на видео (минути)	10:02

Таблица 1. Обобщена информация за набора от данни

Числовите характеристики, които използвахме в представените експерименти бяха извлечени посредством предварителна обработка на ресурсите (текст от видео, субтитри, аудио файлове). Използваните техники са:

LSA (Латентен семантичен анализ) – използваме TFIDF за генериране на числови характеристики върху различен източник на текстови данни (канали: заглавие, описание, видео: заглавие, описание, тагове) след това размерността на така създадения вектор бива намалена посредством SVD (разлагане по единична стойност)
BERT (Bidirectional Encoder Representations from Transformers) - тъй като този подход дава много добри резултати в класически нетривиални задачи от обработка на естествен език, решихме да използваме модел по подразбиране, с който да представим текстова информация от видеото (заглавие, описание и тагове) както и информация от субтитрите към видеото. Генерираме по 768 числови характеристики за всеки текстов източник.
NELA – от по-рано представената система, използваме само модула за генериране характеристики, от които извличаме 260 числови стойности от заглавието и описанието на всяко видео
Numeric – използваме мета числови характеристики от всяко видео – брой гледания, брой харесвания, брой не харесвания, брой коментари, дължина на видеото (секунди)
OpenSmile – инструмент извличащ акустични характеристики от аудио файлове. В представените експерименти от Таблица 2, използваме конфигурация, която е първоначално използвана за класифициране на емоции от аудио файлове. Генерираме 385 числови характеристики.
I vector – използван за откриване и разпознаване на говорител, този метод извлича числови стойности от аудио файла на ниско ниво

Експерименти

Проведените експерименти са условно разделени в три групи – предварителни експерименти, многотипови експерименти и допълнителни експерименти. Изпълняването и оценяването на експерименти е направено посредством крос-валидация от 5 части, обучаваме на 4 части и оценяваме на останалата част. Метриката, която използваме за оценка е accuracy. Представените резултати се основават на цялостно accuracy – усреднена стойност за получената accuracy за всяка една част (fold) от крос-валидацията .

Моделите за класификация които използваме са логистична регресия както и опростена невронна мрежа (2 скрити слоя, съответно с 128, 64 възела и 0.2 dropout – изключване на случаен принцип на 20% от възлите на всеки слой)

Предварителните експерименти се базирани на изчистването и моделирането на набора от данни. Също така с тяхна помощ посредством LSA характеристиките, определихме кои текстови данни трябва да бъдат използвани за по-нататъшни експерименти.

За да се преборим с размерността на данните (наличен малък брой канали) решихме да използваме метода distant supervision – разбиваме съществуващото множество от канали до по-малки части, които запазват същия етикет, след това изпълняваме класификационната задача върху така направените части и получените резултати (основани на вероятността получена от класификатора за трите класа) обединяваме отново до канали. За разделянето на части сме използвали две стратегии - разделяне на видеа и разделяне на звукови епизоди. Тъй като един канал е съставен от множество видеа, а едно видео е съставено от множество звукови епизоди. За обединяването на части до канали сме използвали също две стратегии – average осредняваме вероятностите на всички части на даден канал за трите класа и избираме най-голямата стойност, maximum – избираме класа от най-голямата вероятност от всички налични части за даден канал.

В Таблица 2 представяме експерименти, които се базират върху разделянето на канали на видеа, а за обединението е посочено в съответната колона (avg) за усреднено обединяване на и max за максимално обединяване. Представяме резултати за двата използвани модела.

		Логистична регресия		Невронна мрежа
№	Числови характеристики	Accuracy (avg)	Accuracy (max)	Accuracy (avg)	Accuracy (max)
0	Baseline	42.04%	42.04%	42.04%	42.04%
1	BERT (Fulltext)	68.90%	65.80%	68.91%	67.24%
2	Numerical	52.24%	52.73%	50.35%	50.10%
3	NELA	42.04%	42.04%	42.04%	42.04%
4	BERT (Subtitles)	68.23%	62.75%	64.64%	62.73%
5	OpenSmile (IS09)	57.37%	52.57%	56.63%	50.91%
6	i-vectors	51.13%	48.94%	50.85%	47.28%
7	Non-Acoustic (1-4)	70.35%	70.35%	70.10%	69.62%
8	All features (1-6)	72.02%	71.29%	72.02%	70.83%
9	Non-acoustic + Open Smile	72.97%	72.72%	73.42%	71.51%
10	Non-acoustic + i-vectors	71.77%	70.08%	70.33%	70.34%

Таблица 2. Експерименти върху мултимодалност

Виждаме че от единичните групи от числови характеристики (експерименти 1-6) BERT се справя най-добре върху, като това може да се очаква, тъй като тази информация представя в най-изчистен вид цялостно видеото. При обединение на всички текстови и мета числови характеристики получава резултати около 70% accuracy, които са по-добри. Въпреки това, при добавянето на числови характеристики от акустичните данни (експерименти 8-10), виждаме допълнително подобрение, особено при добавянето на OpenSmile характеристики (експеримент 9), като това бива най-добре представилата се обединена група от характеристики.

Върху експеримент 9 от Таблица 2 изпълняваме същия експеримент, с различните възможности за обединяване и разделяне на канали. Резултатите са представени в Таблица 3.

Split	Aggregation	Accuracy
to videos	average	73.42%
to video	maximum	71.51%
to episodes	average	72.02%
to episodes	maximum	71.27%

Таблица 3. Прилагане на различни тактики за обединяване и разделяне на канали

След експериментите за мултимодалност, решихме да изпълним експерименти с по-сложни невронни мрежи. Поради технически причини, трябваше да променим постановката за експерименти. Така вместо крос-валидация разделихме набора от данни на 3 части (train, dev, test). Върху train, dev обучаваме невронната мрежа и след като обучението е приключило оценяваме ефективността ѝ върху test множество. Трите невронни мрежи (архитектури), които използвахме:

MLP – (Multi-layered perceptron) – същата архитектура използвана, при експериментите за мултимодалност, като групата от характеристки, които използваме за тази невронна мрежа са само текстови (отговаря на експеримент 7 от Таблица 2)
CNN – 7-слойна конволюционна архитектура, която използва MFCC (Mel-frequency cepstral coefficient) характеристики извлечени от аудио файловете
CONCAT – Обединена архитектура между MLP и CNN

Резултатите от тези експерименти са представени в Таблица 4.

Архитектура	Accuracy
Baseline	0.3913
MLP	0.6239
CNN	0.4000
CONCAT	0.6113

Таблица 4. Допълнителни експерименти

С така изпълнените експерименти, не получихме задоволителни резултати. Оригиналния MLP модел, продължаваше да дава по-добри крайни резултати, като нито резултатите на конволюционния , нито обединения модел успяха да го подобрят.

Заключение

Виждаме, че с помощта на различни NLP похвати, моделите успяват да предскажат политическата идеолога на YouTube канал само от текстовите му данни. Въпреки това, с добавянето на характеристики от акустичните данни на видеата, успяваме да подобрим още повече получените резултати.

Поради пренасянето на глобалния етикет (от канала) върху микро елемента (звуков епизод) не виждаме голямо подобрение. Също така при обединяването от тип максимум, алгоритъма става твърде податлив към силно изявени части (видеа или звукови епизоди) и игнорира всички останали елементи от канала.

Усложняването на архитектурата на невронните мрежи не води до по-добри резултати, но това може да се подобри при анализиране и използване на по-добри модели.

Бъдеща разработка

Искаме да се съсредоточим върху създаване на визуална репрезентация на получените резултати. Друга промяна би била изчистването на distant supervision, като евентуално успеем да класифицираме частите от канала по друг начин. Генерална промяна би била развитието на задачата до 5 класа или 7 класа за това обаче ще бъдат нужни нови извлечени данни. Евентуални бъдещи разработки са извличане на повече числови характеристики от текста посредством други методологии (освен BERT и LSA), както и представяне на други части от мултимодалността на видеата в YouTube – извличане на данни от самото видео, коментарите под него и други.