Дипломна работа

Предсказване на оценката на филмови ревюта на български език | Защитена на: 27/10/2015

Популярността на Уеб форумите и социалните медии продъжава да расте стремглаво. Благодарение на този възход автоматичния анализ на емоционална оценка в текст се превърна в гореща тема за изследвания. Днес има много приложения за този вид анализ, например автоматично класифициране на клиентската обратна връзка към бизнесите на положителна или негативна, автоматична оценка на продуктови ревюта в онлайн магазини, откриване на позитивно или негативно продуктово възприемане, и други.

Филмовите ревюта са популярен и широко достъпен източник на анотиран с емоционална оценка текст. За разлика от ревютата публикувани от филмови критици, тези написани от зрители обикновено са къси и служат главно да оправдаят оценката, която зрителя е оставил на изгледания филм. Тези ревюта обикновено са анотирани по скала от 5 звезди. Тази по-висока гранулярност позволява по-точно и финно предсказване на зрителското мнение.

Като резултат от нашата работа представяме експетиментални резултати и подходи за финно предсказване на оценката на филмови ревюта на Български език. Първата ни стъпка беше да съберем данни, върху които да експетиментираме. Спряхме се на компанията за запазване на билети – Cinexio1. От техния сайт извлякохме сурови HTML данни, които преобразувахме в структурирани данни. Накрая експетиментирахме с различни техники от машинно самообучение и намерихме най-добрия подход за финно предсказване на оценката на филмови ревюта.

В резултат на свършената работа построихме класификационна система за предсказване на финната оценка на филмови ревюта на Български. Нашия класификатор работи надеждно и постига средна квадратична грешка от 0.484, при класифициране върху скала от 5 звезди с половинки.

Резултати от тази дипломна работа, оформени като публикации са приети в научната конференция RANLP-2015.

Scroll to Top