Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Откриване на имейл измами | Защитена на: 01/01/1900

Откриване на имейл измами

Резюме

Дипломант: Станислав Змийчаров

Научен ръководител: доц. д-р Александър Димов

Дата на защита: 23.03.2021г.

Ключови думи: имейл измами, спам, обяви за работа, лични данни, защита, изкуствен интелект, машинно самообучение, нелегитимни съобщения, машина с поддържащи вектори, торба с думи

Писмата по електронна поща са удобният начин за водене на писмена комуникация на 21 век. Те са бърз, надежден и лесен метод за връзка между хората. Поради тази и много други причини, имейлите се превръщат в предпочитаното средство за комуникация и на хора с лоши намерения. Бързият растеж на интернет пространството също подпомага увеличаването на бройката на имейл потребителите. С това растат и бройката на нежеланите или зловредните имейли. Точно заради това, важен проблем се явява засичането на подобни измамни или нежелани имейли.

Проблемът със засичане на измамни имейли е твърде обширен, като са необходими множество различни техники и похвати, за да се справим дори с част от съществуващите категории измами. Затова в текущата дипломна работа се съсредоточаваме върху един такъв тип нелегитимни писма по електронната поща - измамни обяви за работа. Те са огромен проблем, наболял през последните години, който от една страна оказва големи вреди на потребителите и от друга не е разгледан достатъчно добре и не съществуват добри решения за решаването му.

Зад съвременните решения за филтриране на измамни съобщения по електронната поща стои машинното самообучение, приложение на по-широката класификация - изкуствен интелект. Машинното самообучение на практика представлява алгоритъм или модел, който се подобрява чрез учене и така с времето става по-добър в решаването на даден проблем.

За реализацията на подобен модел на първо място използваме похвати от наука за данните, за да анализираме и обработим входната база от данни, съдържаща примери за легитимни и измамни обяви за работа. С помощта на алгоритми за изкуствен интелект преобразуваме свободния текст на обявите в математически вектори, които могат да се използват за входни данни за алгоритми за машинно самообучение. Правим това с помощта на bag of words (торба с думи) модела, който преобразува текст на естествен език, като дава оценка на всяка дума от него и съответно го съпоставя на вектор.

Използваме новосформираните вектори, отговарящи на обяви за работа, като входни данни за алгоритъма за машинно самообучение Support Vector Machine (Машина с поддържащи вектори), за да разработим и тренираме модел, който може да разпознае кога една обява за работа е легитимна и кога измамна. За проверка на точността на разработения модел правим валидация с част от данните, отделени предварително за целта. След различни експерименти и подобрения по целия модел, постигнахме класификационна точност от 98.83 процента.

Въпреки че разработеният модел решава важния проблем за филтриране на измамни обяви за работа, изпратени като писма по електронната поща, той може да бъде усъвършенстван по различни начини, като например да се подобри допълнително ефикасността, да се разшири, така че да се справя със засичането и на други измами по електронната поща или пък да се направят експерименти с по-сложни алгоритми и по-комплексни конфигурации.