Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Откриване на измами с фалшиви загуби в Аматьорска лига по билярд | Защитена на: 01/01/1900

РЕЗЮМЕ

на дипломна работа на тема:

Откриване на измами с фалшиви загуби в Аматьорска лига по билярд

на Илиян Киряков

Студент в магистърска програма „Извличане на информация и откриване на знания”,
Научен ръководител: проф. Иван Койчев

Катедра “Софтуерни Технологии” при Факултет по Математика и Информатика
Софийски Университет „Св. Климент Охридски”

Целта на дипломната работа е да провери дали наличните данни от аматьорска лига по билярд могат да бъдат използвани за машинно самообучение и впоследствие да решат реален проблем с фалшифициране на загуби. Първата основна задача се състои в проучването на съществуващите методи и подходи за анализ и преработка на данни. Втората основна задача е прилагането на избраните подходи за образуване на подходящ набор от данни с цел машинно самообучение. Накрая резултатите от обучението на алгоритмите трябва да бъдат анализирани и да се направи извод дали има смисъл за по-нататъчно развитие в тази насока, така че да може да бъде използван изходния код от дипломната работа, за да се покачи нивото на честната игра в аматьорската лига по билярд.

За целите на задачата е направено подробно проучване на съществуващите статии и решения. Резултатите показват, че няма много разработки в областта, които да решават дадената задача.

Текущата теза първо разглежда какво представлява билярда в аматьорската лига по билярд и видовете манипулации в нея. След това се разглеждат основни методи и подходи в машинното самообучение. Определят се основните методи и критерии за анализ и оценка на задачи от областта на машинното самообучение. Данните са филтрирани и преработени чрез много на брой подходи до образуването на финален набор от данни, който да е готов за машинно самообучение. Впоследствие с методи и подходи за откриване на аномалии, са открити първите 50 аномалии в набора от данни, а впоследствие още 150 аномалии (по 10 за всеки сезон в лигата), което дава основата за създаване на множество от примери, които да бъдат класифицирани. След осъществяване на ръчна класификация, върху набора от данни са приложени няколко метода за подбор на най-значимите характеристики. Преди да се направят експерименти с алгоритми за учене с учител, са подготвени 16 различни набора от данни. След като са пуснати на алгоритмите за обучение и са направени съответните експерименти, разглеждайки всеки сезон последователнo във времето, се оказва, че колкото повече данни за обучение има, толкова по-висока точност дават алгоритмите с тестовия набор от данни, в който трябва да бъдат открити измамите.

Въпреки полуавтоматизирането на процеса на ръчна класификация, при първият вариант с топ 50 аномалии са класифицирани едва 6.88% от примерите. При втория вариант, където се взимат топ 10 аномалии за всеки сезон класифицираните примери достигат до 19.34%, имайки предвид, че това включва и примерите отбелязани като фалшифицирани с вероятност по-малка от 0.5. Това може да отбележим като една причина, която довежда до крайни резултати, при които имаме много висока точност (accuracy), близка до 100% и „Точност на оценяване“ (precision) и „Точност на връщане“ (recall) близки до 0%. Използването на различни подходи за подбор на характеристики, различни алгоритми и техни конфигурации не дадоха голяма промяна в резултата. При премахване на голяма част от примерите със стойност равна на 0 (неманипулирани), докато броят на двата класа се изравни, се забелязват промени в резултатите. За сметка на точността (accuracy), която е намаляла значително - от 25% до 28%, „Точността на оценяване“ (precision) е нарастнала от 0% до диапазона от 20% до 25% според използваните алгоритми и „Точността на връщане“ е нарастнала от 0% до диапазона от 24% до 66% отново според използваните алгоритми.

Изводът, който може да се направи е, че е добре да се класифицират още повече данни и да се използва подход, който да балансира класовете в набора от данни – било то с премахване на примери от клас „неманипулиран“ или с генерирането на примери от клас „манипулиран“.