Подход за трансформация на данни във вид за аналитична обработка | Защитена на: 01/01/1900
Живеейки в ерата на големите данни, бизнес възможностите и предизвикателствата се увеличават все повече във всяка една индустрия. Обемът на данните расте с експоненциална скорост по целия свят. Възможността да бъдат управлявани и анализирани големи количества данни e ключовия успех за всеки бизнес. За да бъдат използвани облагите на “big data” стратегията основният въпрос е как да бъдат превърнати данните в полезна информация. Независимо по какъв начин се събира информацията – интервюта по телефона или лице в лице, въпросници или различни видове проучвания, данните винаги съдържат някакво ниво на грешки. Терминът „messy data” се отнася за данни включващи несъответствия. Въпреки, че някои от несъответствията са легитимни, тъй като отразяват вариациите в контекста, други биха възпрепятствали извършването на самия анализ на данните или биха довели до грешки и неточности в получените резултати от измерването. За да бъде подобрено както качеството на данните така и качеството на резултатите от аналитичната им обработка е необходимо те да бъдат подложени на предварителна подготовка и изчистване. Предварителната обработка на данните е една от най – важните стъпки от процеса на интелигентния анализ на данни и включва в себе си подготовката и преобразуването на първичната информация в подходящ за анализ вид.
Целта на настоящата дипломна работа е да се извърши предварителна обработка на данни с цел привеждането им в готов вид за по следваща аналитична обработка чрез подходящи инструменти и методи. За целта дипломната работа включва конкретни задачи разпределени по глави в следната структура:
Първа глава съдържа обзор на текущото състояние в областта на предварителната обработка на данни с фокус върху изчистването, филтрирането и преобразуването им. В нея са разгледани основните методи за изчистване, интегриране, преобразуване и редуцирани на данни.
Втора глава представя някои от инструментите в областта на предварителната обработка на данни. Разгледани са основните им функции за преобразуване на данни в подходящ за аналитична обработка вид. Отделните инструменти са сравнени по характеристики и ефективност.
Трета глава включва описание на основните стъпки за изграждане на експериментална среда за изчистване на данните. Два от разгледаните инструменти са инсталирани за целта. Тук е разгледано примерно множество от данни като са идентифицирани неговите характеристики и проблеми. Описана е основната процедура за провеждане на експериментите като за целта са използвани техниките разгледани в първа глава.
Четвърта глава разглежда провеждането на експериментите като са приложени основните стъпки съгласно процедурата за изчистване на данните описана в трета глава. Направени са анализ на резултатите по количествени и качествени характеристики както и оценка на ефективността на инструментите.
Заключението от проведените задачи в настоящата дипломна работа е изложено в пета глава, която включва и насоки за бъдеща работа в областта на предварителната обработка на данните.