Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Моделиране на големи данни от разнородни източници | Защитена на: 01/01/1900

Резюме

Светът стана по-глобален и дигитализиран - от 80-те години глобалният капацитет за съхранение се е увеличил драстично. Това увеличение на капацитета се дължи преди всичко на напредъка в технологиите, но до началото на 21-ви век все по-бързо нарастващият капацитет за съхранение на цифрови данни означава, че традиционните технологии не могат да се справят с обработката на голямо количество данни. Въвеждането на big data технологии е с цел да се справят и анализират толкова голям обем данни. Задачата на дипломния проект е да създаде метод за трансформиране на данни от един формат (като например CSV) в JSON-съвместим формат, за да бъде валидиран и след това вмъкнат в NoSQL хранилище.

Глава 2 е изложение на технологията за големи данни. Тук е обяснено дефиницията на големите данни и нейната история. Обяснен е и най-общият модел с големи данни - V-моделът, както и пример за big data архитектура. Също така е показано различните приложения на големите данни в правителството, публичния сектор, търговията, науката, медицината, образованието, спорта и т.н. Има и част, която обяснява критиките и опасенията, свързани с големите данни и резултатите от анализа на big data. Също така се разглеждат някои случаи на нарушения на сигурността, включващи големи количества данни. Главата завършва с кратко описание на някои големи инструменти, свързани с big data.

Глава 3 разглежда два източника на открити данни, които по-късно ще бъдат използвани в частта за реализация. Първият анализиран източник е Информационната система INFOSTAT на Националния статистически институт (НСИ). Вторият източник, който беше разгледан, беше Порталът за отворени данни на Република България - публична информационна система, към която всеки има свободен достъп до над 8000 набора от данни в различни отворени формати, като DOC, CSV, XSL и други съхранени в този портал.

В глава 4 са разгледани трите основни информационни технологии, които са използвани при реализацията - JSON, CSV и NoSQL. Също така в тази глава е показано сравнение между JSON и CSV, което показва предимствата или недостатъците на JSON спрямо CSV.

Глава 5 разглежда реалната реализация на системата - уеб приложение, което превръща CSV в JSON формат за съхранение в NoSQL база данни. Реализацията е разделена на два модула - CSV към MySQL и MySQL на JSON. Самият модул за трансформация CSV към MySQL е разделен на два подмодула, за да се настанят двата варианта на CSV файл - локален, където се взема CSV файл от записан на машината, и онлайн, където файлът е взет от URL адрес. Второто описание на модула обяснява как потребителите генерират JSON текст чрез SQL заявка, която след това се изпраща за валидиране срещу JSON Schema и след като бъде валидирана, се съхранява в избраната NoSQL база данни.

В глава 6 са разгледани различни случаи на валидиране чрез различни тестове. Тези тестове демонстрират възможностите или ограниченията на системата. Един ключов пример е “Защо всичко от MySQL до JSON е в низ?”.

Последната глава дава малки мисли за бъдещето на големите данни, както и потенциалното бъдещо развитие на създадената реализация.