Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Система за търсене по заявка на съответни законови изисквания в нормативни документи | Защитена на: 01/01/1900

Настоящата дипломна работа представя анализ на законови текстове, проектиране и разработка на система за търсене в нормативни документи, включваща автоматично разбиване на документите на части и категоризиране на тези части. Целта е при потребителска заявка да се открият не само тези параграфи от законовите текстове, които директно отговарят на заявката, но и косвено свързаните с тях, които също биха били важни за потребителя спрямо търсенето. Една такава системата за търсене с категоризиране и намиране на неявните връзки между частите на даден законов текст би била полезна за по-бързо и лесно ориентиране в многото на брой закони, наредби и регулации и по-бързо намиране на тези от текстовете, които имат отношение към дадената задача на потребителя.

Законовите текстове се вземат от сайтa на Cornell Law School, част от университета Корнел (Cornell University). В този сайт се предоставя цялото налично законодателство на Съединените американски щати, което се използва в настоящата дипломна работа. След извличането на текстовете от споменатия сайт, те се разбиват на отделните си параграфи, които впоследствие се обработват и въвеждат в системата. Извличат се ключовите думи за всеки параграф чрез използване на TF-IDF метриката. Намират се и всички явни препратки към други параграфи.

Изследвани са и са сравнени три варианта за изпълнение на потребителски заявки. Първият вариант е обикновена заявка, намираща единствено тези параграфи, които директно се отнасят към въведеното от потребителя, и служеща като основа за сравнение. При втория вариант, след основната потребителска заявка се вземат върнатите от нея параграфи и от техните ключови думи се оформят нови заявки, които също се изпълняват, като по този начин се цели да се намерят неявните връзки между параграфите.

Третият вариант също включва вторични заявки, създадени от ключовите думи на първоначално върнатите резултати. В допълнение към това обаче, при този вариант се извършва пресяване на резултатите чрез използване на моделиране на теми и по-конкретно – алгоритъмът Латентно разпределение на Дирихле (LDA), който се използва за обособяване на параграфите в теми, като броят на темите се задава ръчно. Пресяването представлява оставяне в набора с резултати от вторична заявка само на тези параграфи, попадащи в същата тема като основния параграф, от който е създадена вторичната заявка. За целта, преди това самият метод на латентно разпределение на Дирихле (LDA) е разгледан и са направени експерименти с него чрез ръчна оценка на полученото разпределение на параграфите по теми и измерване на кохерентност. Експериментите са направени за различен брой теми и благодарение на това е намерен най-оптималният брой теми, който впоследствие се използва за работата на системата.

Оценени са трите варианта за няколко конкретно избрани заявки. Оценяването показва значително подобрение на резултатите при втория и третия вариант спрямо първия. При втория вариант – без моделиране на теми, се наблюдават доста фалшиво положителни резултати, т.е. резултати, които не се отнасят до заявката, но са върнати въпреки това, което понижава метриката прецизност (Precision, показваща каква част от върнатите резултати са значими). При третия вариант – с допълнително филтриране според разпределението на резултатите по теми, забелязваме голямо подобрение на прецизността, което е поради намаляване на фалшиво положителните резултати, но също така има и известна, макар и неголяма, загуба на истински положителни резултати.

Разработената система за търсене поддържа и трите варианта на заявки, което дава възможност на потребителя да ги използва в зависимост от това, доколко всеки един от тях отговаря на неговите нужди за дадено търсене.