Программа «Инженерия гуманитарных знаний» - korshu.ru o_O
Главная
Поиск по ключевым словам:
страница 1
Похожие работы
Название работы Кол-во страниц Размер
Заманская Валентина Викторовна доктор филологических наук, профессор... 2 508.21kb.
Рабочая программа по технологии на 2011-2012 учебный год 3 374.12kb.
Цели и задачи программы обучения в области формирования системы знаний... 2 528.81kb.
Рабочая программа элективного курса «Защита информации» Класс: 9 1 133.97kb.
Оргмомент. Проверка знаний изученной ранее темы Целеполагание и мотивация. 1 46.16kb.
2. Цель и задачи программы 1 587.35kb.
Основные понятия 10 1054.73kb.
«Актуальные проблемы развития и истории технических, естественных... 13 1271.6kb.
Неделя правовых знаний Заместитель директора по вр л. И. Бауэр. 1 30.98kb.
Психология и педагогика богданов Игорь Васильевич кандидат психологических... 65 8583.32kb.
Конкурс «По тропинке Знаний в Страну Наук» 1 155.25kb.
Порядок оказания услуги «Музыкальный марафон» Общие положения 1 50.71kb.
Инструкция по работе с сервисом «sms-платеж» 1 218.94kb.

Программа «Инженерия гуманитарных знаний» - страница №1/1




САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Факультет искусств

Направление 230700 «Прикладная информатика»

Магистерская программа «Инженерия гуманитарных знаний»

Степанова Мария Евгеньевна
АВТОРЕФЕРАТ
РАСПОЗНАВАНИЕ ИМЕНОВАННЫХ СУЩНОСТЕЙ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ
 
Выпускная квалификационная работа

магистра информатики

Научный руководитель:

В.Ш. Рубашкин,

д-р техн. наук, проф кафедры

«Прикладная информатика в области искусств и гуманитарных наук»

факультета искусств СПбГУ
Рецензент:

Г.Я. Мартыненко,

д-р ф. наук, профессор кафедры математической лингвистики филологического факультета СПбГУ
Санкт-Петербург
2013

Данная работа посвящена построению системы автоматического распознавания именованных сущностей методами машинного обучения (скрытые марковские модели). В ней рассматривается возможность создания корпуса, размеченного именованными сущностями, на основе интернет-энциклопедии «Википедия».



Актуальность работы обусловлена тем, что на данный момент не существует открытой системы распознавания именованных сущностей для русского языка, основанной на статистических методах. Распознавание именованных сущностей (named entity recognition) является одной из основных подзадач извлечения информации и заключается в автоматическом выделении из неразмеченного текста фрагментов, соответствующих объектам заданных категорий. Чаще всего такими категориями являются персоны, организации, локации, время и деньги.

Цель данной работы заключается в построении системы автоматического распознавания именованных персон и организаций на основании машинного обучения (скрытые марковские модели).

Цель обуславливает ряд задач:



  1. Создать корпус для машинного обучения системы автоматического распознавания именованных сущностей

  2. Создать корпус для тестирования построенной системы

  3. Выделить оптимальный набор признаков для обучения модели

  4. Обучить и протестировать модель распознавания именованных сущностей на составленных корпусах

В данной работе представлен обзор существующей литературы, посвященной задаче автоматического распознавания именованных сущностей. Рассмотрены общие принципы построения таких систем на основе методов машинного обучения. Особое внимание уделяется методу скрытых марковских моделей, который и используется при распознавании именованных сущностей.

Существует два основных подхода к решению задачи автоматического распознавания сущностей: подход, основанный на статистических методах, и подход, основанный на правилах. Подход, основанный на статистических методах доказал свою эффективность для многих языков мира, но его существенным недостатком является то, что он требует наличия большого корпуса текстов, размеченного именованными сущностями. Для русского языка не существует открытого доступного корпуса, размеченного именованными сущностями.

В данной работе рассматривается методика создания размеченного корпуса на основе интернет-энциклопедии «Википедия»1. «Википедия» - это интернет-энциклопедия, создаваемая добровольцами. Она часто используется для задач автоматической обработки текста, так как является большим и достаточно хорошо структурированным источником данных.

В работе рассматриваются достоинства и недостатки полученного корпуса, а также его полезность для выделения различных именованных сущностей.

Также работе рассматриваются комбинации признаков, используемых для машинного обучения, и выбирается оптимальная комбинация. Все признаки, выделяются на уровне слова, к ним относятся морфологические признаки, рисунок капитализации слова и так далее. В качестве морфологического анализатора используется анализатор Pymorphy, созданный на основе словаря группы АОТ.

Дополнительные источники, такие как словари именованных сущностей и списки ключевых слов, не привлекаются в качестве признаков.

Для обучения и тестирования модели использовалась библиотека Natural Language Toolkit (NLTK) для обработки текстов на естественном языке на языке программирования Python.

В первой главе данного исследования рассматриваются существующие принципы построения систем автоматического распознавания сущностей. В основе главы лежит обзор литературы по автоматическому распознаванию сущностей за 1991-2006 года, составленный (Nadeau, Sekine). Во второй части первой главы рассматриваются работы, посвященные применению «Википедии» в задачах автоматической обработки языка.

Во второй главе подробно рассматривается метод скрытых марковских моделей: алгоритм Баума-Велша, а также EM-алгоритм (Expectation-Maximization Algorythm).

Третья глава посвящена созданию системы распознавания именованных сущностей.

В первой ее части подробно описан алгоритм работы программы, составляющей корпус, размеченный именованными сущностями на основе интернет-энциклопедии «Википедия».

Далее описывается преобразование подготовленного корпуса в тренировочную последовательность, на которой будет обучаться наша система распознавания сущностей.

В главе также подробно описан набор признаков для машинного обучения, который включает в себя морфологические признаки, рисунок капитализации и так далее.



В заключительной части главы приведены результаты тестирования на корпусе текстов, составленном из статей интернет-издания Лента.ру, для двух наборов признаков, выделенных на уровне слов. Проанализированы ошибки в работе системы.

Практическая значимость. В ходе данной работы было показано, что интернет-энциклопедия «Википедия» может быть эффективно использована для составления большого корпуса для машинного обучения системы автоматического распознавания сущностей. Точность распознавания сущностей типа «Персона» системой, обученной на таком корпусе, сравнима с результатами лучших систем. Полнота распознавания сущностей типа «Персона» значительно ниже, чем у лучших систем, но все равно довольно высока. Результаты работы данной системы для сущностей типа «Организация» отличаются достаточно высокой точностью, но невысокой полнотой. Таким образом, использование систем распознавания именованных сущностей, обучаемых на корпусе, составленном на основе интернет-энциклопедии «Википедия» кажется особенно целесообразным в тех задачах, где точность важнее полноты.


1 www.wikipedia.org