ЛАБОРАТОРИЯ № 15
Лаборатория компьютерной лингвистики
Заведующий лабораторией: д.филол.н. Богуславский Игорь Михайлович
Тел.: (095) 299-49-27; Email:
bogus@iitp.ru
Ведущие ученые лаборатории:
акад. РАН |
Апресян Ю. Д. |
к.ф.-м.н. |
Цинман Л. Л. |
д.филол.н. |
Санников В. З. |
Лазурский А. В. |
|
к.филол.н. |
Григорьева С. А. |
Григорьев Н. В. |
|
к.филол.н. |
Иомдин Л. Л. |
Сизов В. Г. |
|
к.ф.-м.н. |
Митюшин Л. Г. |
НАПРАВЛЕНИЯ ИССЛЕДОВАНИЙ
Основной научной проблематикой лаборатории является исследование функционирования естественного языка в качестве средства передачи информации.
Фундаментальные исследования, проводимые в лаборатории, направлены на разработку полной действующей формальной модели языка типа "Смысл Û Текст". Модель должна имитировать языковое поведение человека, т.е. его способность производить тексты на естественном языке и понимать их.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ
Все научные результаты, достигнутые в 2000 году, связаны с совершенствованием функциональных возможностей многоцелевой системы обработки текстов на естественном языке ЭТАП-3. Демонстрационная версия системы доступна в Интернете по адресу http://proling.iitp.ru.
Разработаны новые версии комбинаторных словарей русского и английского языков. Эти словари доведены до объема свыше 50 000 единиц каждый, что соответствует объему крупных традиционных двуязычных словарей общего назначения. Расширение словарей носило не только количественный, но и качественный характер. В соответствии с новейшими достижениями теоретической лексикографии был существенно пересмотрен лексический состав словарей, в результате чего многие прежде единые слова были систематически разделены на отдельные лексемы, что способствовало значительно более адекватному представлению материала и, в частности, улучшению качества машинного перевода.
Кардинальной перестройке и упорядочению подверглись модели управления предикатных слов как русского, так и английского комбинаторных словарей. При этом за основу была взята принципиально новая семантико-синтаксическая классификация предикатов с указанием набора семантических валентностей для каждого класса и типичных форм их реализации. Разработать такую классификацию потребовалось потому, что в ходе экспериментирования с различными системами переработки языковой информации и с системой компьютерного обучения лексике обнаружилось много непоследовательностей и даже противоречий в семантической и синтаксической трактовке управляющих свойств предикатных слов. Их причина состоит в том, что соответствующие зоны словарных статей комбинаторных словарей разрабатывались без учета лексического состава семантико-синтаксического класса, к которому принадлежит данное предикатное слово.
Произведено пополнение русского морфологического словаря. Он доведен до объема свыше 120 000 лексических единиц (что, по-видимому, является рекордным для машинных словарей русского языка, содержащих полноценную морфологическую информацию) за счет имен собственных, идиоматичных сложных слов, синтаксических дериватов и неологизмов.
Разработана новая система морфологического анализа. Морфологический анализ (выявление грамматических характеристик слов текста) является необходимой составной частью любой процедуры переработки текста. Новая система основана на технологии конечных автоматов (FST). Отличительные свойства разработанного алгоритма:
– высокая скорость работы (несколько тысяч слов в секунду);
– обратимость – один и тот же набор данных может быть использован как для анализа, так и для синтеза;
– компактность – малый расход оперативной и дисковой памяти.
Был усовершенствован синтаксический компонент системы ЭТАП-3. Введен механизм весов гипотетических связей и омонимов. Суть этого механизма состоит в том, что теперь в синтаксическом анализе различаются ядерные и периферийные синтаксические конструкции и омонимы. За счет этого удается существенно повысить точность выбора синтаксической структуры из набора альтернативных вариантов. Кроме того, механизм весов дает возможность в дальнейшем расширить систему синтаксического анализа за счет включения статистического компонента обработки корпусов текстов, нацеленного на получение синтаксической структуры, имеющей наибольшую вероятность.
Разработана новая версия лексических функций. Каноническая теория лексических функций исходила из представления о полуслужебных глаголах семейства OPER-FUNC, на основе которых в естественных языках происходит перифразирование высказываний, как о двухместных предикатах. В соответствии с этим правила перифразирования определяли расстановку только двух аргументов исходного предиката относительно полуслужебного глагола. Между тем в естественных языках есть большое число полуслужебных глаголов, которые наследуют несколько аргументов ключевого слова в дополнение к своим собственным аргументам. Поэтому в сложных случаях для размещения всех аргументов относительно такого многоместного глагола приходилось прибегать к правилам ad hoc. В 2000 году была разработана более общая теория лексических функций, учитывающая случай, когда полуслужебный глагол является многоместным предикатом.
Разработан обобщенный интерфейс к словарям, позволяющий полностью абстрагировать логику работы системы перевода от способов хранения лингвистической информации (сервер баз данных, индексные файлы, оперативная память и др.). За счет этого существенно упрощается обслуживание и конфигурирование комплекса программ, исчезает необходимость поддержания параллельных версий для систем, пользующихся разными подсистемами хранения лингвистической информации.
Разработан алгоритм разрешения грамматико-функциональной неоднозначности русских слов на основе морфологической информации и линейного контекста. Этот алгоритм может быть использован для решения различных прикладных задач, в частности, для задачи нетривиального текстового поиска (например, в поисковых машинах для Интернета).
Разработана новая версия деконвертора языка UNL. Деконвертор разрабатывается в рамках международного проекта “Универсальный сетевой язык (UNL)”, цель которого состоит в том, чтобы преодолеть языковой барьер в рамках Интернета, предоставив его пользователям из разных стран возможность общаться друг с другом на своем родном языке. Для этого участниками проекта был разработан универсальный электронный язык-посредник (UNL), на котором можно представить любое значение, выражаемое на естественном языке. Для каждого естественного языка должны быть разработаны две процедуры: процедура "конвертации", превращающая текст, написанный на данном языке, в текст на UNL, и процедура "деконвертации", преобразующая выражение языка UNL в текст на данном естественном языке. Новая версия русского деконвертора учитывает положение каждого элемента текста в базе знаний. Организован сайт, осуществляющий деконвертацию UNL структур в русские предложения (http://www.unl.ru).
Проведены эксперименты по интеграции системы ЭТАП-3 с вопросно-ответной системой IAW. Основной целью экспериментов было улучшение работы IAW за счет применения синтаксического анализатора ЭТАП’а-3. В интегрированной системе распределение функций осуществляется так: морфологический и синтаксический анализ запроса на английском языке и порождение его представления на языке Пролог отводятся системе ЭТАП-3, а IAW по порожденной ЭТАП’ом форме синтезирует и выдает пользователю ответ. Сравнение параметров системы IAW до и после интеграции с ЭТАП’ом показало, что учет синтаксической структуры запроса, вырабатываемой ЭТАП’ом, повышает эффективность работы системы на 7%.
Создан размеченный корпус текстов русского языка, в котором для каждого слова указаны его морфологические характеристики, а каждое предложение снабжено синтаксической структурой зависимостей. Объем корпуса составляет около 10000 предложений.
ГРАНТЫ
ПУБЛИКАЦИИ В 2000 г.