Публикации

ЛАБОРАТОРИЯ № 15
Лаборатория компьютерной лингвистики

Заведующий лабораторией: д.филол.н. Богуславский Игорь Михайлович

Тел.: (095) 299-49-27; Email: bogus@iitp.ru

Ведущие ученые лаборатории:

акад. РАН	Апресян Ю. Д.	к.ф.-м.н.	Цинман Л. Л.
д.филол.н.	Санников В. З.		Лазурский А. В.
к.филол.н.	Григорьева С. А.		Григорьев Н. В.
к.филол.н.	Иомдин Л. Л.		Сизов В. Г.
к.ф.-м.н.	Митюшин Л. Г.

НАПРАВЛЕНИЯ ИССЛЕДОВАНИЙ

Основной научной проблематикой лаборатории является исследование функционирования естественного языка в качестве средства передачи информации.

Фундаментальные исследования, проводимые в лаборатории, направлены на разработку полной действующей формальной модели языка типа "Смысл Û Текст". Модель должна имитировать языковое поведение человека, т.е. его способность производить тексты на естественном языке и понимать их.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ

Все научные результаты, достигнутые в 2000 году, связаны с совершенствованием функциональных возможностей многоцелевой системы обработки текстов на естественном языке ЭТАП-3. Демонстрационная версия системы доступна в Интернете по адресу http://proling.iitp.ru.

Разработаны новые версии комбинаторных словарей русского и английского языков. Эти словари доведены до объема свыше 50 000 единиц каждый, что соответствует объему крупных традиционных двуязычных словарей общего назначения. Расширение словарей носило не только количественный, но и качественный характер. В соответствии с новейшими достижениями теоретической лексикографии был существенно пересмотрен лексический состав словарей, в результате чего многие прежде единые слова были систематически разделены на отдельные лексемы, что способствовало значительно более адекватному представлению материала и, в частности, улучшению качества машинного перевода.

Кардинальной перестройке и упорядочению подверглись модели управления предикатных слов как русского, так и английского комбинаторных словарей. При этом за основу была взята принципиально новая семантико-синтаксическая классификация предикатов с указанием набора семантических валентностей для каждого класса и типичных форм их реализации. Разработать такую классификацию потребовалось потому, что в ходе экспериментирования с различными системами переработки языковой информации и с системой компьютерного обучения лексике обнаружилось много непоследовательностей и даже противоречий в семантической и синтаксической трактовке управляющих свойств предикатных слов. Их причина состоит в том, что соответствующие зоны словарных статей комбинаторных словарей разрабатывались без учета лексического состава семантико-синтаксического класса, к которому принадлежит данное предикатное слово.

Произведено пополнение русского морфологического словаря. Он доведен до объема свыше 120 000 лексических единиц (что, по-видимому, является рекордным для машинных словарей русского языка, содержащих полноценную морфологическую информацию) за счет имен собственных, идиоматичных сложных слов, синтаксических дериватов и неологизмов.

Разработана новая система морфологического анализа. Морфологический анализ (выявление грамматических характеристик слов текста) является необходимой составной частью любой процедуры переработки текста. Новая система основана на технологии конечных автоматов (FST). Отличительные свойства разработанного алгоритма:

– высокая скорость работы (несколько тысяч слов в секунду);

– обратимость – один и тот же набор данных может быть использован как для анализа, так и для синтеза;

– компактность – малый расход оперативной и дисковой памяти.

Был усовершенствован синтаксический компонент системы ЭТАП-3. Введен механизм весов гипотетических связей и омонимов. Суть этого механизма состоит в том, что теперь в синтаксическом анализе различаются ядерные и периферийные синтаксические конструкции и омонимы. За счет этого удается существенно повысить точность выбора синтаксической структуры из набора альтернативных вариантов. Кроме того, механизм весов дает возможность в дальнейшем расширить систему синтаксического анализа за счет включения статистического компонента обработки корпусов текстов, нацеленного на получение синтаксической структуры, имеющей наибольшую вероятность.

Разработана новая версия лексических функций. Каноническая теория лексических функций исходила из представления о полуслужебных глаголах семейства OPER-FUNC, на основе которых в естественных языках происходит перифразирование высказываний, как о двухместных предикатах. В соответствии с этим правила перифразирования определяли расстановку только двух аргументов исходного предиката относительно полуслужебного глагола. Между тем в естественных языках есть большое число полуслужебных глаголов, которые наследуют несколько аргументов ключевого слова в дополнение к своим собственным аргументам. Поэтому в сложных случаях для размещения всех аргументов относительно такого многоместного глагола приходилось прибегать к правилам ad hoc. В 2000 году была разработана более общая теория лексических функций, учитывающая случай, когда полуслужебный глагол является многоместным предикатом.

Разработан обобщенный интерфейс к словарям, позволяющий полностью абстрагировать логику работы системы перевода от способов хранения лингвистической информации (сервер баз данных, индексные файлы, оперативная память и др.). За счет этого существенно упрощается обслуживание и конфигурирование комплекса программ, исчезает необходимость поддержания параллельных версий для систем, пользующихся разными подсистемами хранения лингвистической информации.

Разработан алгоритм разрешения грамматико-функциональной неоднозначности русских слов на основе морфологической информации и линейного контекста. Этот алгоритм может быть использован для решения различных прикладных задач, в частности, для задачи нетривиального текстового поиска (например, в поисковых машинах для Интернета).

Разработана новая версия деконвертора языка UNL. Деконвертор разрабатывается в рамках международного проекта “Универсальный сетевой язык (UNL)”, цель которого состоит в том, чтобы преодолеть языковой барьер в рамках Интернета, предоставив его пользователям из разных стран возможность общаться друг с другом на своем родном языке. Для этого участниками проекта был разработан универсальный электронный язык-посредник (UNL), на котором можно представить любое значение, выражаемое на естественном языке. Для каждого естественного языка должны быть разработаны две процедуры: процедура "конвертации", превращающая текст, написанный на данном языке, в текст на UNL, и процедура "деконвертации", преобразующая выражение языка UNL в текст на данном естественном языке. Новая версия русского деконвертора учитывает положение каждого элемента текста в базе знаний. Организован сайт, осуществляющий деконвертацию UNL структур в русские предложения (http://www.unl.ru).

Проведены эксперименты по интеграции системы ЭТАП-3 с вопросно-ответной системой IAW. Основной целью экспериментов было улучшение работы IAW за счет применения синтаксического анализатора ЭТАП’а-3. В интегрированной системе распределение функций осуществляется так: морфологический и синтаксический анализ запроса на английском языке и порождение его представления на языке Пролог отводятся системе ЭТАП-3, а IAW по порожденной ЭТАП’ом форме синтезирует и выдает пользователю ответ. Сравнение параметров системы IAW до и после интеграции с ЭТАП’ом показало, что учет синтаксической структуры запроса, вырабатываемой ЭТАП’ом, повышает эффективность работы системы на 7%.

Создан размеченный корпус текстов русского языка, в котором для каждого слова указаны его морфологические характеристики, а каждое предложение снабжено синтаксической структурой зависимостей. Объем корпуса составляет около 10000 предложений.

ГРАНТЫ

Российский фонд фундаментальных исследований (№ 99-06-80277): "Разработка действующей модели языка "Смысл Û Текст" (третья очередь)".

Российский фонд фундаментальных исследований (№ 98-07-90072): “Создание аннотированного корпуса русских текстов”.

Российский фонд фундаментальных исследований (№ 99-06-80292): "Формальная модель перифразирования предложений для систем переработки текстов на естественных языках".

Российский фонд фундаментальных исследований (№ 99-06-80276): "Теория и практика введения словообразовательного компонента в системы автоматической обработки русских текстов".

Российский гуманитарный научный фонд (№ 99-04-00318): “Изучение лексики с помощью компьютера".

ПУБЛИКАЦИИ В 2000 г.

Апресян Ю. Д., В. В. Ботякова, Т. Э. Латышева и др. Англо-русский синонимический словарь. М.: Русский язык, 2000, изд. 5-е, стереотипное, 543 c. (переиздание).

Апресян Ю. Д., Л. Л. Иомдин, Э. М. Медникова, А. В. Петрова и др. Новый большой англо-русский словарь. М.: Русский Язык, 2000. Изд. 5-е, стереотипное. T. I, 832 c., T. II, 828 c., T. III, 824 c. (переиздание).

Апресян Ю. Д., О. Ю. Богуславская, Т. В. Крылова, И. Б. Левонтина, Е. В. Урысон и др. Новый объяснительный словарь синонимов русского языка. Второй выпуск. М.: Языки русской культуры, 2000, 487 с.

Апресян Ю. Д. Предисловие к Новому объяснительному словарю синонимов русского языка. Изд. Второе, исправленное // Новый объяснительный словарь синонимов русского языка. Второй выпуск. М.: Языки русской культуры, 2000, V-VII.

Апресян Ю. Д. Словарная статья словаря синонимов // Новый объяснительный словарь синонимов русского языка. Изд. Второе, исправленное // Новый объяснительный словарь синонимов русского языка. Второй выпуск. М.: Языки русской культуры, 2000, VIII-XVII.

Апресян Ю. Д. Лингвистическая терминология словаря синонимов // Новый объяснительный словарь синонимов русского языка. Изд. Второе, исправленное // Новый объяснительный словарь синонимов русского языка. Второй выпуск. М.: Языки русской культуры, 2000, XVIII-XLV.

Апресян Ю. Д. Многозначность и синонимия слова любить // Etnolingwis-tika. Problemy języka i kultury. 12. Lublin, 2000, c. 77-95.

Апресян Ю. Д. Остановка движения как симптом внутреннего состояния: синонимический ряд замереть // Отцы и дети Московской лингвистической школы. Сборник статей в честь В. Н. Сидорова (в печати).

Апресян Ю. Д. О лексических функциях семейства REAL – FACT // Сборник в честь Z. Saloni (в печати).

Апресян Ю. Д. Глагол заставлять: семантический класс, синонимия, многозначность // Cборник в честь М. В. Панова (в печати).

Апресян Ю. Д. От значения к несемантическим свойствам лексем: знание и мнение // Сборник докладов международного симпозиума в Экс-ан-Прованс в мае 2000 года (в печати).

Апресян Ю. Д. Наказание в языковой картине мира // Сборник статей в честь 70-летия проф. А. Богуславского (в печати).

Апресян Ю. Д. О системообразующих смыслах ‘знать’ и ‘считать’ в русском языке // Русский язык (в печати).

Апресян В. Ю., С. А. Григорьева. Волшебство в языке. Слово в тексте и в словаре // Сборник статей в честь 70-летия акад. Ю. Д. Апресяна. М.: Языки русской культуры, 2000.

Богуславский И. М., Н. В. Григорьев, С. А. Григорьева, Л. Л. Иомдин, Л. Г. Крейдлин, В. З. Санников, Н. Е. Фрид. Аннотированный корпус русских текстов: концепция, инструменты разметки, типы информации // Труды Международного семинара Диалог’2000 по компьютерной лингвистике и ее приложениям. Том 2. Протвино, 2000. С. 41-47.

Богуславский И. М., Л. Л. Иомдин, Л. Г. Крейдлин, Н. Е. Фрид, И. Л. Сагалова, В. Г. Сизов. Модуль универсального сетевого языка в составе системы ЭТАП-3 // Труды Международного семинара Диалог’2000 по компьютерной лингвистике и ее приложениям. Том 2. Протвино, 2000. С. 48-58.

Богуславский И. М., Л. Л. Иомдин. Семантика медленности // Слово в тексте и в словаре. Сборник статей в честь 70-летия акад. Ю. Д. Апресяна. М.: Языки русской культуры, 2000. С. 52-60.

Григорьева С. А. Нетривиальная семантическая сфера действия лексемы: случайность или закономерность? // Труды Международного семинара Диалог-2000 по компьютерной лингвистике и ее приложениям. Протвино, 2000, т. 1, с. 61.

Иомдин Л. Л. Синтаксические особенности фразеологических единиц: новые подробности // Сборник статей в честь 70-летия проф. А. Богуславского (в печати).

Санников В.З. О значении союза пускай/пусть // Отцы и дети Московской лингвистической школы. Сборник статей в честь В. Н. Сидорова (в печати).

Цинман Л. Л., В. Г. Сизов. Лингвистический процессор ЭТАП: дескрипторное соответствие и обработка метафор // Труды Международного семинара Диалог ‘2000 по компьютерной лингвистике и ее приложениям. Т. 2. Протвино 2000. С. 366-369.

Цинман Л. Л., В. Г. Сизов. Лингвистический процессор ЭТАП: процедура ослабления синтаксических правил и ее использование. // Слово в тексте и в словаре. Сборник статей в честь 70-летия акад. Ю. Д. Апресяна. М.: Языки русской культуры, 2000. С. 521-528.

Apresjan, Ju. Systematic Lexicography. Oxford University Press, 2000, XVIII, 304 pp.

Apresjan Ju., I. M. Boguslavsky, L. L. Iomdin, L. L. Tsinman. Lexical Functions in NLP: Possible Uses. In: Computational Linguistics for the New Millenium: Divergence or Synergy. Heidelberg, 2000, p. 1-11.

Boguslavsky I. UNL from the linguistic point of view (in print)

Boguslavsky I. Even in discourse: Interaction of lexical meanings and interpretation strategies (in print).

Boguslavsky I., S. Grigorieva, N. Grigoriev, L. Kreidlin, N. Frid. Dependency Treebank for Russian: Concept, Tools, Types of Information // Proceedings of the 18th International Conference on Computational Linguistics (COLING 2000), 2000, p. 987-991.

Boguslavsky I., N. Frid, L. Iomdin, L. Kreidlin, I. Sagalova, V. Sizov. Creating a Universal Networking Language Module within an Advanced NLP System // Proceedings of the 18th International Conference on Computational Linguistics (COLING 2000), 2000, p. 83-89.

Carl M., L. Iomdin, C. Pease, O. Streiter. Towards a Dynamic Linkage of Example-Based and Rule-Based Machine Translation // MT (in print).

Streiter O., L. Iomdin, I. Sagalova. Learning Lessons from Bilingual Corpora: Benefits for Machine Translation // International Journal of Corpus Linguistics. Vol. 5 (2), 2000, p. 1-32.

Streiter O., M. Carl, L. Iomdin. A Virtual Translation Machine for Hybrid Machine Translation // Труды Международного семинара Диалог’2000 по компьютерной лингвистике и ее приложениям. Том 2. Протвино, 2000. С. 382-393.