ВЕРСИЯ ДЛЯ СЛАБОВИДЯЩИХ
Войти
Логин:
Пароль:
Забыли пароль?
научная деятельность
структура институтаобразовательные проектыпериодические изданиясотрудники институтапресс-центрконтакты
русский | english

Научные семинары Ученого совета ИППИ РАН

18 декабря в 11 часов в аудитории 615 состоится научный доклад в рамках научных семинаров Ученого совета ИППИ РАН на тему Национальный корпус русского языка.

Будет заслушан доклад о научных исследованиях в лаборатории №20 цифровой документации русского языка.

Докладчики - С. П. Тимошенко, А. Д. Козеренко. 

 Аннотация

 Сегодня корпусы текстов  это неотъемлемая часть лингвистической науки: без обращения к корпусам не обходится ни одно лингвистическое исследование. В лаборатории номер 20 ведется работа с корпусами, входящими в состав Национального корпуса русского языка (НКРЯ).

Национальный корпус русского языка изначально создавался лингвистами из Института русского языка им. Виноградова и других институтов РАН. На его основе можно решать различные исследовательские задачи, а также составлять всестороннее описание русского языка, в том числе языковых вариантов, обслуживающих разные жанры текстов. Создатели корпуса обратились за технической помощью к Илье Сегаловичу, поскольку у них не было компьютерных ресурсов, чтобы размещать корпус и манипулировать им. Компания «Яндекс» занималась развитием лингвистических технологий поиска - интересы лингвистов и компании совпали.

Среди других институтов РАН был и ИППИ, так как лаборатория компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики Института русского языка им. Виноградова с 1998 года разрабатывала СинТагРус ¾ глубоко аннотированный корпус текстов русского языка. Кроме того, лаборатория располагала развитой системой морфологического анализа, которой заинтересовался «Яндекс».

 Первая общедоступная версия НКРЯ появилась в интернете в 2004 году и была сравнительно небольшой: один корпус объемом не более 30 миллионов словоупотреблений. Сейчас в состав НКРЯ входит уже 22 корпуса общим объемом более 2 млрд словоупотреблений.

 Самый примитивный корпус это коллекция текстов, снабженных метаинформацией (именем автора, названием, временем создания и т. д.). Однако корпусы могут содержать дополнительную лингвистическую разметку (также называемую аннотацией). Разметка может отражать самые разные языковые характеристики - морфологические, синтаксические, семантические и др. Когда сегодня говорят о лингвистических корпусах, подразумевается, что в них есть какая-либо лингвистическая разметка, а не только метаинформация. Считается, что чем больше дополнительной разметки содержит корпус, тем больше его ценность.

Корпусы текстов могут быть полезны для разных типов задач, но мы подчеркнем две основных: а) разнообразные исследования языка (лингвистические задачи) и б) разработка компьютерных моделей языка и разнообразных приложений, которая требует больших датасетов (компьютерно-лингвистические задачи).

При решении лингвистических задач корпус позволяет использовать статистические инструменты. В 20-й лаборатории были выполнены статистические исследования жанровых особенностей текста (работы О. Н. Ляшевской и Н. Н. Буйловой), исследования адъективных лексико-функциональных сочетаний типа окладистая борода (работа С. П. Тимошенко).

 Основное внимание в лаборатории №20 уделяется решению компьютерно-лингвистических задач. Были разработаны многочисленные средства автоматической разметки. К ним относятся: средство автоматической метаразметки жанров в корпусе "Социальные сети", средство автоматической разметки ключевых слов в Корпусе региональных СМИ, средство автоматической разметки морфемного состава слов, РуБик - средство автоматической разметки синтаксиса, средство автоматического определения сложности текстов для детей (работы Д. А. Морозова, А. В. Глазковой, Б. Л. Иомдина).

Лаборатория была создана для работ по гранту МОН в 2020 г. Сложившийся в ней научный коллектив представляет самостоятельную ценность, которую не хотелось бы потерять, а ряд исследований и разработок, начатых в рамках работы по гранту (в особенности это касается исследований и проектов с использованием нейросетей), хотелось бы продолжить и развить. С этими целями мы предлагаем на основе лаборатории номер 20 сформировать в лаборатории №15 сектор №15.2.

 

15.12.2023 | Астафьева Ирина Николаевна
 

 

© Федеральное государственное бюджетное учреждение науки
Институт проблем передачи информации им. А.А. Харкевича Российской академии наук, 2024
Об институте  |  Контакты  |  Противодействие коррупции