Студенты Института Пушкина помогают научить компьютер понимать текст

Студенты Института Пушкина приняли участие в подготовке данных для третьего международного соревнования по извлечению именованных сущностей — Slav-NER 2021. Работу студентов координировала ведущий научный сотрудник Института Пушкина Мария Лебедева и коллеги из Университета Хельсинки (Финляндия) Роман Янгарбер и Лидия Пивоварова.

Именованные сущности – это имена собственные: названия организаций, книг, городов и других географических объектов, имена людей. Человеку довольно легко понять, что в предложении "Клин с его музеем известного композитора ждет гостей" Клин является названием города, а в предложении "Клин лебедей показался в осеннем небе" обозначением группы птиц, то есть не именованной сущностью. Для компьютера решение этой задачи нетривиально. Извлечение имен из текста — это важный этап автоматического семантического анализа, который необходим во многих задачах, таких как мониторинг новостей, определение тональности сообщений, информационного поиска. Задача анализа имен является одной из наиболее сложных в анализе текста, для решения которой требуются большие массивы данных, размеченных вручную.  

В международном проекте-соревновании SlavNER команды компьютерных лингвистов разрабатывают алгоритмы, умеющие автоматически распознавать именованные сущности. Точность работы таких алгоритмов оценивается специальной комиссией: у кого получилось создать самую точную программу, тот и выигрывает. Чтобы такое соревнование состоялось, участникам дается определенный набор данных. В этом году это были тексты СМИ из двух тематических групп: выборы в США и COVID-19. Базы текстов будут представлены на 6 языках.

Роман Янгарбер, профессор Университета Хельсинки, крупный специалист по компьютерной лингвистике, отметил:  "В случае с Slav-NER разметка была особенно сложной, т.к. требовалось не только анализировать имена в отдельно взятом тексте (например, в новостной статье), но и связывать их с упоминаниями тех же имен в других документах, не только на русском, но и на других славянских языках, которые размечали коллеги из Польши, Чехии, Словении, Болгарии и Украины. Студенты очень ответственно подошли к заданию и за полторы недели разметили корпус из трехсот новостных статей".

В результате создан уникальный корпус, который позволит совершенствовать автоматические методы извлечения и анализа именованных сущностей.  Данные будут использоваться учеными в разных странах, не только во время соревнования, но и впоследствии для развития компьютерной лингвистики и искусственного интеллекта.  

"Я горжусь нашими студентами, которые проявили высокий уровень лингвистического анализа и языкового чутья, а также невероятную работоспособность. Особенно хочется отметить иностранных студентов, которые не побоялись сложной задачи и наравне со всеми выполнили задание",  отметила Мария Лебедева. 

Важно, что в результате участия в проекте студенты ближе познакомились с новой перспективной областью лингвистики и освоили новые инструменты. "Это была интересная и сложная работа. Самое интересное  работа с платформой Инфорекс, получение новых навыков и причастность к улучшению инструмента. А сложным были сжатые сроки, большой объём работы и спорные случаи в разметке, которые не объяснял гайд. Я узнала, что такое именные сущности, для чего вообще необходим такой инструмент. Было здорово поработать в такой команде, наблюдать, как с каждым новым текстом разметка текста становилась все более автоматизированной", – поделилась впечатлениями участница проекта Мария Руленко.

На участие в соревнованиях уже зарегистрировалось более десяти команд из международных исследовательских университетов и компаний.  О его результатах мы узнаем совсем скоро, на международном семинаре BSNLP по компьютерной обработке славянских языков, при европейской конференции по компьютерной лингвистике EACL. Все студенты, внесшие свой вклад в создание массива данных, будут перечислены на сайте проекта и получат именную благодарность от Оргкомитета SlavNer.


На официальном сайте ФГБОУ ВО "Гос. ИРЯ им. А.С. Пушкина" используются технологии cookies и их аналоги для качественной работы сайта и хранения пользовательских настроек на устройстве пользователя. Также мы собираем данные с помощью сервисов Google Analytics, Яндекс.Метрика, счётчиков Mail.ru и Спутник для статистики посещений сайта. Нажимая ОК и продолжая пользоваться сайтом, Вы подтверждаете, что Вы проинформированы и согласны с этим и с нашей Политикой в отношении обработки персональных данных, даёте своё согласие на обработку Ваших персональных данных. При несогласии просим Вас покинуть сайт и не пользоваться им. Вы можете отключить cookies в настройках Вашего веб-браузера.
The Pushkin Institute's official website uses cookies to ensure high-quality work and storage of users' settings on their devices. We also collect some data for site statistics using Google Analytics, Yandex.Metrika, Mail.ru and Sputnik counters. By clicking OK and continuing using our website, you acknowledge you are informed of and agree with that and our Privacy Policy. If you are not agree we kindly ask you to leave our website and not to use it. You may switch off cookies in your browser tools.