Студенты Института Пушкина помогают научить компьютер понимать текст
Студенты Института Пушкина приняли участие в подготовке данных для третьего международного соревнования по извлечению именованных сущностей — Slav-NER 2021. Работу студентов координировала ведущий научный сотрудник Института Пушкина Мария Лебедева и коллеги из Университета Хельсинки (Финляндия) Роман Янгарбер и Лидия Пивоварова.
Именованные сущности – это имена собственные: названия организаций, книг, городов и других географических объектов, имена людей. Человеку довольно легко понять, что в предложении "Клин с его музеем известного композитора ждет гостей" Клин является названием города, а в предложении "Клин лебедей показался в осеннем небе" обозначением группы птиц, то есть не именованной сущностью. Для компьютера решение этой задачи нетривиально. Извлечение имен из текста — это важный этап автоматического семантического анализа, который необходим во многих задачах, таких как мониторинг новостей, определение тональности сообщений, информационного поиска. Задача анализа имен является одной из наиболее сложных в анализе текста, для решения которой требуются большие массивы данных, размеченных вручную.
В международном проекте-соревновании SlavNER команды компьютерных лингвистов разрабатывают алгоритмы, умеющие автоматически распознавать именованные сущности. Точность работы таких алгоритмов оценивается специальной комиссией: у кого получилось создать самую точную программу, тот и выигрывает. Чтобы такое соревнование состоялось, участникам дается определенный набор данных. В этом году это были тексты СМИ из двух тематических групп: выборы в США и COVID-19. Базы текстов будут представлены на 6 языках.
Роман Янгарбер, профессор Университета Хельсинки, крупный специалист по компьютерной лингвистике, отметил: "В случае с Slav-NER разметка была особенно сложной, т.к. требовалось не только анализировать имена в отдельно взятом тексте (например, в новостной статье), но и связывать их с упоминаниями тех же имен в других документах, не только на русском, но и на других славянских языках, которые размечали коллеги из Польши, Чехии, Словении, Болгарии и Украины. Студенты очень ответственно подошли к заданию и за полторы недели разметили корпус из трехсот новостных статей".
В результате создан уникальный корпус, который позволит совершенствовать автоматические методы извлечения и анализа именованных сущностей. Данные будут использоваться учеными в разных странах, не только во время соревнования, но и впоследствии для развития компьютерной лингвистики и искусственного интеллекта.
"Я горжусь нашими студентами, которые проявили высокий уровень лингвистического анализа и языкового чутья, а также невероятную работоспособность. Особенно хочется отметить иностранных студентов, которые не побоялись сложной задачи и наравне со всеми выполнили задание", – отметила Мария Лебедева.
Важно, что в результате участия в проекте студенты ближе познакомились с новой перспективной областью лингвистики и освоили новые инструменты. "Это была интересная и сложная работа. Самое интересное – работа с платформой Инфорекс, получение новых навыков и причастность к улучшению инструмента. А сложным были сжатые сроки, большой объём работы и спорные случаи в разметке, которые не объяснял гайд. Я узнала, что такое именные сущности, для чего вообще необходим такой инструмент. Было здорово поработать в такой команде, наблюдать, как с каждым новым текстом разметка текста становилась все более автоматизированной", – поделилась впечатлениями участница проекта Мария Руленко.
На участие в соревнованиях уже зарегистрировалось более десяти команд из международных исследовательских университетов и компаний. О его результатах мы узнаем совсем скоро, на международном семинаре BSNLP по компьютерной обработке славянских языков, при европейской конференции по компьютерной лингвистике EACL. Все студенты, внесшие свой вклад в создание массива данных, будут перечислены на сайте проекта и получат именную благодарность от Оргкомитета SlavNer.