Корпус - помощник современного ученого

Развитие корпусных технологий предоставляют учёным с каждым годом всё больший доступ к большим текстовым данным, кардинально изменив ход современных языковых исследований и значительно увеличив степень их объективности. А знакомство с корпусной лингвистикой уже сейчас является необходимым элементов системы высшего филологического образования.

Институт Пушкина идёт в ногу с самыми актуальными тенденциями в научной сфере. Так, студенты в магистратуре обучаются методам работы с корпусами в рамках нескольких специальных курсов. Недавно в институте прошло сразу несколько мероприятий, посвященных корпусным исследованиям.

23 апреля в рамках магистерской программы «Русский язык и межкультурная коммуникация» с открытыми лекциями на тему «Корпуса русского языка для переводчиков и преподавателей» выступил Александр Пиперски, научный сотрудник и старший преподаватель факультета гуманитарных наук НИУ ВШЭ, лауреат премии «Просветитель» 2017. 

24 апреля Мария Парамонова провела мастер-класс «Открывая корпус», на котором студенты филологического факультета познакомились с понятием корпуса, а также с устройством и основными инструментами Национального корпуса русского языка. 

18 и 26 апреля прошли специальные занятия для магистрантов филологического факультета, посвященные работе в корпусном менеджере ScetchEnguine, в рамках курса «Информационные технологии в профессиональной деятельности».

Мы обратились к сотрудникам научно-исследовательской лаборатории инновационных средств обучения русскому языку Института Пушкина и спросили, как они используют корпуса в работе и почему навык работы с ними важно иметь в своем портфолио.


1.pngГалина Федоровна Богачева, кандидат филологических наук, ведущий специалист по лексикографии

 «Создание словаря - процесс, предполагающий решение множества лингвистических задач самого разного свойства, включая определение семантики слова, количество его значений, его грамматические характеристики и многое другое. Ранее, в «докорпусный» период все эти очень важные в словарном деле действия могли растянуться на очень долгое время, хотя бы просто потому, что нужно было обработать вручную целую гору текстового материала, не говоря уже о том, что этот текстовый материал не всегда соответствовал современному состоянию языка. 

Корпус предоставляет лексикографу уникальную возможность проверить догадки относительно развития у того или иного слова нового значения, уточнить его семантику, используя огромный и, главное, показательный набор употреблений слова, определить направление развития как семантики слова, так и его грамматических особенностей, проследить изменения актуальности того или иного значения слова в динамике. Все это позволяет улучшить качество словаря, отразить в словаре максимально адекватно современное состояние языка».

 

 

2.pngМария Парамонова, специалист по лексикографии:

«Сегодня невозможно заниматься лексикографией, не привлекая корпус. При создании словаря всегда есть опасность отразить не общие закономерности, а языковую личность лексикографа, корпус же – залог объективности, с ним очень сложно спорить.

Корпус сильно изменил саму работу лексикографа. На прошлой неделе на мастер-классе для студентов филологического факультета я рассказывала о Большой словарной картотеке Института лингвистических исследований РАН – крупнейшем собрании лексикографического материала в России. Она создавалась с конца XIX века, поколения людей, читая книгу, выписывали понравившиеся им фрагменты, объем картотеки – 8 миллионов карточек. Она использовалась, например, при подготовке «Словаря современного русского языка» в 17 тт., академической «Грамматики русского языка» 1952-1954 гг., «Орфо­графического словаря русского языка» РАН.

3.jpg

Такая картотека – это гигантский объем и огромный материал для исследований, но представьте, как много сил и времени требовалось для работы с ней. Сегодня же мы заменяем этот инструмент корпусом. Сочетаемость, частотность, примеры употребления, иллюстративные цитаты – все это может дать Национальный корпус русского языка, который мы используем каждый день. 

Конечно, корпус не выдает готовый материал для словаря, работа с ним требует внимательности. Поэтому создание каждой словарной статьей превращается в небольшое исследование: мы собираем материал в корпусе, анализируем и делаем выводы».

 

4.pngАнтонина Лапошина, специалист по компьютерной лингвистике:

«Для меня тема корпусов сейчас актуальна как никогда, ведь наша лаборатория создает свой собственный корпус. Мы исследуем учебники русского языка для младшей школы, и для того, чтобы объективно оценить их содержание, собираем и размечаем коллекцию учебников. 

Прежде всего, корпус - это мощный и удобный инструмент для исследователя. Приведу небольшой пример из лекции А.А.Пиперски. Он иллюстрировал различные возможности Национального корпуса на примере слов шофёр и водитель.  На графике встречаемости этих слов хорошо видно, как водитель появился позже, но в 90-е годы уверенно обогнал по встречаемости шофёра.

5.png

Интересен также факт, что эту смену названия профессии инициировали мужчины: если отсортировать авторов по полу, станет заметно, что в 40-70 годах шофёр был еще частотнее, однако если у мужчин соотношение водитель/шофёр было 1 к 3, то у женщин - 1 к 21. Далее водитель постепенно набирает популярность, но асимметричность его употребления в женской и мужской речи сохраняется. В современных же текстах, написанных после 1990 годов, это отличие уже незначительное. К слову о мощности: для построения этого графика система просмотрела за нас 283 миллиона слов и за пару секунд выдала результат, на получение которого у лингвиста, скажем, ещё лет 50 назад, могли уйти месяцы.

Я сразу проверила этот факт на наших данных из учебников: там по-прежнему с огромным отрывом лидирует шофёр: 22 упоминания против 4 упоминаний водителя. Сразу оговорюсь, что это учебники свежие, 2013-2014 годов издания. Получается, язык уже давно перестроился, а учебники русского языка за ним «не успевают»? По-видимому, да. Конечно, система образования всегда более консервативна, чем живой язык, но отставание более чем на 20 лет удручает.

Подобные наблюдения возможны только на большом количестве текстов, тут нам и помогают корпусные технологии».


6.pngТатьяна Веселовская, кандидат филологических наук, сотрудник лаборатории:

«Меня лично корпуса впечатляют и очаровывают не только как лингвиста, но и как преподавателя. Это современный и очень эффективный инструмент для развития практических навыков и умений при овладении иностранным языком (в частности, русским как иностранным). Достижения корпусной лингвистики крайне важны и нужны в лингводидактике как при проведении занятий по практике речи, так и при создании учебных пособий. Зарубежные коллеги уже достаточно давно применяют корпуса при создании учебников, для нас это ещё новая область, но активно развивающаяся.

Методический потенциал использования корпусов очень велик и отрадно, что в отечественной дидактике открытия в этой области уже начались». 



На официальном сайте ФГБОУ ВО "Гос. ИРЯ им. А.С. Пушкина" используются технологии cookies и их аналоги для качественной работы сайта и хранения пользовательских настроек на устройстве пользователя. Также мы собираем данные с помощью сервисов Google Analytics, Яндекс.Метрика, счётчиков Mail.ru и Спутник для статистики посещений сайта. Нажимая ОК и продолжая пользоваться сайтом, Вы подтверждаете, что Вы проинформированы и согласны с этим и с нашей Политикой в отношении обработки персональных данных, даёте своё согласие на обработку Ваших персональных данных. При несогласии просим Вас покинуть сайт и не пользоваться им. Вы можете отключить cookies в настройках Вашего веб-браузера.
The Pushkin Institute's official website uses cookies to ensure high-quality work and storage of users' settings on their devices. We also collect some data for site statistics using Google Analytics, Yandex.Metrika, Mail.ru and Sputnik counters. By clicking OK and continuing using our website, you acknowledge you are informed of and agree with that and our Privacy Policy. If you are not agree we kindly ask you to leave our website and not to use it. You may switch off cookies in your browser tools.