Корпусы текстов в преподавании английского языка: функции и инструменты
В этой серии статей поговорим о таком нетривиальном и перспективном инструменте как корпусы текстов. Ранее они использовались исключительно в исследовательских целях. В последние десятилетия они становятся всё более и более популярны в преподавании языков. Есть как минимум три направления применения корпусов в ELT:
1) расширение собственных представлений о том, как используется английский язык в реальности (узус не всегда соответствует грамматическим канонам, и знание тенденций языкового функционирования для преподавателя далеко не лишнее, особенно если работаете с учениками высоких уровней).
2) использование инструментов и массива корпуса на занятиях (direct use / data-driven learning), особенно перспективно в групповых онлайн и оффлайн занятиях (исследовательский аспект плюс соревновательность — отличная мотивация), но может стать и способом подарить индивидуальному ученику удочку для вылавливания языковых трендов и ответов на свои же вопросы, типа «А разве можно говорить Media is often biased и There’s five minutes left?» (спойлер: можно, если знать, где и когда).
3) использование корпусов текстов для разработки заданий по грамматическим и лексическим темам (indirect use). Всем знакома ситуация, когда надо придумать пример (или много примеров), а фантазия отказывается работать. В корпусе на любое слово или грамматическое явление — тысячи примеров, только выбирай. Отдельным удовольствием и отличным подспорьем в работе могут стать так называемые corpus-based websites — создаваемые на основе корпусов онлайн ресурсы, представляющие данные корпусов в виде mind-maps, word clouds и практических заданий. Если вы преподаете ESP, вы, наверное, уже разведали некоторые из них, потому что где ещё брать много материала по уникальным темам.
Что такое корпус?
Корпус — это собрание аутентичных текстовых образцов (как собственно текстов, так и транскрибированных и оцифрованных образцов устной речи). Совокупность этих текстов обрабатывается по определённым правилам и используется в качестве базы для исследования языка. Обработка позволяет искать в корпусе любую необходимую информацию. В корпусах, как правило, разметка текстов проводится по частям речи, это позволяет находить слова в заданных грамматических формах и в заданных структурах и сочетаниях (collocates). Для обработки информации используются специальные программы — конкордансеры. Они ищут информацию в массиве текстов и формируют конкорданс — перечень всех контекстов, в которых какое-либо слово или словосочетание встречается в исследуемом тексте. Вот, например, часть конкордансера для глагола crack (цветовые маркеры показывают части речи в ближайшем окружении искомого слова):
Приведенный выше пример —из the Corpus of Contemporary American English (COCA), именно о нем пойдет речь.
Почему именно COCA?
Жанровое разнообразие текстов. Разные корпусы содержат разные виды текстов (только письменные, только устные, оба вида) и разные наборы жанров. В COCA представлен широкий спектр жанров:
The British National Corpus (BNC), например, на 90% состоит из письменных тестов и на 10% — из транскрибированных устных текстов. Возможно, он в большей степени подходит для получения информации о нормах письменной речи.
Возраст данных. Для самых общих целей этот фактор может не иметь большого значения, но если вас интересуют именно последние тенденции в грамматике и лексике, разговорный (colloquial) стиль, сленг, вам не подойдут корпусы с необновляемой информацией. База COCA обновлялась в 2020. Для сравнения, время последних дополнений в British National Corpus – 1980s-1990s, Corpus of Global Web-based English3 (GLoWbE) – 2012-2013, British Academic Written/Spoken English (BAWE5 /BASE) – 2005.
Размер корпуса. Чем массивнее корпус, тем больше образцов использования языка он содержит и тем больше возможностей даёт для наблюдения и выведения закономерностей и правил. В то же время, небольшой корпус может подойти для очень узких целей, если интересует узкая область (Legal English, например).
Как пользоваться корпусом?
Чтобы пользоваться корпусом, необходимо освоить его инструменты (tools).
В COCA семь инструментов, чтобы увидеть все, нужно нажать на +, это кажется интуитивным, когда знаешь об этом, но в первый раз может быть неочевидно.
Лучше всего для освоения инструментов подойдет trial-and-error method, с опорой на мануал от создателей корпуса, например.
Раздел Help (справа от секции поиска) содержит полезные подсказки и ссылки с вариантами формулировки поисковых запросов (pre-done search). Раздел показывает информацию, актуальную для выбранного инструмента. В примере ниже это List tool:
Рассмотрим кратко функции каждого инструмента:
List
Показывает, насколько часто заданное слово встречается в текстах корпуса (frequency). Если в поиске задать структуру, вы увидите самые частые модели. Например, для “If + bare infinitive”
получите такие модели (конкордансы появляются по клику на синей линии):
Chart
Показывает пропорциональное распределение искомого слова по жанрам.
Word
Даёт исчерпывающую информацию о слове: частота употребления, жанры, определение, гиперссылки с произношением, переводом, изображениями к этому слову, синонимы, темы, с которым слово наиболее часто ассоциируется. Кроме того, представлены наиболее частые collocates, clusters и примеры слова в контекстах (concordances):
(Сайты YouGlish, PlayPhrase, Yarn в разделе обозначенным колонкой заслуживают отдельного внимания. Они представляют заданное слово в коротких видеоконтекстах, с субтитрами. Отличное подспорье для любого урока, с корпусом или без. В ссылках выше — примеры для слова president.)
Browse
Предлагает информацию, частично представленную в Word tool, не статично, а с возможностью организовать поиск по нескольким направлениям: найти примеры заданной словоформы, значения, синонимов. Можно также осуществлять поиск по произношению или по модели ударения:
Collocates
Показывает, какие слова наиболее часто встречаются в окружении заданного слова. Это особенно важный инструмент, ведь мы не изучаем отдельные слова как они представлены в словаре, а осваиваем их в типичных сочетаниях (chunks).
В поисковом поле можно задать диапазон контекста (сколько слов справа и слева от заданного хотите видеть).
Compare
Позволяет сравнить два слова. Я использовала его для демонстрации отличий использования глаголов blame и accuse, расскажу об этом в следующей статье.
KWIC (Keyword-in-Context)
Примеры слова в подборках аутентичных примеров — один из самых популярных инструментов для ELT именно его начали использовать первым в преподавании. Эти подборки можно использовать для языкового анализа без специальной обработки материала. Совсем недавно этот инструмент был обновлен, в этом документе можете видеть, какие возможности он дает.
Для работы с любым из инструментов, полезно знать приемы формирования поисковых запросов, вот некоторые из них:
Поиск синонимов: используйте символ ‘=’ перед словом, для которого ищете синонимы.
Поиск всех словоформ слова: используйте заглавные буквы, e.g. “DECIDE”.
Тематический поиск: используйте ‘@’, чтобы получить список слов, e.g. “@clothes”.
Поиск словосочетаний: запросы вида “NOUN + NOUN”, “VERB ADJ NOUN” дадут наиболее частые сочетания этих частей речи.
Если вы не уверены, какие слова / части речи вам нужны с в контексте с искомым словом, используйте ‘*’. Например, по запросу ‘break *’ получите “break up, out, down, away…».
Этот же символ позволяет осуществлять поиск по заданной части слова, e.g. ‘*icity’, ‘activ*’. Для рандомизации одного символа используйте ‘?’, e.g. ‘cor?’. Символы ‘*’ и ‘?’ называются ‘wildcards’.
Это самое первое приближение к ресурсу, повторюсь, осваивать его стоит на практике. Если вам нравится Scott Thornbury, в видео он рассказывает именно об этом корпусе (это было пятнадцать лет назад, интерфейс и инструменты заметно изменились с того времени, но можно получить общее представление). Есть более академичный вариант видеотьюториала (лучше смотреть с 16-й минуты, когда речь заходит об интументах, до этого Mark Davies говорит о том, как использовать корпус в исследовательской работе).
Огромное спасибо. Очень хочется проверить и попробовать
Очень интересная статья. Спасибо автору