В этой серии статей поговорим о таком нетривиальном и перспективном инструменте как корпусы текстов. Ранее они использовались исключительно в исследовательских целях. В последние десятилетия они становятся всё более и более популярны в преподавании языков. Есть как минимум три направления применения корпусов в ELT: 

1) расширение собственных представлений о том, как используется английский язык в реальности (узус не всегда соответствует грамматическим канонам, и знание тенденций языкового функционирования для преподавателя далеко не лишнее, особенно если работаете с учениками высоких уровней). 

2) использование инструментов и массива корпуса на занятиях (direct use / data-driven learning), особенно перспективно в групповых онлайн и оффлайн занятиях (исследовательский аспект плюс соревновательность — отличная мотивация), но может стать и способом подарить индивидуальному ученику удочку для вылавливания языковых трендов и ответов на свои же вопросы, типа «А разве можно говорить Media is often biased и There’s five minutes left?» (спойлер: можно, если знать, где и когда). 

3) использование корпусов текстов для разработки заданий по грамматическим и лексическим темам (indirect use). Всем знакома ситуация, когда надо придумать пример (или много примеров), а фантазия отказывается работать. В корпусе на любое слово или грамматическое явление — тысячи примеров, только выбирай. Отдельным удовольствием и отличным подспорьем в работе могут стать так называемые corpus-based websites — создаваемые на основе корпусов онлайн ресурсы, представляющие данные корпусов в виде mind-maps, word clouds и практических заданий. Если вы преподаете ESP, вы, наверное, уже разведали некоторые из них, потому что где ещё брать много материала по уникальным темам.

Что такое корпус? 

Корпус — это собрание аутентичных текстовых образцов (как собственно текстов, так и транскрибированных и оцифрованных образцов устной речи). Совокупность этих текстов обрабатывается по определённым правилам и используется в качестве базы для исследования языка. Обработка позволяет искать в корпусе любую необходимую информацию. В корпусах, как правило, разметка текстов проводится по частям речи, это позволяет находить слова в заданных грамматических формах и в заданных структурах и сочетаниях (collocates). Для обработки информации используются специальные программы — конкордансеры. Они ищут информацию в массиве текстов и формируют конкорданс — перечень всех контекстов, в которых какое-либо слово или слово­сочетание встречается в исследуемом тексте. Вот, например, часть конкордансера для глагола crack (цветовые маркеры показывают части речи в ближайшем окружении искомого слова):

Picture 1 Skyteach

Приведенный выше пример —из the Corpus of Contemporary American English (COCA), именно о нем пойдет речь. 

Почему именно COCA?

Жанровое разнообразие текстов. Разные корпусы содержат разные виды текстов (только письменные, только устные, оба вида) и разные наборы жанров.  В COCA представлен широкий спектр жанров: 

Picture 2 Skyteach
https://www.english-corpora.org/coca/help/coca2020_overview.pdf

The British National Corpus (BNC), например, на 90% состоит из письменных тестов и на 10% — из транскрибированных устных текстов. Возможно, он в большей степени подходит для получения информации о нормах письменной речи. 

Возраст данных. Для самых общих целей этот фактор может не иметь большого значения, но если вас интересуют именно последние тенденции в грамматике и лексике, разговорный (colloquial) стиль, сленг, вам не подойдут корпусы с необновляемой информацией.  База COCA обновлялась в 2020. Для сравнения, время последних дополнений в British National Corpus – 1980s-1990s, Corpus of Global Web-based English3 (GLoWbE) – 2012-2013, British Academic Written/Spoken English (BAWE5 /BASE) – 2005.

Размер корпуса. Чем массивнее корпус, тем больше образцов использования языка он содержит и тем больше возможностей даёт для наблюдения и выведения закономерностей и правил. В то же время, небольшой корпус может подойти для очень узких целей, если интересует узкая область (Legal English, например).

Как пользоваться корпусом?

Чтобы пользоваться корпусом, необходимо освоить его инструменты (tools)

В COCA семь инструментов, чтобы увидеть все, нужно нажать на +, это кажется интуитивным, когда знаешь об этом, но в первый раз может быть неочевидно.

Picture 3 Skyteach

Лучше всего для освоения инструментов подойдет trial-and-error method, с опорой на мануал от создателей корпуса, например. 

Раздел Help (справа от секции поиска) содержит полезные подсказки и ссылки с вариантами формулировки поисковых запросов (pre-done search). Раздел показывает информацию, актуальную для выбранного инструмента. В примере ниже это List tool: 

Picture 4 Skyteach

Рассмотрим кратко функции каждого инструмента:

List

Показывает, насколько часто заданное слово встречается в текстах корпуса (frequency). Если в поиске задать структуру, вы увидите самые частые модели. Например, для “If + bare infinitive”

Picture 5 Skyteach

получите такие модели (конкордансы появляются по клику на синей линии):

Picture 6 Skyteach

Chart

Показывает пропорциональное распределение искомого слова по жанрам. 

Word

Даёт исчерпывающую информацию о слове: частота употребления, жанры, определение, гиперссылки с произношением, переводом, изображениями к этому слову, синонимы, темы, с которым слово наиболее часто ассоциируется. Кроме того, представлены наиболее частые collocates, clusters и примеры слова в контекстах (concordances):

Picture 7 Skyteach

 (Сайты YouGlish, PlayPhrase, Yarn в разделе обозначенным колонкой заслуживают отдельного внимания. Они представляют заданное слово в коротких видеоконтекстах, с субтитрами. Отличное подспорье для любого урока, с корпусом или без. В ссылках выше — примеры для слова president.)

Picture 8 Skyteach
https://www.english-corpora.org/coca/help/coca2020_overview.pdf

Browse

Предлагает информацию, частично представленную в Word tool, не статично, а с возможностью организовать поиск по нескольким направлениям: найти примеры заданной словоформы, значения, синонимов. Можно также осуществлять поиск по произношению или по модели ударения: 

Picture 9 Skyteach

Collocates

Показывает, какие слова наиболее часто встречаются в окружении заданного слова. Это особенно важный инструмент, ведь мы не изучаем отдельные слова как они представлены в словаре, а осваиваем их в типичных сочетаниях (chunks).   

В поисковом поле можно задать диапазон контекста (сколько слов справа и слева от заданного хотите видеть).

Compare

Позволяет сравнить два слова. Я использовала его для демонстрации отличий использования глаголов blame и accuse, расскажу об этом в следующей статье. 

KWIC (Keyword-in-Context)

Примеры слова в подборках аутентичных примеров — один из самых популярных инструментов для ELT именно его начали использовать первым в преподавании. Эти подборки можно использовать для языкового анализа без специальной обработки материала. Совсем недавно этот инструмент был обновлен, в этом документе можете видеть, какие возможности он дает. 

Для работы с любым из инструментов, полезно знать приемы формирования поисковых запросов, вот некоторые из них

Поиск синонимов: используйте символ ‘=’ перед словом, для которого ищете синонимы. 

Поиск всех словоформ слова: используйте заглавные буквы, e.g. “DECIDE”.

Тематический поиск: используйте ‘@’, чтобы получить список слов, e.g. “@clothes”. 

Поиск словосочетаний: запросы вида “NOUN + NOUN”, “VERB ADJ NOUN” дадут наиболее частые сочетания этих частей речи. 

Если вы не уверены, какие слова / части речи вам нужны с в контексте с искомым словом, используйте ‘*’. Например, по запросу ‘break *’ получите “break up, out, down, away…».

Этот же символ позволяет осуществлять поиск по заданной части слова, e.g. ‘*icity’, ‘activ*’. Для рандомизации одного символа используйте ‘?’, e.g. ‘cor?’. Символы ‘*’ и ‘?’ называются ‘wildcards’.

Это самое первое приближение к ресурсу, повторюсь, осваивать его стоит на практике. Если вам нравится Scott Thornbury, в видео он рассказывает именно об этом корпусе (это было пятнадцать лет назад, интерфейс и инструменты заметно изменились с того времени, но можно получить общее представление). Есть более академичный вариант видеотьюториала (лучше смотреть с  16-й  минуты, когда речь заходит об интументах, до этого Mark Davies говорит о том, как использовать корпус в исследовательской работе).  

Комментарии (2)
  • Фото аватара
    Катерина

    Огромное спасибо. Очень хочется проверить и попробовать

    13.04.2021
  • Фото аватара
    Ольга

    Очень интересная статья. Спасибо автору

    11.04.2021

Добавить комментарий для Ольга Отменить ответ

Ваш адрес email не будет опубликован.

×