+7 (831) 262-10-70

+7 (831) 280-82-09

+7 (831) 280-82-93

+7 (495) 545-46-62

НИЖНИЙ НОВГОРОД, УЛ. Б. ПОКРОВСКАЯ, 42Б

ПН–ПТ 09:00–18:00

Языковые открытия своими руками: корпусы в изучении языка

Языковые открытия своими руками: корпусы в изучении языка

Рецензия на учебник Дж. Томаса «Изучаем английский язык со Sketch Engine: корпусный подход к исследованию языка»*

Куниловская Мария Анатольевна — Канд. филол. наук, доцент, доцент кафедры английской филологии и перевода, Тюменский государственный университет, Тюмень, Россия

Ковязина Марина Анатольевна — Канд. филол. наук, доцент кафедры английской филологии и перевода, Тюменский государственный университет, Тюмень, Россия

Новый поворот в теоретическом осмыслении языка, стремительное развитие лингвистических технологий, доступность значительных объемов текстовых данных в электронном формате повышают интерес к корпусным ресурсам со стороны всех специалистов в области языка: исследователей, лексикографов, терминологов, переводчиков, преподавателей. Это обусловливает востребованность знаний и умений, связанных с использованием корпусов: от постановки исследовательского вопроса, выбора корпуса и формирования поискового запроса до интерпретации извлеченной информации. Эффективность работы с реальными языковыми данными предполагает не только знакомство с функционалом имеющихся программ извлечения информации о языке и с доступными языковыми ресурсами, но и некоторый уровень лингвистических знаний в рамках неоферсианской парадигмы, постулирующей важность учета контекста, принципиальную взаимосвязь лексики и грамматики, конструкционный характер языка. Не секрет, что методика преподавания языков часто существенно отстает от актуального уровня научных знаний. Причиной этому является не только традиционная оторванность образования от науки, но и отсутствие дидактических материалов, нехватка теоретически обоснованных и хорошо описанных ноу-хау в этой области. В этом контексте появление комплексного и увлекательного учебника Джеймса Томаса по использованию системы онлайн-анализа корпусных данных Sketch Engine (https://www.sketchengine.co.uk/) представляется очень своевременным. Учебник представляет собой практическое введение в корпусную лингвистику, ориентированное прежде всего на преподавателей английского языка и методологически основанное на концепции использования реальных языковых данных в языковом образовании (data-driven learning [2; 4]).

Sketch Engine – это набор программных инструментов для обработки языковых корпусов, разработанный компанией Lexical Computing Ltd. Это совместный проект британского лексикографа, корпусного лингвиста Адама Килгарриффа и чешского программиста Павла Рыхли из Лаборатории обработки естественного языка факультета информатики Университета им. Масарика (г. Брно, Чехия). В 2004 г. эта поисковая система стала доступна как компьютерная программа для лингвистов, занимающихся корпусными исследованиями языка (на тот момент в системе были доступны только корпусы на трех языках – английском, чешском и ирландском) [3]. Особенно полезным этот программный комплекс стал для лексикографов: его используют такие издательства, как Cambridge University Press, Harper Collins, Macmillan, Oxford University Press и др. [8, p. 15]. Сегодня Sketch Engine – это прежде всего интернет-ресурс, предлагающий (в рамках коммерческой лицензии) широкий набор инструментов корпусного анализа и большую коллекцию языковых ресурсов на более чем 85 языках мира, в том числе параллельных. Кроме того, в Sketch Engine предусмотрена возможность создания, разметки и эксплуатации собственных корпусов пользователя.

Одиннадцать лет спустя после запуска системы Sketch Engine вышло первое издание учебника «Изучаем английский язык со Sketch Engine: корпусный подход» (“Discovering English with Sketch Engine: A Corpus-Based Approach”), подготовленное Джеймсом Томасом, сотрудником Университета им. Масарика, где был разработан Sketch Engine. В 2016 г. вышло второе издание этого учебника [9], а также первое издание рабочей тетради «Изучаем английский язык со Sketch Engine. Рабочая тетрадь и глоссарий» (“Discovering English with Sketch Engine. Workbook and Glossary”) [10], обзор которых представлен в данной рецензии.

Пособие, адресованное преподавателям английского языка, студентам, лингвистам и переводчикам, в структурном плане организовано как руководство по освоению возможностей программного комплекса Sketch Engine и предоставляемых этой платформой корпусных ресурсов. За время своего существования система обрела широкий набор инструментов и функций. К основным относятся следующие [3; 4; 8].

1. Конкордансер (Concordance) осуществляет поиск в корпусе по словоформе, лемме, словосочетанию и морфосинтаксической метке в разных комбинациях на языке поисковых запросов (Corpus Query Language).

2. Инструмент построения частотных списков слов, лемм, n-грамм, ключевых слов (Word List).

3. Инструмент извлечения ключевых слов и терминологии на базе корпуса (Keywords and Terms).

4. Инструмент вычисления коллокаций на базе нескольких статистических мер сочетаемости (T-score, MI, log likelihood, logDice и др.) (Collocations).

5. Инструмент построения коллокационных профилей (скетчей) на базе пользовательской скетч-грамматики (Word Sketch).

6. Дистрибутивный тезаурус (Thesaurus).

7. Сравнение коллокационных профилей для двух лексических единиц (Word Sketch Differences).

8. Инструмент, позволяющий проводить диахронический анализ лексики (Trends).

9. Программа для создания собственных корпусов из текстов в интернете (WebBootCaT).

Рецензируемый учебник – прекрасный пример использования лингвистически обоснованного подхода к изучению языка. В содержательном плане книга представляет собой взаимосвязанный комплекс исследовательских задач, позволяющих читателю освоить методику корпусного анализа языка и развить теоретические представления о языке. Описывая очередную задачу, автор вводит необходимые понятия (напр., grammatization, word family, binominal, lexicogrammar, Idiom Principle, troponym, FASI, colligation, template, connotation, lemma, node, part-of-speech tagging, association measures like (log)Dice and MI, metacognitive strategies и др.), которые, как видно из примеров, не только относятся к области корпусной лингвистики, но охватывают широкий круг направлений современной лингвистической теории. Кроме того, автор дает удачные научно-популярные и образные интерпретации для ряда теоретических положений, подкрепляя их емкими цитатами и ссылками на авторитетную и современную лингвистическую литературу, а также на полезные лингвистические ресурсы (напр., Patrick Hank's Pattern Dictionary of English Verbs (http://pdev.org.uk/)), которые призваны расширять лингвистические и языковые знания, стимулировать исследовательский интерес читателя и формировать способность задавать теоретически обоснованные вопросы, самостоятельно генерировать знания о языке. Все использованные в учебнике термины разъясняются в глоссарии, входящем в состав второй книги издания.

Учебник отличается выраженным авторским подходом к изложению материала, высокой степенью интерактивности, наличием элементов языковой игры. Главы и разделы издания организованы не только логично, но и оригинально, автор использует интересные отсылки к внеязыковой действительности, энциклопедическим знаниям и литературным произведениям, ассоциативно связанным с содержанием той или иной главы. Все это способствует вовлечению читателя в предлагаемые виды деятельности и делает учебник Дж. Томаса по-настоящему увлекательным и эффективным.

Как отмечалось выше, учебник в полной мере реализует принципы использования реальных языковых данных в процессе обучения языку (data-driven learning). Идеология этого подхода, противопоставленного традиционной технологии «передачи готовых знаний», состоит в предоставлении учащимся возможности самостоятельно извлекать знания о языке, отвечающие индивидуальным познавательным потребностям. Дж. Томас справедливо указывает, что в области языкового образования корпусные технологии сегодня неоправдано недооценены. По данным Британского совета, в мире насчитывается более 15 млн преподавателей английского языка, однако, как отмечает автор, многие никогда не слышали о корпусах и не понимают, как их можно использовать в процессе изучения и преподавания языка. При этом существуют все условия для применения корпусов как педагогами, так и обучающимися: доступ к компьютерам с выходом в сеть, интерактивные доски в школах и университетах, открытые корпусы, работающие как онлайн, так и оффлайн [10, p. 17–19]. По нашим наблюдениям, это верно и для ситуации в России.

В своем учебнике Дж. Томас создает контекст для развития мета-когнитивной способности учиться, включающей умение правильно ставить вопросы, подбирать адекватный языковой материал, обдумывать полученные результаты и делать выводы. Читателю предлагается теоретически мотивированный вопрос, описание процедуры извлечения необходимых данных и нюансов построения запроса, советы по использованию корпусных ресурсов для каждой задачи, но не ответы. Важно, что в ряде случаев автор подсказывает читателю возможные способы качественной интерпретации количественных результатов поиска, обращает внимание на возможности их сортировки и фильтрации, что позволяет получить наглядные и убедительные свидетельства в пользу или против выдвинутой гипотезы. Подчеркнем, что большинство заданий сформулированы таким образом, что они не могут не вызвать живого интереса и исследовательского азарта, а ответы на них имеют значительный «вау-фактор», повышающий мотивацию продолжать поиски.

Автор убедительно демонстрирует важность компетенций в области корпусных технологий для изучающих иностранный язык. Обращение к реальным языковым данным помогает обнаружить закономерности использования языка в конкретной языковой ситуации, которые не могут (в силу их бесконечного разнообразия) быть описаны в грамматиках, словарях и традиционных учебниках, но делают речь живой и идиоматичной, развивает языковую интуицию учащегося, формирует представление о вариативности и изменчивости языка и обусловленности языкового выбора контекстом ситуации и культуры (напр., автор учебника показывает, что I was sat watching TV является типичным шаблоном для британского английского (p. 109), а drink oneself beautiful – скорее креативная эксплуатация соответствующей синтаксической модели (p. 155), поскольку one swallow does not a summer make (p. 28)). Умение отделить наиболее вероятное и частотное от креативного и единичного представляется одним из важных корпусных умений, позволяющих критически оценивать полученные результаты. Учебник демистифицирует корпусный анализ как средство обучения языку и показывает, что программное обеспечение – это инструмент сродни микроскопу, который позволяет получить знание о мире, недоступное без него. Безусловно, овладение этим инструментом требует приложения определенных усилий, которые, впрочем, сравнимы с усилиями по освоению современных смартфонов или интеллектуальных ТВ-систем.

Относительно некоторых языковых структур автор предлагает целую систему исследовательских вопросов, которые могут быть использованы как задания для лабораторных или курсовых работ (см. напр., серию заданий по изучению словосочетаний с десемантизированными глаголами типа to give a smile (p. 111–113)) либо как план занятия по освоению соответствующего языкового материала.

Существенным дополнением к первому изданию учебника стали рабочая тетрадь и глоссарий. В рабочей тетради воспроизведены все 354 вопроса-задания из учебника и выделено место для кратких ответов на них. Кроме того, по каждой главе сформулированы вопросы для дальнейшего исследования и обсуждения в классе, а также тестовые вопросы, касающиеся как обсуждаемых в главе лингвистических понятий, так и исследуемых языковых явлений и данных. Часть этих вопросов вынесена на специальные страницы, предназначенные для копирования, и может использоваться для работы в парах и организации обсуждения в классе. Характер вопросов позволяет установить важные связи между лингвистикой, корпусной лингвистикой и прикладными задачами, прежде всего в области языкового образования, но также и перевода, терминоведения и лексикографии. Способ представления терминов в глоссарии следует общей «человекоориентированной» идеологии учебника: формулировки лишены традиционного формализма и функциональны.

Несмотря на то что все задания в книге предусматривают использование англоязычных корпусов в системе Sketch Engine, причем часть из них, как и часть иллюстраций, вынесенных в постраничные сноски, доступна только обладателям коммерческой лицензии, описанные подходы, идеи и способы корпусного анализа могут быть легко адаптированы к другим корпусным менеджерам и ресурсам. Самый очевидный вариант использования этих знаний вне Sketch Engine – эксплуатация сравнимых интернет корпусов семейства Aranea [1], свободный доступ к которым организован на основе свободного программного комплекса NoSketch Engine [6] на сайте Университета им. Коменского (г. Братислава, Словакия; http://unesco.uniba.sk/aranea_about). В настоящее время семейство включает корпусы на 17 языках мира, которые созданы на основе одного и того же набора процедур сбора текстов в сети, их обработки и разметки, что обеспечивает сравнимость содержащихся в корпусах языковых данных. Свободно доступны все корпусы типа Minus (объемом 100 млн токенов); доступ к миллиардным корпусам (Maius) осуществляется после бесплатной регистрации, а для русского языка есть версия размером в 13,7 млрд токенов. Платформа NoSketch Engine поддерживает значительную часть функционала Sketch Engine, описанную в рецензируемой книге в главах 1–10 и 13.

Таким образом, учебник Дж. Томаса – это увлекательное введение в корпусный анализ языка, представляющее собой набор лингвистических и языковых задач, предполагающих активную и во многом автономную деятельность учащихся по поиску решений. Его основная ценность не столько в приобретении технических компетенций, сколько в развитии лингвистических представлений, важных для эффективного освоения иностранного языка. Большое внимание в книге уделяется развитию способности учиться (learning to learn), что повышает мотивированность и независимость учащихся, предоставляет в их распоряжение ресурсы и способы совершенствования языковых знаний, которые можно использовать на протяжении всей жизни. В этом автор следует постулату основателя теории когнитивного развития швейцарского философа и психолога Жана Пиаже о том, что именно в процессе самообучения новое знание познается лучше всего [9, p. 98]. Осваивая возможности системы Sketch Engine и погружаясь в процесс лингвистического исследования, пользователь пособия открывает для себя английский язык (именно это отражено в названии учебника).

* Работа выполнена в рамках проекта No. 17-06-00107\18, поддержанного РФФИ, протокол 5(202) от 14.03.2018 г.

Библиографический список

1.    Benko V. Aranea: Yet Another Family of (Comparable) WebCorpora // Text, Speech and Dialogue. 17th International Conference, TSD 2014, Brno, Czech Republic, September 8–12, 2014. Proceedings. LNCS 8655. Springer International Publishing Switzerland, 2014. P. 257–264.

2.    Boulton A. Data-Driven Learning: Taking the Computer out of the Equation // Language Learning. 2010. 3. V. 60. P. 534–572.

3.    Finding Terms in Corpora for Many Languages with the Sketch Engine / A. Kilgarriff, M. Jakubíček, V. Kovář, P. Rychlý, V. Suchomel // Proceedings of the Demonstrations at the 14th Conference the European Chapter of the Association for Computational Linguistics. Sweden, April 2014. P. 53–56. URL: https://www.sketchengine.co.uk/wp-content/uploads/Finding_Terms_2014.pdf.

4.    Herman O., Kovář V. Methods for Detection of Word Usage over Time // VII Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2013. Brno: Tribun EU, 2013. P. 79–85.

5.    Johns T. Should You Be Persuaded: Two Samples of Data-Driven Learning Materials // English Language Research Journal, 4, 1991. P. 1–16.

6.    Rychlý P. M. Bonito – A Modular Corpus Manager. In 1st Workshop on Recent Advances in Slavonic Natural Language Processing. Brno: Masaryk University, 2007. P. 65–70.

7.    The Sketch Engine / A. Kilgarriff, P. Rychlý, P. Smrž, D. Tugwell // Proceedings of the XI EURALEX International Congress. Lorient: Universite de Bretagne-Sud, 2004. P. 105–116. URL: https://www.sketchengine.co.uk/wp-content/uploads/The_Sketch_Engine_2004.pdf.

8.    The Sketch Engine: Ten Years On / A. Kilgarriff, V. Baisa, J. Bušta, M. Jakubíček, V. Kovář, J. Michelfeit, P. Rychlý, V. Suchomel // Lexicography ASIALEX. 2014. V. 1. P. 7–36. URL: http://link.springer.com/article/10.1007/s40607-014-0009-9.

9.    Thomas J. Discovering English with Sketch Engine: A Corpus-Based Approach to Language Exploration. 2nd ed. Versatile, 2016.

10.  Thomas J. Discovering English with Sketch Engine: Workbook and Glossary. Versatile, 2016.