Михаил Копотев - Введение в корпусную лингвистику

Введение в корпусную лингвистику
Название: Введение в корпусную лингвистику
Автор:
Жанры: Языкознание | Русский язык
Серии: Нет данных
ISBN: Нет данных
Год: 2014
О чем книга "Введение в корпусную лингвистику"

Учебное пособие для студентов филологических и лингвистических специальностей университетов

Пособие содержит основные сведения о корпусной лингвистике – одном из самых популярных разделов современного языкознания, целью которого является создание и использование языковых корпусов в лингвистических исследованиях. В учебнике на доступном уровне рассматриваются основы данной предметной области, перечисляются основные корпуса разных языков, показываются возможности использования методов корпусной лингвистики, а также описан вклад корпусной лингвистики в лингвистическую теорию. Учебник предназначен для студентов филологических и лингвистических факультетов высших учебных заведений. Может быть использовано аспирантами и преподавателями смежных дисциплин.

Автор благодарит The Pygos Group. A HIT Entertainment company за разрешение использовать изображение Пингу и интернет-проект «ПостНаука» за разрешение использовать видеолекцию В. А. Плунгяна.

Бесплатно читать онлайн Введение в корпусную лингвистику


От автора

Вы читаете электронный учебник, который, скорее всего, никогда не будет издан на бумаге. Вероятно, он никогда не будет издан на бумаге. У такого решения есть два преимущества. Во-первых, корпусная лингвистика тесно связана с компьютером, интернетом и электронной обработкой текстов, поэтому она идеально подходит и для электронного формата обучения. Во-вторых, я надеюсь, что купить электронное издание легче и дешевле, чем бумажное. Цена на учебник символическая, примерно столько же вы бы потратили на поездку в книжный магазин. Тем не менее, эта книга не бесплатна: она стоила определенного труда мне и моим помощникам, и ваша поддержка позволит периодически выпускать обновления. Спасибо за то, что купили!

Я бесконечно благодарен моим друзьям и коллегам, помогавшим мне советом и добрым словом: Э. Клышинскому, С. Крылову, А. Кутузову, О. Невзоровой, Л. Пивоваровой, Е. Маркасовой, А. Теснеру, А. Левиту, С. Шарову, Е. Ягуновой… – сожалею, что не могу перечислить всех! Этот учебник не вышел бы в свет без деятельного участия нескольких людей. Моя безграничная признательность – профессору Хельсинкского университета Арто Мустайоки за его содержательные комментарии, а также за финансовую поддержку издания в рамках гранта «Создание частотной грамматики русского языка». Мой смиренный поклон Ольге Митрениной, доценту кафедры математической лингвистики Санкт-Петербургского университета, согласившейся стать вторым рецензентом и нещадно критиковавшей меня как за незнание предмета, так и за незнание правил русского языка. Моя благодарность Дарье Кормачёвой, моей аспирантке, выпускнице той же петербургской кафедры, за то, что она собрала библиографию, подготовила словарь и убедилась, что все задания выполнимы. Наконец, я благодарен двум людям, превратившим текст в книгу: редактору, сотруднику Института русского языка им. В. В. Виноградова Наталии Занегиной, убравшей все неточности, повторы и ошибки, и художнице Марии Заборовской, лаконично и ясно визуализировавшей мои многословные объяснения. Спасибо вам!

Естественно, все не замеченные ими ошибки остаются на моей совести, с которой можно связаться по адресу: [email protected].

Предисловие

Корпусная лингвистика – это лингвистика корпусов, то есть собраний текстов. Для начала такого «определения» вполне достаточно. Такое направление лингвистики существует чуть более полувека, а в России это, по сути, наука XXI века: ее активное развитие пришлось на самое начало третьего тысячелетия.

О «молодости» этой дисциплины говорит, в частности, неустойчивость ударения и морфологических форм самого термина корпус и его производных: кóрпусы – корпусá, кóрпусная – корпуснáя. По моим наблюдениям, в устной речи специалисты по корпусной лингвистике предпочитают говорить корпусá, корпуснáя. Письменная норма менее стабильна: в пяти русскоязычных сборниках по корпусной лингвистике встретилось 24 формы корпуса и 27 – корпусы.

Говоря о корпусной лингвистике, следует иметь в виду два ее направления:

● создание корпусов,

● корпусные исследования, то есть исследование языка с помощью корпусных методов.


Четкой границы между ними не существует, и практически все создатели корпусов проводят в то же время и собственно лингвистические исследования. В целом, корпусная лингвистика в первом значении более технологична и предполагает совместную работу лингвистов и специалистов по компьютерным технологиям. Это не столько теоретическое направление лингвистики, сколько технология. Корпусная лингвистика во втором значении – дело лингвистов, в том числе и специалистов по статистической обработке языка. Говоря о корпусной лингвистике, часто имеют в виду второе значение (‘корпусные исследования’), но необходимо помнить, что без первого в принципе не существовало бы и второго. В настоящем учебнике речь пойдет обо всех составляющих корпусной работы.

Главная задача учебника – введение в новую тему, многогранную и динамичную. Я старался построить его не как путеводитель по корпусам и программам (хотя ссылок в нем немало), а как рассказ об общих особенностях этого направления современной лингвистики. Идеальный читатель этого учебника – студент-филолог, который уже прослушал курсы по грамматике и еще не успел забыть школьную математику. Я строил этот учебник так, чтобы не перегрузить его сложным материалом, но совсем обойтись без сложностей (особенно математических) невозможно. В этой книге я рассмотрю следующие темы:

● определение и особенности языкового корпуса;

● история создания и классификация корпусов;

● различные виды корпусной разметки;

● одноязычные и многоязычные корпуса;

● интернет как корпус;

● создание собственного корпуса;

● количественные методы в корпусных исследованиях;

● вклад корпусной лингвистики в общую теорию языка.

Каждая глава сопровождается списком литературы и заданиями, позволяющими закрепить навыки или расширить представление о темах, обсуждаемых в соответствующей главе. Зведочкой (*) помечены задания повышенной сложности и задания для дискуссии.

Ниже приведен список англоязычных книг, которые я рекомендую для дополнительного чтения. Первые четыре – это современные учебники и словарь терминов; четыре последние – статьи и монографии, успевшие стать классическими за недолгую историю нашей дисциплины.

1. Biber D., Conrad S., Reppen R. Corpus linguistics: Investigating language structure and use. Cambridge University Press, 1998.

2. McEnery T., Hardie A. Corpus linguistics: method, theory and practice. Cambridge University Press, 2011.

3. Xiao R., Tono Y. Corpus-based language studies: An advanced resource book. Taylor & Francis, 2006.

4. Baker P., Hardie A., McEnery T. A glossary of corpus linguistics. Edinburgh: Edinburgh University Press, 2006.

5. Sampson G., McCarthy D. (ed.). Corpus linguistics: readings in a widening discipline. Continuum: International Publishing Group, 2005.

6. Sinclair J. Corpus, concordance, collocation. Oxford University Press, 1991.

7. Stubbs M. Text and corpus analysis: Computer-assisted studies of language and culture. Oxford: Blackwell, 1996.

8. Tognini-Bonelli E. Corpus linguistics at work. John Benjamins, 2001.

Глава 1. Что такое корпус?


Латинское слово corpus значит «тело, туловище, единое целое». Несколько лет назад я участвовал в конференции по корпусной лингвистике, которая проходила в помещении бывшего анатомического театра. Первый же докладчик, вспомнив картину Рембрандта «Урок анатомии доктора Тульпа», отметил символичность места: корпусной лингвист тоже работает с корпусом, препарируя его с помощью специальных инструментов. Добавлю, что традиция открытого для широкой публики доступа к


С этой книгой читают
Монография посвящена историографическому анализу с позиций современной лингвистики научного наследия Женевской школы – одного из ведущих направлений языкознания XX века, оказавшего значительное влияние на развитие науки о языке и не утратившему свою значимость. Дается всесторонняя оценка научного наследия Женевской школы, определено ее место в истории языкознания, установлены объединяющие начала, дающие основание признать эту школу самостоятельны
Основным предметом исследования в книге стал конфликт натуры и культуры – главное содержание, смысловой и концептуальный центр всей мировой художественной культуры.Классическая русская литература XIX века является фрагментом мировой литературы, – правда, неординарным, выдающимся фрагментом. По этому моменту целого как ни по какому другому легко судить о целом. Предлагаемая методология целостного анализа (произведения, творчества, направления, эпо
Мастера, озабоченные репутацией своего «священного ремесла», отдают себе отчет: допустить критическое отношение – значит ослабить и развеять чары, вывернуть комической изнанкой поэтический экстаз. Вот почему поэты всех мастей склонны кучковаться, культивировать дух сектантства, избранничества, выделенности и богоотмеченности. Поэты – это светские священники, идеологи самой человеческой идеологии: жизнелюбия. Поэзия как антипод бизнеса «оживляет»
Из дневника Булгакова: «Около двух месяцев я уже живу в Обуховом переулке в двух шагах от квартиры К., с которой у меня связаны такие важные, такие прекрасные воспоминания моей юности…» Кто такая эта загадочная К., булгаковеды до сей поры не разгадали. Литературное расследование автора посвящено разгадке личности таинственной дамы, в которую был безнадежно влюблен М.А. Булгаков.Помимо истории о несчастной любви известного писателя к очаровательно
В этом «перпендикулярном» мире русских считают даже не рабами, а рабочим скотом и подопытными животными. В этой бесчеловечной реальности Великобритания правит не только морями, а всем миром, установив в оккупированной России жесточайший колониальный режим, по сравнению с которым меркнут даже зверства гитлеровцев.Оказавшись здесь, в изувеченном теле русского раба, выброшенного на свалку после очередного медицинского эксперимента, наш соотечественн
Новый фантастический боевик от автора бестселлера «Атаман из будущего»! Провалившись в XVII век, наш современник переписывает прошлое «огнем и мечом» и казачьей саблей! Пришпоренная «прогрессором», история несется вскачь, казаки становятся хозяевами Черного моря, а гетман Хмельницкий – одним из сильнейших государей Европы. Разгромив степняков, разорив побережье Османской империи и предав огню Стамбул, казачье войско идет войной на ненавистную Пол
Это сатирический роман с элементами политического детектива. В жизни главного героя, образ которого автор в какой-то степени, не без доли самоиронии, писал с самого себя, вдруг ни с того и ни с сего стали происходить странные события. Откуда ни возьмись появился благодетель, который стал осыпать его подарками – то новая квартира в элитном доме, то что-нибудь ещё. Тут самое время поверить в чудеса, однако научное образование не позволяет. А вслед
Сюжет этого рассказа мы придумали вместе с моими подписчиками в Инстаграме*. Каждый день я проводила опросы у себя в сторис, и они выбирали, как будет развиваться история.И так в декабре появился этот рассказ о том, как два незнакомца встретились в больнице накануне Нового года. У одного в кармане куртки была фотография девушки, а у второго – счастливый билет на трамвай.Что между ними общего, кроме обиды на родителей и нелюбви к больничному кофе?