Корпусная лингвистика

Корпусная лингвистика — одно из наиболее перспективных направлений в современной теоретической и прикладной лингвистике, основанное на использовании языковых электронных корпусов и корпусных технологий.

Корпусом языка называется собрание текстов на данном языке в электронной форме, специальным образом обработанное («аннотированное»), так, чтобы исследователь языка мог быстро и в полном объеме найти в корпусе интересующую его информацию о языке. В зависимости от характера аннотации, возможен поиск по грамматическим характеристикам слов и предложений языка (морфологическим, синтаксическим, семантическим параметрам), а также по разнообразным характеристикам самих текстов, входящих в корпус: по автору, дате создания текста, жанру, тематике и т.п.

Чем богаче и разнообразнее аннотация – и чем больше число текстов, входящих в корпус, – тем более ценным инструментом для лингвистических исследований становится корпус. Наиболее ценным и наиболее часто используемым типом корпуса является так называемый «национальный корпус», под которым понимается максимально представительное собрание всех типов текстов, имеющихся на данном языке в определенную эпоху – как литературно-художественных, так и научно-публицистических, как письменных, так и устных, как нормативных (стандартных), так и представляющих различные диалектные и социальные варианты языка, и т.п.

Объем такого корпуса достигает сотен миллионов словоупотреблений, а в последнее время не редкостью становятся и корпуса, объем которых превышает миллиард словоупотреблений. В то же время для малоизученного (и в особенности бесписьменного) языка крайне ценным может являться и корпус в несколько сотен или даже десятков тысяч словоупотреблений – при условии, что он снабжен лингвистически корректной аннотацией.

В мировой науке первые корпуса стали возникать практически одновременно с внедрением компьютерных технологий в гуманитарные исследования, однако массовый рост корпусных исследований и создания новых корпусов приходится на период конца 1980-середины 1990 гг. Именно в это время появляются крупные национальные корпуса английского, итальянского, финского, чешского и ряда других языков (преимущественно, европейских).

И именно в это время в теоретическую лингвистику приходит осознание того, что представительный корпус не просто является очень мощным средством поиска примеров в текстах – он должен рассматриваться как принципиально новый инструмент, применение которого приводит к революционным (и не до конца еще осознанным) результатам в исследовании языка.

3 стр., 1336 слов

«Мой родной язык» — примеры текстов

... что правительство стремится обучить каждого этому сложному предмету. Тема для сочинения «Мой родной язык — русский» считается одной из наиболее популярных, каждый школьник писал подобное. Некоторые осознают важность и ... предполагающий написание собственной азбуки для народа. Она должна была помочь людям писать тексты молитв, дети в начальной школе могли бы учиться более эффективно и быстро. ...

Дело в том, что только корпус позволяет в реальном времени получать результаты, требующие обработки таких массивов текстов, с которыми обычный исследователь справиться просто не в состоянии: для получения тех же данных вручную (например, путем простого просмотра текстов и выписывания примеров на карточки, как это происходило в докомпьютерную эпоху) могут потребоваться месяцы и даже годы. Таким образом, корпус не просто позволяет ускорить исследования языка и многократно повысить их эффективность, достоверность и проверяемость – он позволяет решать такие задачи, которые лингвистика предыдущих эпох практически не ставила в силу их трудоемкости или невыполнимости. К таким задачам относятся, например, многие виды статистических и других квантитативных исследований языка (частично делавшиеся и в докорпусную эпоху, но бурно развивающиеся именно в последнее время) или задачи, связанные с мониторингом языковых изменений и описанием их механизмов: как известно, любой язык находится в процессе постоянного, но медленного изменения, результаты которого обычно становятся заметны лишь в масштабе нескольких столетий.

Понимание механизмов таких изменений (плохо изученных в настоящее время), по мнению многих специалистов, могут дать принципиально новые знания о природе естественного языка в целом – а исследования в этой области наиболее эффективны с использованием так называемых исторических, или диахронических, корпусов, в которых собраны тексты на данном языке, созданные за большой промежуток времени (не менее, чем пять-семь столетий).

Не менее революционную роль, чем для теоретической лингвистики, электронные корпуса играют и для развития прикладных исследований, служа для них основным проводником инновационных технологий и средством ускоренной модернизации. Как известно, прикладные лингвистические технологии в современном мире используются везде, где требуется извлечь информацию из большого массива данных на естественном языке. В этой очень обширной области корпуса оказываются незаменимы – именно на основе корпусов создаются практически все современные системы информационного поиска – прежде всего, в интернете – и автоматического извлечения информации, автоматического анализа структуры текста, автоматического перевода (с использованием так называемых параллельных корпусов на нескольких языках), автоматического распознавания речи (с использованием корпусов звучащей речи) и решается множество других задач.

Таким образом, не будет ни малейшим преувеличением сказать, что создание, развитие и использование электронных корпусов – это одно из наиболее передовых направлений современной лингвистики; именно в рамках этого направления наиболее вероятны инновационные результаты как в области теоретической лингвистики (получение новых знаний об устройстве языка), так и в области прикладной лингвистики (получение технологий нового поколения для автоматической обработки текстов и ускоренная модернизация методов лингвистических исследований).

4 стр., 1981 слов

По тексту паустовского язык и природа

... хорошо чувствую живой мир, окру­жающий меня. Related posts: Сочинение по тексту паустовского язык и природа Рисуя ветку, надо слышать, как свистит ветер. Единой ... образы, но и показать эмоциональное отношение автора к теме текста). III. Формулируем проблему текста. –Что такое проблема текста? (Это сложный вопрос, требующий разрешения, исследования) Напомним композицию сочинения: -Перед нами текст ...

Основные достижения российских коллективов – участников программы «Корпусная лингвистика» отражены

  • В. А. Плунгян (ред.).

    Национальный корпус русского языка: 2003—2005 . М., 2005.

  • Н. Р. Добрушина (ред.).

    Национальный корпус русского языка и проблемы гуманитарного образования . М., 2007.

  • В. А. Плунгян. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении , 2008, № 16 (2).

  • А. В. Архипов, М. А. Даниэль, А. Е. Кибрик (ред.).

    Малые языки и традиции: существование на грани . М., 2008.

  • М. А. Даниэль, Д. В. Левонян, В. А. Плунгян, А. Е. Поляков, С. А. Рубаков, В. Г. Хуршудян. Восточноармянский национальный корпус // Армянский гуманитарный вестник , 2009, 2.
  • В. А. Плунгян, Е. В. Рахилина, Т. И. Резникова (ред.).

    Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы . СПб., 2009.

  • К. Л. Киселева, В. А. Плунгян, Е. В. Рахилина, С. Г. Татевосов (ред.) Корпусные исследования по русской грамматике . М., 2009.
  • В. И. Подлесская, А. А. Кибрик (ред.).

    Рассказы о сновидениях. Корпусное исследование устного русского дискурса. М., 2009. [10]

I. Общие понятия корпусной лингвистики.

Корпус текстов — это сделанная по определенным правилам выборка из проблемной области. В разных источниках понятие «корпуса текстов» определяется по-разному, как, например, «некоторый филологический объект, организованное словесное множество, элементами которого являются определённым образом отобранные тексты» или «организованное определённым образом словесное единство, элементами которого являются тексты или специальным образом отобранные отрывки из текстов». Иными словами, под корпусом текстов понимается большой, структурированный и обработанный специальным образом массив языковых данных конечного размера, предназначенный для решения различных лингвистических задач. Все тексты, входящие в массив объединены некоторым логическим замыслом, логической идеей [7].

Единица хранения — это некоторая совокупность естественно-языковых выражений проблемной области, которой сопоставляется одно описание на некотором метаязыке, определяемом процедурой формирования корпуса. У. Френсис, обсуждая размеры «базовых единиц» корпуса, отмечает, что это могут быть отдельные слова, короткие фразы, предложения, словосочетания (синтагмы).

Если корпус предполагается для синтаксического анализа, то он должен включать целые тексты или их достаточно большие фрагменты [9].

Важнейшее понятие корпусной лингвистики — репрезентативность. Под репрезентативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.п.

Размер корпуса. Термин «корпус» обычно обозначает собрание текстов конечного фиксированного размера. С течением времени объем и состав корпуса может меняться, однако эти изменения должны или не менять его репрезентативность, или менять обоснованно. Объем первых корпусов составлял 1 млн словоупотреблений (Брауновский корпус, Уппсальский корпус русского языка).

3 стр., 1374 слов

Литература 6 класс Пушкин. Александр Пушкин Зимнее утро, текст, ...

С. Пушкин показать в своем стихотворении? 2) Какова основная идея и тема стихотворения? 3) Каким настроением проникнуто «Зимнее утро»? ... и необыкновенная красота природы, которая окружает человека в зимнее время. композиция стихотворения «Зимнее утро» У стихотворения – классическая композиция, которая требует подробного анализа. ... выразительность, чувства, а также явления, понятия и передачи мысли. ...

В настоящее время считается, что объем общеязыкового корпуса должен быть не меньше 100 млн словоупотреблений.

Разметка. Для решения различных лингвистических задач мало лишь наличия массива текстов. Требуется также, чтобы тексты содержали в себе явным образом разного рода дополнительную лингвистическую и экстралингвистическую информацию. Разметка заключается в приписывании текстам и их компонентам специальных меток: внешних, экстралингвистических (сведения об авторе и сведения о тексте – метаразметка), структурных (глава, абзац, предложение, словоформа) и собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста. Среди лингвистических типов разметки выделяются:

  • морфологическая разметка. В иностранной терминологии употребляется термин part-of-speech tagging (POS-tagging), дословно — частеречная разметка. В действительности морфологические метки включают не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи. Это основной тип разметки: во-первых, большинство крупных корпусов являются как раз морфологически размеченными корпусами, во-вторых, морфологический анализ рассматривается как основа для дальнейших форм анализа — синтаксического и семантического, и, в-третьих, успехи в компьютерной морфологии позволяют автоматически размечать корпусы больших размеров;
  • синтаксическая разметка, являющаяся результатом синтаксического анализа, или парсинга (англ.

parsing), выполняемого на основе данных морфологического анализа. Этот вид разметки описывает синтаксические связи между лексическими единицами и различные синтаксические конструкции (например, придаточное предложение, глагольное словосочетание и т.п.);

  • семантическая разметка. Хотя для семантики нет единой семантической теории, чаще всего семантические тэги обозначают семантические категории, к которым относится данное слово или словосочетание, и более узкие подкатегории, специфицирующие его значение;
  • анафорическая разметка. Фиксирует референтные связи, например, местоименные;

— просодическая разметка. В просодических корпусах применяются метки, описывающие ударение и интонацию. В корпусах устной разговорной речи просодическая разметка часто сопровождается так называемой дискурсной разметкой, которая служит для обозначения пауз, повторов, оговорок, и т.д. [4, 6].

Существуют и другие типы разметки:

— автоматическая разметка. Фактически, корпус в его современном понимании — это всегда компьютерная база данных, и в процессе его создания естественно использование специальных программ. Если для некоторых видов разметки, в частности анафорической, просодической, создание автоматических систем пока представляется довольно сложным и основная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers).

В результате работы программ автоматического морфологического анализа каждой лексической единице приписываются грамматические характеристики, включая часть речи, лемму (нормальную форму) и набор граммем (например, род, число, падеж, одушевленность/ неодушевленность, переходность/нереходность и т.п.).

8 стр., 3507 слов

Интеллектуальный анализ данных. Классификация и регрессия

... основой для построения системы анализа данных. 1. Что такое Data Mining аналитический кластеризация данные Современный компьютерный термин Data Mining переводится как «интеллектуальный анализ данных» или «добыча данных». Нередко наряду с Data ...

В результате работы программ автоматического синтаксического анализа фиксируются синтаксические связи между словами и словосочетаниями, а синтаксическим единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т.п.) [1].

— исправление ошибок и снятие неоднозначности. Однако автоматический анализ естественного языка небезошибочен и многозначен — он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения).

В этом случае говорят о грамматической омонимии. Снятие неоднозначности (морфологической, синтаксической) в целом является одной из важнейших и сложнейших задач компьютерной лингвистики. При создании корпусов для снятия неоднозначности используются автоматические и ручные способы. Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются принципы разработки систем, которые бы минимизировали вмешательство человека.

-форматы данных и стандартизация. Корпусы, как правило, предназначены для многократного использования многими пользователями, соответственно, и их разметка, и их программное обеспечение должны быть определенным образом унифицированы. Что касается разметки, то как лингвистическая, так и экстралингвистическая разметка должны базироваться на некоторых достаточно широко распространенных и принятых принципах описания текстов и языковых единиц. Параметры разметки и их значения должны быть достаточно «естественными», т.е. должны соответствовать общепринятым научным классификациям. Что касается программного обеспечения, то оно должно поддерживать обработку типовых запросов и решение типовых задач. Большое значение имеет унификация форматов, как их наполнения, так и структуры. Единые форматы представления данных позволяют во многих случаях использовать единое программное обеспечение и обмениваться корпусными данными. Стандартизация в отношении корпусов, совместимость типов данных важны и с точки зрения сравнимости разных корпусов. Вопросы оценки корпусов, их пригодности к различным заданиям также требуют своих «стандартов оценки».