Классификация текстов по функциональным стилям речи

C точки зрения обработки текстов, стиль текста характеризует цель, для которой текст написан. В русском языке существуют следующие функциональные стили речи: разговорный, художественный, газетный, научный и официально-деловой. В данной работе рассматривается точка зрения, согласно которой каждый текст относится к одному стилю языка [1], поэтому представляется возможным производить классификацию текстов по стилям.

Задача классификации текстов по стилям связана со многими другими задачами анализа текстов. Выявление стиля текста является очень полезным для приложений, основанных на обработке текстов. Например, если стиль каждого документа известен априорно, информационные результаты поиска будут лучше представлены пользователю, в зависимости от его предпочтений [2].

То есть если пользователь ищет в базе документов слово «футбол», то результатом его запроса будут документы, в которых встречается ключевое слово «футбол». Если же указать стиль документа, который нужно найти, то результаты будут другими. Например, если указать научный стиль, то пользователь в результате получит документы, содержащие определение слова «футбол» или правила игры в футбол, если же указать разговорный, то документы, содержащие переписки людей о футболе на форумах или блогах, если же указать газетный, то газетные статьи о футболе.

Классификация по стилям также приобретает все большее значение для задач обработки естественного языка, например, при разметке частей речи, разборе текста, переводе (из-за потенциально больших различий в языке, связанных со стилем) и при устранении лексической многозначности, так как некоторые грамматические конструкции и смысловые оттенки слова связаны со стилем текста. Исследования, проведенные в статье [3], показали, что модели, зависящие от стилей, приводят к повышению производительности на рассмотренных выше задачах. Кроме того, стиль текста используется при реферировании текстов [4].

Для каждого стиля разрабатывается собственный сценарий реферирования, позволяющий учитывать такие параметры как распределение важности предложений внутри текста, применимость модуля синтаксического анализа и т.д. Отличительной чертой и главной особенностью метода реферирования, учитывающего стили, является гибкая настройка на стиль реферируемого текста, что приводит к улучшению работы метода [4].

Одной из областей, где стиль особенно важен, является распознавания речи. Несоответствие стиля учебных и тестовых данных может показать результаты хуже, нежели обучать модель, учитывая стили текстов [2].

3 стр., 1293 слов

Сочинение по тексту грина когда скоков

... текст (не по данному тексту), не оценивается. Если сочинение представляет собой пересказанный или полностью переписанный исходный текст ... после долгого колебания, Скоков решил произвести репетицию: ... земным раем. (по А.С. Грину*) * Александр Степанович Грин (настоящая фамилия ... по исходному тексту или указана с помощью ссылок на номера предложений в тексте. ... последствия ситуации, когда человек делает ...

В веб-приложениях определение стиля упрощает работу врапперам (wrapper), которые пытаются извлечь определенную информацию из полуструктурированных данных [2].

Далее подробно описываются стили русского языка. Функциональные стили речи в русском языке делятся на:

  • Публицистический (газетный);
  • Художественный;
  • Научный;
  • Официально-деловой;

— Разговорный. Каждый стиль обслуживает разные общественные отношения и имеет собственную сферу применения. Стили текста характеризуются определенными средствами: словами, их формами, типами предложений, словосочетаниями. Книжные стили: Научный стиль. Он применяется в различных научных трудах, учебниках, выступлениях на научные темы. Его главной задачей является четкое сообщение информации с использованием аргументации. Применяется в официальной обстановке [5].

Официально-деловой стиль. Используется в сфере деловых отношений, законах, документах, служебных переписках. Задача этого стиля похожа на задачу научного — сообщить информацию, дать инструкцию [5].

Публицистический (газетный) стиль. Применяется в средствах массовой информации, критической литературе, на различного рода митингах. Главная задача в отличие от предыдущих двух стилей — это воздействие на массовое сознание посредством общественно значимой информации [5].

Художественный стиль используется в художественных произведениях, литературе. Основные задачи – описать происходящее словами, выразить отношение к этому, воздействовать на чувства читателя. Эти задачи существенно отличаются от задач стилей, рассмотренных ранее [5].

Разговорный стиль:

Разговорный стиль противопоставлен книжным. Он используется в обычных беседах, в неофициальной обстановке. Основная форма существования – устная, но может быть осуществлен и в письменной форме. Главными задачами этого стиля являются общение и обмена впечатлениями [5].

В английском языке существует аналогичное понятие, называемое «жанр» (genre) или «регистр» (register).

В русском языке слово «жанр» имеет несколько значений. «Литературный жанр» определяется как исторически сложившаяся группа литературных произведений, объединенных совокупностью формальных и содержательных свойств. «Речевой жанр» определяется как совокупность речевых произведений (текстов или высказываний), речевых актов, объединенных целевыми установками высказывания. В английском языке существуют следующие жанры: редакторский, репортерский, художественный, разговорный, технический и др. Данные жанры можно сопоставить стилям русского языка (редакторский жанр – научный стиль, репортерский жанр – газетный стиль и т.д.) поэтому в данном курсовом проекте для английского языка будут рассматриваться те же стили, что и для русского языка, то есть английские тексты будут также классифицироваться по пяти стилям.

1. Постановка задачи

Целью данной работы является исследование и разработка метода классификации текстов по газетному, художественному, научному, официальноделовому и разговорному стилям русского языка, а также проверка данного метода для английского языка с теми же стилями. Для достижения поставленной цели необходимо: 1. Исследовать существующие методы классификации текстов по стилям 2. Разработать метод классификации текстов по стилям для русского языка 3. Реализовать разработанный метод 4. Подготовить данные и произвести оценку качества полученного метода для

10 стр., 4850 слов

По учебной дисциплине Стилистика русского языка и культура речи ...

... и речевой культурой общества и отдельного человека. Важнейшей категорией стилистики являются функциональные стили — разновидности литературной речи (литературного языка), обслуживающие различные стороны общественной жизни. Целью данной работы является изучение функциональных стилей русского языка. Задача, ... речи (для каждого стиля характерно употребление определённых жанров: для научного - реферат, ...

русского и английского языков

2. Обзор существующих решений

На данный момент существуют различные подходы к решению задачи классификации текстов по функциональным стилям речи. Рассмотренные методы применимы как для русского языка, так и для английского языка. Самыми лучшими методами для данной задачи являются методы, основанные на машинном обучении. Они делятся на две группы, которые используют разные особенности текста в качестве вектора признаков: методы, основанные на частоте появления слов и методы, основанные на лингвистическом анализе. Методы, использующие машинное обучение:

 Методы, основанные на частоте появления слов

 Методы, основанные на лингвистическом анализе

Рассматриваются существующие решения поставленной задачи для английского и русского языков.

2.1. Методы, основанные на частоте появления слов

Данные методы, используют частоты появления предопределенных слов, список которых получается несколькими способами (какими именно описано ниже).

Главное определение, на котором основаны методы из этой группы: TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова ???????? , в пределах отдельного документа.

????????

????????(????, ????) =

∑???? ???????? где ???????? есть число вхождений слова в документ, а в знаменателе — общее число слов в данном документе. [6]

2.1.1. Методы, основанные только на частоте появления слов

В данных методах рассматриваются следующие жанры английского языка: репортерский, редакторский, технические документы, обзоры критиков, личные записи, форумы.

Большинство методов решения задачи классификации текстов по жанрам (стилям), считают эту задачу замкнутым множеством классификации (то есть каждому тексту должен быть назначен хотя бы один заранее определенный жанр).

Однако Притсос (D. Pritsos) в статье [8] показывает, что в крупномасштабных информационных системах, эта задача может быть определена только в качестве открыто поставленной (текст может быть вообще не назначен к какому-то из предопределенных жанров), так как предопределённые жанры не могут охватывать все жанры, встречающиеся в огромном корпусе. Кроме того, веб-страницы развиваются и не представляется возможным определить полный набор жанров на длительное время. С другой стороны, потенциально можно иметь очень много положительных примеров для данного жанра, но трудно или даже невозможно составить набор отрицательных примеров, который представляет широкую характеристику того, что не принадлежит к конкретному жанру.

Исходя из выше сказанного, Притсос предлагает методы классификации веб-страниц по жанрам, определенные как открыто поставленные задачи классификации. Было рассмотрено два таких метода: One-class SVM и «Метод случайных признаков групп» (Random Feature Subspacing Ensemble RFSE).

One-class SVM. Для каждого жанра по тренировочной выборке строится одна модель, основанная только на положительных примерах и использующая в качестве признаков TF-вектора (определение дано выше).

20 стр., 9777 слов

По основам творческой деятельности журналиста «Жанр интервью ...

... жанра, политической ситуации в стране и от многих других лингвистических и экстралингвистических факторов. Изучение терминологии – будет второй целью этой работы. Третья цель данного исследования - выявить классификацию интервью ... Жанр интервью, зародившись задолго до появления печатных и тем более электронных СМИ, пережил огромное количество и взлетов и падений. Прообразы современного интервью ... слово. ...

«Метод случайных признаков групп» (RFSE).

Данный метод изначально был предложен для определения автора текста — задачи, которая имеет много общего с задачей классификации по стилям (жанрам).

Этот алгоритм основан на трех параметрах: количество итераций (????1 ), количество признаков, используемых на каждой итерации (????2 ), процент для жанра, необходимый для конечного решения (????).

По тренировочным данным для каждого жанра строится центрированный вектор (путем усреднения всех TF-векторов) [8].

Затем повторяется ????1 раз: случайно выбирается ????2 , и ищется наиболее подходящий центрированный вектор жанра. Для каждого жанра считается процент: сколько раз был выбран его центрированный вектор от общего числа. Если полученный процент больше ????, то в качестве ответа выбирается этот жанр, иначе жанр не определяется.

Результаты показали, что второй метод производит классификацию лучше. (разница около 5%).

Итоговая точность классификации ~ 90-98% (зависит от релевантности) [8].

2.1.2. Метод, основанный на дискриминантном анализе и частоте появления слов Стамататос (E. Stamatatos) в статье [7] предлагает метод, который основан на частоте появления слов из определенного списка и наиболее распространенных знаков препинания, а также на дискриминантном анализе (определение дано ниже).

Список слов получается либо из корпуса языка, либо из тренировочных данных (набор текстов, стиль которых заранее известен).

Сначала тексты классифицируются по частоте появление предопределенных слов, а затем по частоте появления знаков препинания.

Авторы метода берут тестовые и тренировочные данные из Wall Street Journal, а корпус из British National Corpus. Список наиболее встречаемых слов получается одним из следующих способов: 1) Путем анализа корпуса BNC (он был проведен ранее, и список этих слов

уже известен) 2) Путем использования тренировочной выборки из WSJ для обучения

классификатора (анализируются тексты этой выборки и определяются

наиболее часто встречающиеся в них слова для каждого стиля)

В результате, одним из предложенных способов получается список самых встречаемых слов в языке (изначально набирается 75 таких слов).

Далее программа обучается на тренировочной выборке.

Для автоматической классификации используют «отличительный» анализ (discriminant analysis).

Он основан на том, что на входе ему дается многомерный вектор признаков (в данном случае, частота появления каждого предопределенного слова из списка), и на основе этого вектора с помощью «отличительных» функций определяется группа, к которой относятся входные данные (в данном случае стиль исходного текста) [7].

Для определения наилучшей точности распознавания длина списка варьировалась от 5 до 75 слов, с шагом 5.

Результаты проведенной работы показаны на рисунке 1. Из него видно, что процент ошибок минимальный не при максимальном количестве слов в списке (75), а при среднем (30).

Это связно с тем, что при большом количестве слов в списке модель сильно смещается к тренировочной выборке.

Рисунок 1. Взят из [7], показана

зависимость процента ошибок (по

вертикали) от количества слов в

6 стр., 2951 слов

Слова-паразиты в нашей речи польза и вред. Зарождение речевой паразитологии

... «Это слова и звуки, засоряющие устную речь». Статьи на тему Слова-паразиты в нашей речи польза и вред. О пользе слов-паразитов Существует мнение, что слова-паразиты – обычное явление в речи современных ... СЛОВА – «ПАРАЗИТЫ» В НАШЕЙ РЕЧИ Текст работы размещён без изображений и формул. Полная версия работы доступна во вкладке "Файлы работы" в формате PDF Введение: актуальность, цели, задачи, методы ...

списке предопределённых слов (по

горизонтали), которые получены

путем анализа тренировочных

данных (пунктирная линия) или

взяты из корпуса BNC (сплошная

линия).

Вторым признаком, на основе которого классифицируются тексты, является частота знаков препинания. Выбирается восемь самых часто встречающихся знаков препинания (точка, запятая, двоеточие, точка с запятой, кавычки, скобки, вопросительный знак и тире).

Аналогично первому признаку считается частота появление этих знаков препинания в тексте.

Представленный метод производит классификацию по четырем жанрам текста английского языка (редакционный жанр, письма в редакцию, репортерский жанр и газетный жанр).

Эти жанры можно объединить в две группы по два жанра в каждой (1 группа: редакционный жанр и письма в редакцию, 2 группа: репортерский жанр и газетный жанр).

В результате, первая «отличительная» функция (discriminant function) (связанная с частотой появления слов) определяет в какую группу из двух попадает текст, а вторая «отличительная» функция (связанная с частотой появления знаков препинания), к какому точно стилю из двух оставшихся принадлежит исходный текст [7].

Использование частоты знаков препинания повышает точность классификации. Это показано на рисунке 2.

Рисунок 2. Взят из [7], показана

зависимость процента ошибок (по

вертикали) от количества слов в списке

предопределённых слов (по

горизонтали) для метода, который

основан только на частоте появления

слов (сплошная линия) и метода, на

основе частоты слов и частоты

пунктуации (пунктирная линия).

Итоговая точность классификации с учетом частоты слов и частоты знаков препинания составляет 97%. Е. Стамататос показал, что для хорошей классификации достаточно по 20 и более примеров текстов каждого жанра. Рассмотренный метод имеет очень высокую точность классификации [7].

2.2. Методы, использующие лингвистический анализ

Лингвистический анализ с точки зрения обработки текстов, анализирует обороты речи, части речи, грамматические формы, которые встречаются в тексте [7].

2.2.1. Метод, использующий среднюю длину слов

В данном методе рассматриваются следующие стили русского языка: разговорный, художественный, газетный и научный.

Данный метод использует четыре эмпирические обучающие кривые (для разговорного, художественного, газетного и научного стилей русского языка), которые получены путем анализа большого количества текстов разных стилей речи, см. Рисунок 3. Для каждого стиля считаются сколько процентов от общего числа слов имеют определенную длину. На рисунке 3 по горизонтали отмечены длины слов, а по вертикали процент слов этой длины от общего числа слов.

Рисунок 3. Взят из [9].

Показаны

обучающие кривые для

разговорного, художественного,

газетного и научного стилей

соответственно. По горизонтали

отмечены длины слов, а по

вертикали процент слов этой

длины от общего числа слов.

Затем для исходного текста строят такую же кривую и пытаются приблизить ее к одной из базовой, изменяя независимый параметр (какой именно говорится ниже).

В результате текст имеет тот тип, к кривой которого его кривая ближе. Средняя длина слова чаще всего оказывается довольно близка к этой независимой переменной [9].

17 стр., 8143 слов

Развитие речи учащихся на х русского языка

... словом, понять и почувствовать его, стремиться развивать свою речь, совершенствовать свое речевое творчество. Глава I. Активные формы обучения, новые образовательные технологии как средство развития языковой и коммуникативной компетенции на уроках русского языка. ... С целью развития речи учащихся, критического мышления, исследовательской активности, подбираю задания, в большую часть которых закладываю ...

«Самый упрощенный вариант этого алгоритма ограничивается расчётом средней длины слова. При этом в качестве разделителей разговорной речи, художественной литературы, газетных статей и научно-деловых текстов выступают длины слов в 4.9, 5.9, 6.9 букв соответственно. » [9] Главное преимущество рассмотренного метода – это простота и быстрая реализация. Точность работы упрощенного алгоритма: ~70% Данный алгоритм имеет не самую большую точность, однако его можно использовать в качестве вспомогательного (например, добавив среднюю длину слов в вектор признаков) [9].

2.2.2. Метод, использующий разметку частей речи

В данном методе рассматриваются следующие жанры английского языка: выпуски новостей, беседы, лента новостей, блоги. Фельдман (S. Feldman) в статье [3] предложил метод, который использует гистограммы частей речи (как они строятся описано ниже), включая пунктуацию, поскольку такие метки тема-независимы. Использование гистограмм частей речи также дает синтаксическую информацию о тексте без трудоемкого анализа. Вектор признаков строится согласно алгоритму построения гистограмм, использующим скользящее окно который описан в 3.2. Основная идея алгоритма: дан вектор количества частей речи, по этому вектору проходятся скользящим окном, в результате получаются гистограммы. Для них считаются среднее и стандартное отклонения. Полученные вектора средних значений конкатенируются в один и нормализуются. В данном методе лучшие результаты показало использование квадратичного дискриминантного классификатора. Результаты показали превосходство предложенного метода над методами, основанными на словах и триграммах частей речи. Точность классификации: 98,42%.

2.2.3. Упрощенный метод, использующий разметку частей речи

Ферезис (G. Ferizis) в статье [10] предлагает метод, который использует лингвистический анализ, но не требует расчета разметки частей речи текста, который занимает очень много вычислительных ресурсов. В данном методе рассматриваются жанры английского языка: редакторский, репортерский, научные статьи, разговорная речь. Метод, описанный в статье Ферезиса, избавляет от необходимости разметки частей речи путем аппроксимации некоторых признаков, которые являются критическими для точности классификации (частота появления существительных, причастий, наречий).

Частота появления существительных игнорируется. Частота появления причастий аппроксимируется выбором всех слов с длиной больше 5 букв и заканчивающихся на суффикс –ing. Частота появления наречий аппроксимируется выбором всех слов с длиной больше 4 букв и заканчивающихся на –ly (или же появление предопределенных 50 слов, наиболее встречающихся в тренировочных данных).

Показано, что данный метод классифицирует тексты (для английского языка) с лучшей точностью, чем методы, основанные на частоте слов. Также немного уменьшая точность классификации, данный метод работает в два раза быстрее чем методы, основанные на разметке частей речи. Точность классификации ~ 95% [10].

2.2.4. Метод, основанный на частеречной сочетаемости

В данном методе рассматриваются художественный, газетный и научный стили русского языка. А.Ю. Антонова в статье [11] предложила метод, который классифицирует тексты по стилям на основе частотных характеристик, а именно частотах появление определенных сочетаний частей речи. Рассматривались следующие сочетания: существительное + существительное, глагол + существительное, деепричастие + наречие. 1).

4 стр., 1902 слов

Конспект развития речи по русскому языку. -рассуждение по тексту ...

... темы, в ораторских выступлениях на митингах и собраниях, по радио, телевидению и т.д. Одной из важных особенностей публицистического стиля является сочетание в его рамках двух функций языка ... проблему данного текста. Метод: слово учителя Прием: сообщающее слово учителя С засорением русского языка заимствованиями боролись многие наши писатели. Чтобы у вас был аргументированный текст, запишем ...

существительное + существительное Конструкции данного вида являются морфолого-синтаксической характеристикой научных текстов. Большое количество появления в тексте данной конструкции отличает статические тексты, т.е. тексты, в которых сообщается о некотором положении дел [11].

Результаты экспериментов показаны в Таблице 1.

Стиль текста Появление конструкций сущ. + сущ. Художественный от 1 до 1,7%

Газетный от 18 до 29%

Научный от 35 до 43% Таблица 1. Показаны проценты появления конструкций сущ. + сущ. от общего числа конструкций в текстах художественного, газетного и научного стилей русского языка. Рассматриваемые три стиля русского языка оказались хорошо отделимы по данному параметру. 2).

глагол + существительное Частое появление данной конструкции в тексте характеризует его как динамический текст, т.е. текст, в котором происходит много действий [11].

Результаты экспериментов показаны в Таблице 2.

Стиль текста Появление конструкций гл. + сущ. Художественный от 57 до 58%

Газетный от 31 до 40%

Научный от 20 до 28% Таблица 2. Показаны проценты появления конструкций гл. + сущ. от общего числа конструкций в текстах художественного, газетного и научного стилей русского языка. Рассматриваемые три стиля русского языка также оказались хорошо отделимы по параметру «гл. + сущ.». 3).

деепричастие + наречие Конструкции такого типа встречаются в текста редко, они оценивают «качество действия» в текстах, где акцент сделан на действие [11].

Результаты экспериментов показаны в Таблице 3.

Стиль текста Появление конструкций дееприч. + нар.

Художественный около 0,5%

Газетный от 0,06 до 0,1%

Научный от 0,02 до 0,09% Таблица 3. Показаны проценты появления конструкций дееприч. + нар. от общего числа конструкций в текстах художественного, газетного и научного стилей русского языка.

Художественный стиль оказался отделим по данному параметру, а газетный и научный схожи с точки зрения появления в текстах данной конструкции. В результате для разделения текстов по стилям А.Ю. Антонова выбрала комбинированный параметр ????, который лучше всего отражает соотношение динамичности и статичности текста. Полученный параметр (в числителе динамичность текста, а в знаменателе статичность текста):

#(гл. + сущ. ) + #(гл. + нар. ) + #(дееприч. + сущ. ) + #(дееприч. + нар. ) ????=

#(сущ. + сущ. ) + #(прил. + сущ. ) где # обозначает число появления конструкции в тексте. Результаты экспериментов для комбинированного параметра ???? показаны в Таблице 4:

Стиль текста Комбинированный параметр ????

Художественный от 2,16 до 2,2

Газетный от 0,67 до 0,83

Научный от 0,29 до 0,53 Таблица 4. Показаны значения комбинированного параметра ???? в текстах художественного, газетного и научного стилей русского языка. Художественный, газетный и научный стили оказались хорошо разделимы по комбинированному параметру [11].

3 стр., 1224 слов

Русский язык и культура речи — Актуальные проблемы культуры ...

... Голуб И.Б., Теленкова МЛ. Современный русский язык. — М., 2004. 10. Скворцов Л. И. Теоретические основы культуры речи. М., 2000. 11. Стилистика и культуры речи: Учеб. Пособие /Т.П. Плещенко, ... систематизировать знания о понятии и предпосылках изучения культуры речи. 3. Рассмотреть сущность и специфику проблем культуры речи в современном обществе. 4. Систематизировать и обобщить существующие в ...

Точность метода, предложенного А.Ю. Антоновой в статье [11], не измеряется, но исходя из того, что стили хорошо отделимы по комбинированному параметру, можно утверждать, что метод имеет высокую точность классификации. Однако в данном методе рассматриваются только три стиля русского языка и неизвестно, будут ли разделимы по этому параметру все стили русского языка. 2.3. Выводы

В данном разделе были рассмотрены существующие методы классификации текстов по стилям. Все рассмотренные методы используют машинное обучение, так как оно показывает высокие результаты для данной задачи. Кроме того, рассмотренные методы разделены на две большие группы: методы, использующие частоту появления слов и методы, использующие лингвистический анализ. Методы, основанные на частоте появления слов, имеют высокую точность и не требуют большого количества вычислительных ресурсов. Методы, использующие лингвистический анализ (например, метод, основанный на гистограммах частей речи) также имеют высокую точность, но они требуют больших вычислительных ресурсов для определения частей речи слов.

Для английского языка были найдены методы, основанные только на частоте появления слов, на частоте появления слов и дискриминантном анализе, а также методы на основе лингвистического анализа, а именно на разметке частей речи. Для русского существует метод, основанный на частеречной сочетаемости и метод, основанный на лингвистическом анализе, а именно на средней длине слов в тексте. Исходя из этого, необходимо придумать свой метод для распознавания стилей текста русского языка, основываясь на методах для русского и английского языков, и также проверить реализованный метод на английском языке.

3. Исследование и построение решения задачи

Необходимо предложить новый метод, основанный на рассмотренных методах для русского и английского языков, который будет классифицировать по стилям тексты на русском языке, а также проверить этот метод на английском языке. На основе обзора существующих методов было принято решение реализовывать метод, основанный на машинном обучении, использующий в качестве признаков частоты появления слов и еще некоторые признаки, которые извлекает лингвистический анализ, а именно среднюю длину слов в тексте, гистограммы частей речи и пунктуации, которые строятся согласно алгоритму, описанному в части 3.2. Для полного решения задачи необходимо решить следующие подзадачи:

1. Предварительная обработка текстов

2. Построение вектора признаков

3. Построение модели

4. Экспериментальная оценка полученного метода

3.1. Предварительная обработка На этом этапе необходимо предварительно обработать тексты из тренировочных данных, чтобы слова, которые встречаются в каждом стиле, и разные формы одного и того же слова в дальнейшем не путали классификатор. Предварительная обработка текста, которая заключается в удалении стоп-слов из текстов (т.е. слов, которые не несут абсолютно никакой смысловой нагрузки: цифры, местоимения, предлоги, союзы и т.д. [12]) и лемматизации оставшихся слов (т.е. приведение слова к лемме – его нормальной, словарной форме [13]).

8 стр., 3969 слов

Вводные слова в английском языке, примеры употребления, слова и фразы

... вводными словами Используя вводными выражения говорящий может выразить практически любую свою эмоцию и показать отношение к предмету или объекту. Итак, для чего используются вводные фразы в письмах и в разговоре на английском языке: Для ...

Стоп-слова удаляются тривиальным путем простого обхода слов всего текста. Список стоп-слов берется из [12] для русского языка и из [14] для английского языка. Для лемматизации используется API ISPRAS1. В этом API для английского языка реализован эвристический алгоритм, основанный на морфологических свойствах существительных, а для русского языка используется реализация алгоритма MyStem, основанного на словаре, содержащем для каждого слова нормальную форму и набор возможных суффиксов.

3.2. Построение вектора признаков

В результате полной обработки тренировочных данных, определяется список из ???? наиболее часто встречающихся в текстах слов. Далее для каждого текста строятся TF-вектор длины ???? , т.е. для каждого текста определяются частоты появления предопределенных слов, полученных после обработки тренировочных данных. Данные частоты определяются бинарно, то есть если ????тое слово (???? ∈ ????) встречается в тексте, то на ???? -той позиции вектора ставится 1, иначе 0. Полученный вектор добавляется к итоговому вектору признаков. Затем к итоговому вектору признаков добавляются признаки, основанные на лингвистическом анализе, а именно средняя длина слов, встречающихся в тексте, гистограммы частей речи и пунктуации. Средняя длина слов определяется как отношение суммарной длины слов в тексте к общему количеству слов. Для определения частей речи используется API ISPRAS, в нем применяется алгоритм определения частей речи OpenNLP на основе метода максимальной энтропии Гистограммы частей речи и пунктуации строятся согласно следующему алгоритму, который взят из статьи [3]: https://api.ispras.ru/dev Шаг 1. Разметка частей речи. Документ разбивается на последовательность слов и определяется к какой части речи из ???? (заранее заданное множество частей речи) принадлежит каждое слово. В результате получается последовательность ???? длины ???? = |????|. Шаг 2. Построение гистограмм с помощью скользящего окна. Пусть ???? размер скользящего окна. Для ???? ∈ {1, … , ???? − ???? + 1} вычисляется гистограмма ℎ???? ∈ ???????? , ???????? состоит из векторов вида {???????? , … , ????????+????−1 } . В разработанном методе берется ???? = 4. Шаг 3. Подсчет средних значений гистограмм Пусть ???? = {ℎ1???? , … , ℎ????−????+1 } , а ????(????) ∈ ???????? и ????(????) ∈ ???????? среднее и соответственно стандартное отклонение ???? . Тогда [????(????) ????(????)]???? – ненормализованный вектор признаков. Шаг 4. Нормализация Производится нормализация (используется Евклидова норма) и в результате получается итоговый вектор признаков. Данный алгоритм построение гистограмм необходимо реализовать в рамке курсового проекта. В результате получается итоговый вектор признаков для каждого текста, состоящий из TF-вектора длины ???? , средней длины слов в тексте, а также гистограмм частей речи и пунктуации.

3.3. Построение модели

Далее полученные для каждого текста из тренировочных данных вектора признаков подаются классификатору машинного обучения, а именно Наивному Байесовскому классификатору, Логической регрессии или алгоритму «Random forest». В результате получается обученная модель, которая способна производить разделение текстов по стилям. 3.4. Экспериментальная оценка

3.4.1. Описание тренировочных и тестовых данных

Данные для каждого стиля берутся из источников, которые показаны в следующей таблице 5. Стиль текста Источники для русского Источники для

корпуса английского корпуса научный pamag.ru krugosvet.ru + http://scholar.google.ru/ +

школьные учебники учебники официально- http://www.consultant.ru/ http://fin-lawyer.ru/ деловой http://www.fms.gov.ru/

http://base.garant.ru/ газетный lenta.ru izvestia.ru http://www.theguardian.com/

http://www.thetimes.co.uk художественный lib.ru http://www.gutenberg.org/ разговорный различные форумы, блоги, http://tonail.com, блоги и

сайты с анекдотами форумы Таблица 5. Показаны источники, из которых брались тренировочные и тестовые данные. Для русского и английского языков для газетного стиля был написан краулер (crawler), остальные данные собирались вручную. Количество собранных данных для каждого стиля русского языка – 100. Количество собранных данных для каждого стиля английского языка – 100.

3.4.2. Методика тестирования

Точность работы модели проверяется с помощью метода кросс-валидации (данные разбивались на 10 частей).

Во время тестирования пробовались сочетания разнообразных признаков. Обозначение признаков 1).

Частота появления слов (TF-вектора) — TF 2).

Средняя длина слов – AL 3).

Гистограмма частей речи — POS 4).

Гистограмма пунктуации — PUN

В таблице 6 показы результаты экспериментов.

Точность Точность

классификации классификации Классификатор (лучший для Выбранные признаки

для русского для английского данного набора признаков)

корпуса корпуса

POS 76,5 % 62,48 % Логическая регрессия

PUN 80,72 % 66,60 % Логическая регрессия

AL + POS 81,52 % 70,73 % Логическая регрессия

AL + PUN 85,34 % 79,96 % Логическая регрессия

POS + PUN 87,55 % 78,19 % Логическая регрессия AL + POS + PUN 89,55 % 82,51 % Логическая регрессия TF + AL + POS + PUN 93,17 % 91,15 % Random forest

TF 98,19 % 97,05 % Наивный Байес

TF + AL 98,19 % 97,24 % Наивный Байес TF + AL + POS + PUN 98,39 % 98,82 % Наивный Байес TF + AL + POS 98,59 % 98,24 % Наивный Байес TF + AL + PUN 98,59 % 98,03 % Наивный Байес Таблица 6. Показаны результаты проведенных экспериментов (результаты работы лучшего классификатора с указанием названия).

На Диаграммах 1 и 2 изображены кривые машинного обучения для количества слов в TF-векторах и количества данных для обучения модели.

98

94 Точность

90

86

0 200 400 600 800 1000 1200 1400 1600

Количество слов в TF-векторе

корпус английского языка корпус русского языка

Диаграмма 1. Показана зависимость точности работы модели от количества слов в TF-векторах для русского и английского языков (проверка проводилась методом кросс-валидации)

100

98 Точность

96

94

0 100 200 300 400 500 600

Количество тренировочных данных

корпус английского языка корпус русского языка

Диаграмма 2. Показана зависимость точности работы модели от количества текстов в тренировочных данных для русского и английского языков (проверка проводилась методом кросс-валидации).

3.5. Результаты

Наилучшие результаты для русского языка показал метод, основанный на машинном обучении, использующий в качестве вектора признаков TF-вектора, среднюю длину слов и гистограмму пунктуации, а для английского языка, тот же метод только с добавлением гистограммы частей речи. Эксперименты для русского и английского языков показали, что оптимальное количество слов в TF-векторе – 1000, а для обучения модели достаточно 400 текстов.

4. Описание практической части

4.1. Обоснование выбранного иструментария

Разрабатываемое программное средство, классифицирующее тексты русского и английского языков по стилям (как уже говорилось, для английского языка используются стили русского), реализовано на языке Java, так как это простой для изучения язык с множеством открытых библиотек, которые упрощают разработку программного средства. В качестве библиотеки алгоритмов машинного обучения используется библиотека Weka 2 , которая содержит огромное количество алгоритмов машинного обучения, в том числе Наивный Байесовский классификатор, Логическую регрессию и алгоритм «Random forest». Также для лемматизации и определения частей речи слов используется API ISPRAS3. http://www.cs.waikato.ac.nz/ml/weka/ https://api.ispras.ru/dev

4.2. Общая схема работы

На следующих рисунках изображены схемы алгоритма классификации текстов по стилям и алгоритма обработки тренировочных данных.

Рисунок 4. Общая схема работы программы Рисунок 5. Схема обработки тренировочных данных

4.3. Общая архитектура системы

На рисунке 6 показана диаграмма классов, описывающая общую архитектуру системы.

weka.filters.unsupervised.attribute.StringToWordVector

+setOptions(String)

+setInputFormat(Instances)

FileWorker

+splitWordsFromFile(String): List

weka.classifiers.bayes.NaiveBayes +saveArffFile(Instances, String)

weka.filters.Filter +loadArffFile(String): Instances

+buildClassifier(Instances) +stringFromFile(String): String +useFilter(Instances, StringToWordVector) +classifyInstance(Instance): double +stringToFile(String, String)

RegisterDetector Model

+detectRegister(String)

+useStringToWordVector(Instances): Instances

+deleteUnwantedAttr(Instances): Instances

+makeEvaluation(NaiveBayes, Instances, String language)

+textClassification(int, String)

Classifier

+findTextsStyle(String, String)

Dataset

+Dataset(String)

+POSTagging()

+makeLemmaText(String): String

+makeInstance(): Instance

+createDataset()

+getData(): Instances

Histogram

ru.ispras.modisapi.IModisAPIClient

+normalizeVector(Vector): Vector

+findMeanDeviation(Vector>): Vector +createDocument(String): INLPDocument

+findStandartDeviation(Vector>): Vector

+makeHistogram(int[], int): Vector

ru.ispras.texterra

POSTaggingPipeline LemmatizationPipeline

Рисунок 6. Общая архитектура системы. Класс RegisterDetector является основным классом, который координирует работу всей программы. Класс Model позволяет произвести обучение модели или загрузку ранее созданной модели. Класс Classifier использует модель, построенную классом Model, и производит классификацию входных текстов по стилям, а также проверяет точность классификации методом кросс-валидации. Класс Dataset обрабатывает тренировочные данные и извлекает из них необходимые признаки. Вспомогательный класс Histogram используется для построения гистограмм частей речи и пунктуации. Класс IModisAPIClient отвечает за подключение программы к серверу ISPRAS. Классы POSTaggingPipeline и LemmatizationPipeline отвечают за разметку частей речи текста и за определение лемм слов в тексте. Вспомогательный класс FileWorker используется для работы с файлами, в частности для чтения и записи .arff файлов. Класс Filter используется для применения фильтра StringToWordVector, который строит TF-вектора по данному тексту. Класс NaiveBayes реализует Наивный Байесовский классификатор, который используется в программе для построения модели.

4.4. Характеристики функционирования

4.4.1. Производительность

Тестирование проводилось на коллекциях по 500 текстов для русского и английского языков. Каждый текст в среднем занимает 5 килобайт. Было произведено 2 тестовых запуска распознавания стиля 50 текстов для русского и английского языков. Конфигурация тестового оборудования: Intel Pentium Dual (2 CPU) 2.16GHz, 2048 Mb RAM Результаты для русского языка: Время обучения модели на 500 текстах (в минутах): 25 Время классификации 50 текстов (в минутах): 3,5 Среднее время классификации одного текста (в секундах): 4 Большую часть вычислительных ресурсов занимают запросы к API ISPRAS. Среднее время классификации одного текста без запроса к API ISPRAS (в миллисекундах): 373

Результаты для английского языка: Время обучения модели на 500 текстах (в минутах): 23 Время классификации 50 текстов (в минутах): 3,1 Среднее время классификации одного текста (в секундах): 3,7 Среднее время классификации одного текста без запроса к API ISPRAS (в миллисекундах): 277

4.4.2. Сложность

Этапы предварительной обработки, а именно удаление стоп-слов и лемматизация, имеют сложность ????(????) , где ???? – число слов тексте, так как требуется один проход по словам текста.

Следующие этапы: определение средней длины слов в тексте, подсчет разметок частей речи и пунктуации. Данные этапы также имеют сложность ????(????), так как для каждого этапа требуется один проход по всем словам текста.

Следовательно, весь реализованный алгоритм, классифицирующий тексты по стилям, имеет сложность ????(????), где ???? – число слов тексте.

Заключение

В рамках курсовой работы получены следующие результаты: 1. Исследованы существующие методы классификации текстов по стилям

для русского и английского языков 2. Разработан метод классификации по стилям для русского языка, который

основан на машинном обучении. В качестве вектора признаков

используются TF-вектор, средняя длина слов в тексте, гистограммы

частей речи и пунктуации. 3. Разработанный метод реализован в виде программной системы 4. Проведено тестирование и произведена оценка качества результатов

работы разработанного метода для русского и английского языков.

Лучшие результаты для русского и английского языка показал Наивный

Байесовский классификатор для вектора признаков, состоящего из TF вектора длины 1000, средней длины слов в тексте, гистограмм частей

речи и пунктуации. Итоговая точность классификации для русского

языка – 98,59%, для английского языка – 98,82%.

Список цитируемой литературы

[Электронный ресурс]//URL: https://litfac.ru/kursovaya/janr-kakogo-stilya/