Методы атрибуции

Долгое время в практике атрибуции доминировали историко-документальные и филологические методы исследования. Для выявления авторских особенностей применялась субъективная методика атрибуции, в соответствии с которой субъективно отбирались внешние детали авторского стиля, такие как любимые слова, термины, выражения.

Применение математико-статистических методов было начато в конце XIX века в целях атрибуции произведений античных авторов. Работы Кэмпбелля и Люгославского (1867, 1897 годы)основывались на установлении «оригинальных» слов и на позиционном расположении определяющих и определяемых слов.

Первым отечественным ученым, использовавшим математический аппарат для решения задачи атрибуции, считается Н. А. Морозов, опубликовавший в 1915 г. статью «Лингвистические спектры». В отличие от предшествующих исследователей, филологов-классиков, опиравшихся при атрибуции на частоту употребления знаменательных слов, Н. А. Морозов полагал, что для индивидуального стиля писателя показательными являются именно служебные слова, поскольку они никак не связаны с темой и содержанием книги. Метод, предложенный Н. А. Морозовым, лег в основу многих исследований по лексическому составу языка писателей, однако не может служить основой для полного достоверного стилистического исследования, поскольку не выходит за рамки лексического анализа и состава предложения. Критические обзоры метода и результатов исследования Морозова были сделаны Марковым и Сеземаном.

В классификации методов атрибуции, предложенной академиком В. В. Виноградовым, были противопоставлены субъективные и объективные принципы, применяемые в целях атрибуции. В этой работе группа объективных принципов выделялась в рамках традиционной лингвистики, а объективным лингвостатистическим методам атрибуции отводилась лишь вспомогательная роль, поскольку к началу 60-х годов XX века отсутствовали эффективные методы атрибуции, основанные на формальном математическом аппарате.


С 60–70-х годов XX века при описании индивидуального стиля лингвоматематические методы стали применяться все шире, благодаря чему накапливались данные о свойствах единиц языка и формировался специальный научный аппарат атрибуции текстов. Работы А. Л. Гришунина, А. Якубайтис, А. Н. Скляревича, А. П. Василевича посвящены применению методов статистики к лексике и грамматике.

Использование специально разработанных индексов для оценки лексической структуры текста было обусловлено стремлением разработать новый универсальный аппарат для объективного анализа лексики. Многие ученые разрабатывают новые оценки лексического состава, отличающиеся теми или иными недостатками, не рассматривая уже готовые, существующие решения в смежных областях знания, например в математике, где для описания объектов различной природы давно и успешно применяется теория распознавания образов.

Опыт квантитативно-лингвистических исследований был обобщен в монографии Ю. Тулдавы в 1987 году. В этой работе Ю. Тулдава сформулировал два основных принципа изучения лексики в квантитативном аспекте: принцип системности и вероятностно-статистический характер организации лексики, а также высказал идею о связи признаков, которая явилась предпосылкой для разработки математического аппарата оценки связей между параметрами.

Одно из последних исследований по атрибуции текстов, основанных на лексическом анализе, было проведено Д. Лаббе, предложившим в 2001 году формулу вычисления «межтекстового расстояния», которое подразумевает анализ лексического состава двух текстов и определение меры их близости или удаленности друг от друга. В работах Д. Лаббе лексический анализ текстов происходит с помощью автоматической процедуры морфологического анализа, в соответствии с которой каждое слово представляется в виде записи, состоящей из трех компонентов: словоформы, вокабулы и соответствующей части речи. По полученным данным вычисляется «межтекстовое расстояние», и результаты отображаются в виде древовидной классификации. Исследования  Д. Лаббе обнаруживают серьезные недостатки методологического и статистико-вероятностного характера, связанные в первую очередь с недостоверностью результатов атрибуции, осуществленной на основе  анализа одного лишь лексического уровня. При стилистическом анализе в целях атрибуции изучение лексического состава текста должно быть дополнено данными и о других языковых уровнях, и в первую очередь – о синтаксической структуре анализируемого текста.


В 70-е – 80-е годы XX века в отечественной лингвистике  был проведен ряд исследований, посвященных квантитативно-структурному изучению текстов на синтаксическом уровне. Методы стилистической диагностики, основанные  на анализе графов синтаксических связей, представлены в исследованиях И. П. Севбо и Г. Я. Мартыненко. Диагностические параметры, предложенные И. П. Севбо, и меры сложности, анализируемые в работах Г. Я. Мартыненко, связаны с характеристиками предложения, а не текста, но именно анализ текста должен лежать в основе эффективной методики фиксации авторского стиля.


Период с конца 70-х годов XX века до настоящего времени отмечен бурным развитием вычислительной техники и программного обеспечения, в связи с чем все больше исследователей проявляют интерес к применению компьютерной обработки данных при анализе текстов, как в синтаксическом, так и в грамматическом, лексическом аспектах. Одна из первых методик установления авторства, основанная на анализе текста с автоматизированным получением частотных словарей и статистических данных, была предложена в работе норвежского филолога Г. Хетсо в 1978 году. В исследованиях древних текстов, проводимых под руководством Л. В. Милова, обработка текстового материала заключается в построении графов «сильных связей» по матрице частот парной встречаемости грамматических классов слов и происходит с помощью специально разработанной компьютерной программы. Обязательное применение автоматической обработки данных в целях определения авторства лежит в основе работ Ю. В. Сидорова, И. О. Тарнопольской, Д. В. Хмелева.

Стремление ученых к применению автоматической стилистической диагностики и автоматизированного поиска индивидуальных характеристик авторского стиля приводит к тому, что предпочтение в стилистических исследованиях отдается анализу любых других языковых уровней, кроме синтаксического. Зависимость стилистического анализа от компьютерной обработки данных и от методов, для нее предназначенных, приводит к упрощению методологической основы исследований, что, в конечном итоге, делает методы атрибуции текста менее эффективными.


В основе исследований, изложенных на данном сайте, была положена методика атрибуции анонимных и псевдонимных произведений, разработанная М. А. Марусенко, которая предусматривает применение многомерной классификации, основанной на теории распознавания образов, и описание индивидуального авторского стиля в синтаксическом аспекте.

>>> читать далее о применяемой методике


См. также: статья "Методы атрибуции художественных текстов" в .pdf

 

Полезные ссылки:
Авторы исследований
проф. Марусенко М.А.
Родионова Е.С.
Синелёва А.В.
Слаутина М.Ю.
Хозяинов С. А.
Чепига В.П.
Шувалова Е.Е.
Петрова A.Д.
Фотогалерея
Санкт-Петербургский государственный университет
©2009-2011 Все права защищены и принадлежат авторам сайта corneille-moliere.com
Использование любых материалов, опубликованных на данном сайте, возможно только при письменном разрешении авторов.
©2009 - 2011 Generatum Ltd.