Методы атрибуции  /  Применяемая методика

Методы распознавания образов были впервые применены при атрибуции анонимных и псевдонимных произведений на основе индивидуальных характеристик авторского стиля в работе М.А. Марусенко в 1990 году.

В данной работе текст рассматривается как сложный лингвистический объект, характеризующийся обширным инвентарем элементов и многоуровневостью анализа. В основу нового метода атрибуции анонимных и псевдонимных произведений был положен многомерный статистический анализ, представленный в его наиболее развитой форме – теории распознавания образов.

В терминах распознавания образов стиль определяется как набор свойств (параметров), характеризующих состав, способы объединения и статистико-вероятностные закономерности употребления речевых средств, образующих данную разновидность языка. Набором свойств, характеризующих структуру текста в синтаксическом аспекте, становится в данном случае совокупность информативных параметров, чей состав определяется путем выполнения специальной процедуры отбора информативных параметров для каждого конкретного случая.

Важное теоретическое положение рассматриваемой работы  заключается в том, что процедура атрибуции расчленяется на три относительно самостоятельных этапа:

  1. Формирование литературно-критической атрибуционной гипотезы, которое выполняется методами традиционного филологического анализа с применением всех доступных субъективных и объективных методов и приемов атрибуции.
  2. Поверка литературно-критической гипотезы, для выполнения которой используются средства теории распознавания образов.
  3. Интерпретация результатов проверки атрибуционной гипотезы.

Гипотеза считается статистически подтвержденной, если результаты распознавания согласуются с исходной литературно-критической атрибуционной гипотезой (при установленном уровне значимости). В противном случае гипотеза считается опровергнутой, и проверяется либо альтернативная гипотеза, либо переформулированная исходная гипотеза.  При реализации такой схемы атрибуции статистико-вероятностные методы анализа языка и стиля используются лишь в качестве вспомогательных средств для проверки исходной атрибуционнной гипотезы, сформированной с помощью филологических методов атрибуции.

Проверка литературно-критической гипотезы происходит в несколько этапов с использованием определенного комплекса процедур:

  1. Определение априорного набора индивидуальных стилистических параметров. Поскольку параметры из априорного словаря параметров должны определять стиль в структурно-синтаксическом аспекте, они берутся из работ тех авторов, которые исследовали структуру и состав предложения математическими методами.
  2.  Определение априорного набора классов. Состав априорных классов определяется требованиями временной и жанровой однородности, а объем измеряется в основных единицах синтаксиса — предложениях.
  3. Описание классов из априорного алфавита классов на языке параметров из априорного словаря параметров. Каждому лингвистическому объекту, подвергаемому анализу в целях стилистической диагностики, ставится в соответствие математический объект p, характеризуемый n-мерным вектором, где n – число параметров.
  4. Определение информативного набора параметров. Этот этап атрибуции заключается в выделении из имеющегося информационного параметрического пространства необходимого и достаточного числа параметров для отнесения объекта к классу, благодаря чему удаляются «шумовые» параметры.
  5. Выбор решающего правила. Задача установления автора анонимного или псевдонимного текста в данной работе рассматривается как задача нахождения расстояния между многомерным вектором, соответствующим  априорному классу M1, и многомерным вектором, соответствующим  априорному классу M2 неизвестного автора. Решающим правилом называется функция, выбранная для измерения этого расстояния и принятия решения о сходстве или различении этих объектов. Применяемый алгоритм распознавания должен обеспечивать разделение пространства признаков на области, соответствующие классам, с минимумом ошибок распознавания. В данной работе алгоритм распознавания предусматривает двухступенчатую процедуру распознавания: детерминированную и вероятностную.
  6. Оценка качества классификации. Поскольку полученные в результате математической процедуры классификации классы могут представлять собой артефакты, необходимо проведение оценки качества классификации, которая может повлечь за собой корректировку составов полученных классов.

Конкретные математические выражения для каждого этапа процедуры атрибуции приводятся в гл. 3 настоящей работы.

Применение разработанного М.А. Марусенко математического аппарата к реальному историко-литературному материалу показало его высокую эффективность [Марусенко 2005; В поисках потерянного автора, 2001; Синелева, 2001]. В настоящее время проводится несколько исследований по атрибуции художественных и публицистических произведений с применением данного метода [Хозяинов, 2006; Чепига, 2007]. По результатам проверок реальных атрибуционных гипотез, описанных в нескольких работах, можно сделать вывод об устойчивости системы распознавания к колебаниям объема текстов и к временной эволюции параметров авторского стиля. В большинстве случаев система распознавания обеспечивает полное разведение объектов по соответствующим классам, в противном случае после оценки качества классификации может быть выдвинута гипотеза о существовании еще одного или нескольких классов авторов, не учитываемых в первоначальной атрибуционной гипотезе. При этом последовательное применение детерминированного и вероятностного алгоритмов распознавания исключает случаи отказов от распознавания. В целом эксперименты по проверке надежности распознающей системы показали, что она способна обеспечивать «стопроцентно надежное определение принадлежности текста данному автору»
Полезные ссылки:
Авторы исследований
проф. Марусенко М.А.
Родионова Е.С.
Синелёва А.В.
Слаутина М.Ю.
Хозяинов С. А.
Чепига В.П.
Шувалова Е.Е.
Петрова A.Д.
Фотогалерея
Санкт-Петербургский государственный университет
©2009-2011 Все права защищены и принадлежат авторам сайта corneille-moliere.com
Использование любых материалов, опубликованных на данном сайте, возможно только при письменном разрешении авторов.
©2009 - 2011 Generatum Ltd.