Постановка задачи
Пусть дан текст на русском языке. Попробуем решить следующие задачи:
1. Определение автора из множества известных, книги которых у нас уже проанализированы.
2. Определение основных факторов оказывающих наибольшее влияние на распределение частот слов в тексте.
3. Определение соционического типа автора текста с помощью частотного анализа.
Новая методика определения авторства по тексту на естественном языке
Первая попытка создания методики для определения автора текста была сделана еще в самом начале 20 века Морозовым. Позднее она была подвергнута критике специалистом по теории вероятностей и математической статистике Марковым.
Уже в наше время была предложена интересная методика определения авторства текста с использованием буквенной и грамматической информации, которая использует формальную математическую модель последовательности букв (и любых других элементов) текста как реализации цепи Маркова.
Известный пример с определением авторства романа "Тихий Дон", об ответе на которой спорят несколько десятилетий, показывает, что данная проблема до сих пор актуальна. В настоящий момент, в связи с бурным развитием вычислительной техники встает вопрос о попытках автоматизировать этот процесс. В частности, математиком Хетсо была предложена методика на основе следующих параметров:
- Средняя длина слова в буквах, вычисляемая на основании выборок размером 500 текстовых слов.
- Общее распределение длины слова.
- Средняя длина предложения в словах, вычисляемая на основании выборок размером в 30 предложений.
- Общее распределение длины предложения.
- Лексический спектр текста на уровня словаря.
- Лексический спектр текста на уровне текста.
- Индекс разнообразия лексики.
C помощью нее он провел компьютерный анализ текстов Шолохова, подтвердивший его авторство.
Известно, что клуб любителей творчества Пушкина собирал информацию о частотном распределении слов великого поэта. На это занятие им понадобилось несколько лет кропотливого труда. К счастью, с приходом новейших технологий, туже самую операцию компьютер способен сделать за несколько минут с гораздо большей точностью.
Методика, которая описывается в этой статье, была случайно получена мной в качестве побочного эффекта при исследовании возможности определения соционического типа автора текста на естественном языке. До этого я не читал материалов по данной теме.
Cлова русского языка имеют огромную разницу в распределении частот. Например, слово "время" встречается в 500 раз чаще чем "удивительный". В качестве эталона распределения частот слов русского языка был взят частотный словарь Шарова (общее количество различных слов более 60000), который составлен на основе анализа 40 миллионов слов и является более адекватным чем аналогичный известный частотный словарь Засориной, который был составлен в 1977 году и использовал для анализа всего лишь 1 миллион слов.
В базу данных Oracle были закачаны результаты частотного анализа 104 книг 38 человек (количество книг для каждого писателя было от 1 до 14) общим размером более 30 Мегабайт чистого текста, в которых использовано почти 6 миллионов слов. Для анализа были написаны несколько программ на PL/SQL.
Алгоритм
- Составление частотного словаря для каждой книги.
- На основе нескольких книг создается частотный словарь писателя.
- C помощью частотного словаря Шарова происходит нормализация. То есть полученные значения частоты употребления слов делятся на средние в русском языке.
- Вводится понятие расстояния между словарями, как сумма квадратов разностей частот между отдельными анализируемыми словами.
- При этом если слово есть в одном словаре, но совсем отсутствует в другом, то оно не учитывается (для чего это сделано объясняется ниже)
- Учитываются первые 5000-10000 наиболее употребляемых слов русского языка.
- В качестве результата берется словарь с минимальным расстоянием.
Если взять больше 10000 слов, то редкие слова оказывают слишком большое влияние на результат, если меньше, то информации становится недостаточно. Учитывая такое количество слов текст должен быть достаточно большим, желательно от 30 Kb, причем чем больше, тем лучше. На текстах малой длины частоты неустойчивы и сильно зависят от предметной области. К аналогичным выводам пришел польский исследователь Е. Ворончак в работе, посвященной математико-статистическому анализу устойчивости различных показателей, используемых в настоящее время в исследованиях языка и стиля произведения: "границей объема текста (ниже которой результаты не достоверны, а выше – достоверны) является пять тысяч словоформ".
По данному методу для всех 104 книг автор был определен верно в 102 случаях с двумя ошибками определения для Александра Пушкина "Том 7. История Пугачева. Исторические статьи и материалы" и "Том 9. Письма". Также при правильном определении авторства для для нескольких небольших рассказов Николая Гоголя разница между следующим писателем была не очень большой. Для книг, не участвовавших в формировании словаря данный метод не проверялся, можно понять, что он будет работать на следующем примере.
Были взяты 38 словарей писателей. 104 словаря для книг, в том числе пять из них Льва Толстого. В нижеприведенной таблице показано расстояние по словарям для книги Льва Толстого "Юность", если произведение не указано имеется в виду частотный словарь писателя.
№ |
Автор |
Произведение |
Расстояние |
1 |
Лев Толстой |
Юность |
0 |
2 |
Лев Толстой |
Частотный словарь автора |
168 |
3 |
Лев Толстой |
Детство |
289 |
4 |
Лев Толстой |
Война и мир. Том 2 |
307 |
5 |
Джек Лондон |
Частотный словарь автора |
373 |
6 |
Герман Гессе |
Эссе |
385 |
7 |
Николай Гоголь |
Частотный словарь автора |
393 |
8 |
Герман Гессе |
Частотный словарь автора |
396 |
9 |
Федор Достоевский |
Частотный словарь автора |
403 |
10 |
Федор Достоевский |
Записки из мертвого дома |
404 |
11 |
Иван Тургенев |
Новь |
406 |
12 |
Лев Толстой |
Хаджи-Мурат |
415 |
13 |
Иван Тургенев |
Казаки |
421 |
14 |
Лев Толстой |
Частотный словарь автора |
422 |
... |
... |
... |
... |
142 |
Жан-Поль Сартр |
Частотный словарь автора |
8668 |
Отсюда видно, что все пять книг Толстого плюс словарь писателя попали на первые 14 позиций, то есть книги Толстого находятся достаточно близко друг к другу, поэтому чем больше будет проанализировано данных для составления частотных словарей писателей, тем более надежным будет результат.
Жанр произведений
Но вернемся к Пушкину и одной из ошибок определения автора по тому 7 "История Пугачева. Исторические статьи и материалы":
№ |
Автор |
Произведение |
Расстояние |
1 |
Александр Пушкин |
Том 7 История Пугачева. Исторические статьи и материалы |
0 |
2 |
Станислав Лем |
Звездные дневники Йохана Тихого |
341 |
3 |
Джек Лондон |
Частотный словарь автора |
363 |
4 |
Станислав Лем |
Частотный словарь автора |
364 |
5 |
Антон Чехов |
Частотный словарь автора |
375 |
6 |
Герман Гессе |
Эссе |
397 |
... |
|
|
|
39 |
Александр Пушкин |
Частотный словарь автора |
545 |
... |
|
|
|
49 |
Александр Пушкин |
Том 2 Стихотворения 1823-1836 |
575 |
... |
|
|
|
71 |
Александр Пушкин |
Том 4 Евгений Онегин Драматические произведения |
650 |
... |
|
|
|
73 |
Александр Пушкин |
Том 1 Стихотворения 1814-1822 |
657 |
... |
|
|
|
129 |
Александр Пушкин |
Том 9 Письма |
2436 |
... |
|
|
|
и к правильному определению автора по тому 2 "Стихотворения 1823-1936":
|
Автор |
Произведение |
Расстояние |
|
Александр Пушкин |
Том 2 Стихотворения 1823-1836 |
0 |
|
Александр Пушкин |
|
53 |
|
Александр Пушкин |
Том 1 Стихотворения 1814-1822 |
143 |
|
Александр Пушкин |
Том 3 Поэмы, сказки |
144 |
|
Александр Пушкин |
Том 4 Евгений Онегин Драматические произведения |
162 |
|
Антон Чехов |
Рассказы |
420 |
... |
... |
... |
... |
35 |
Александр Пушкин |
Том 7 История Пугачева. Исторические статьи и материалы |
575 |
... |
|
... |
... |
130 |
Александр Пушкин |
Том 9 Письма |
2456 |
... |
|
... |
... |
Вывод, который напрашивается из этих двух таблиц: есть три достаточно далеко расположенные друг от друга группы произведений Пушкина: поэзия (Тома 1-4), письма (Том 9) и проза (Том 7 "История Пугачева. Исторические статьи и материалы"). Таким образом наглядно показано, что кроме собственно авторства частота слов в тексте очень сильно зависит от жанра произведений.
Еще одно подтверждения этого было получено, когда были проанализированы два ЖЖ-дневника (авторы имеют психологические типы СЭЭ и ЛСЭ) и сообщения на форуме (автор СЛИ). Казалась бы большое расхождение должны были бы дать разница в стиле, возрасте, образе жизни, психотипе и словарном запасе. Один из словарей был составлен по дневнику журналистки Таты Олейник (Почти_новая_горжетка), у которой словарный запас оказался самым большим по первым 80 книгам. Тем не менее по данной методике расстояния между этими тремя словарями получились относительно небольшими, для одного из словарей два других оказались ближайшими из 37 словарей. Таким образом язык on-line дневников и форумов, близкий к разговорному сильно отличается от литературного и научного, причем это отличие можно выявить с помощью данной методики или ее модификации. А значит ее можно применять для больших социологических и психолингвистических исследований русского языка на больших корпусах текстов.
Предметная область
Полную версию таблицы расстояний между 28 словарями писателей, психологов и социоников в базе данных можно посмотреть здесь. В качестве психотипа стоит моя версия
Далее проанализируем полученную таблицу. Отсортируем список по возрастанию расстояния от словаря Агаты Кристи:
№ |
Автор |
ТИМ |
Расстояние |
Профессия |
1 |
Агата Кристи |
СЛИ |
0 |
писатель |
2 |
Иван Тургенев |
ЭСИ |
242 |
писатель |
3 |
Станислав Лем |
ИЛИ |
256 |
писатель |
4 |
Антон Чехов |
ЛИИ |
285 |
писатель |
5 |
Федор Достоевский |
ЭИИ |
286 |
писатель |
6 |
Джек Лондон |
ЛИЭ |
322 |
писатель |
7 |
Теодор Драйзер |
ЭСИ |
350 |
писатель |
8 |
Виктор Гюго |
ЭСЭ |
351 |
писатель |
9 |
Николай Гоголь |
ЭИЭ |
355 |
писатель |
10 |
Лев Толстой |
СЭЭ |
356 |
писатель |
11 |
Жюль Верн |
ЭСЭ |
382 |
писатель |
12 |
Пауло Коэльо |
ЭИИ |
386 |
писатель |
13 |
Гарсия Маркес |
ЭСЭ |
401 |
писатель |
14 |
Ги де Мопассан |
СЛИ |
420 |
писатель |
15 |
Герман Гессе |
ИЛИ |
428 |
писатель |
16 |
Зигмунд Фрейд |
ИЛЭ |
552 |
психолог |
17 |
Карл Юнг |
ИЛИ |
574 |
психолог |
18 |
Эрик Берн |
ИЛЭ |
713 |
психолог |
19 |
Александр Пушкин |
ИЭЭ |
725 |
поэт |
20 |
Иван Крылов |
ИЛИ |
742 |
баснописец |
21 |
Билл Гейтс |
ЛИЭ |
790 |
бизнесмен |
22 |
Абрахам Маслоу |
ИЭЭ |
850 |
психолог |
23 |
Эрих Фромм |
ЭИИ |
932 |
психолог |
24 |
Екатерина Филатова |
ЭИИ |
952 |
соционик |
25 |
Жан-Поль Сартр |
СЛИ |
952 |
философ |
26 |
Виктор Гуленко |
ЛИИ |
1 040 |
соционик |
27 |
Аушра Аугустинавичюте |
ИЛЭ |
2 604 |
соционик |
28 |
Александр Лоуэн |
СЭИ |
3 381 |
психолог |
Все писатели сверху! Отсюда следует, что профессия, а значит и предметная область существенно влияют на частотный анализ.
Аналогично отсортируем список по возрастанию расстояния от словаря Абрахама Маслоу:
№ |
Автор |
ТИМ |
Расстояние |
Профессия |
1 |
Абрахам Маслоу |
ИЭЭ |
0 |
психолог |
2 |
Карл Юнг |
ИЛИ |
294 |
психолог |
3 |
Эрих Фромм |
ЭИИ |
295 |
психолог |
4 |
Зигмунд Фрейд |
ИЛЭ |
369 |
психолог |
5 |
Эрик Берн |
ИЛЭ |
479 |
психолог |
6 |
Пауло Коэльо |
ЭИИ |
653 |
писатель |
7 |
Станислав Лем |
ИЛИ |
654 |
писатель |
8 |
Антон Чехов |
ЛИИ |
691 |
писатель |
9 |
Билл Гейтс |
ЛИЭ |
695 |
бизнесмен |
10 |
Герман Гессе |
ИЛИ |
707 |
писатель |
11 |
Екатерина Филатова |
ЭИИ |
708 |
соционик |
12 |
Лев Толстой |
СЭЭ |
719 |
писатель |
13 |
Виктор Гюго |
ЭСЭ |
727 |
писатель |
14 |
Джек Лондон |
ЛИЭ |
728 |
писатель |
15 |
Жюль Верн |
ЭСЭ |
751 |
писатель |
16 |
Иван Тургенев |
ЭСИ |
781 |
писатель |
17 |
Теодор Драйзер |
ЭСИ |
793 |
писатель |
18 |
Федор Достоевский |
ЭИИ |
830 |
писатель |
19 |
Агата Кристи |
СЛИ |
850 |
писатель |
20 |
Николай Гоголь |
ЭИЭ |
851 |
писатель |
21 |
Ги де Мопассан |
СЛИ |
866 |
писатель |
22 |
Гарсия Маркес |
ЭСЭ |
898 |
писатель |
23 |
Виктор Гуленко |
ЛИИ |
914 |
соционик |
24 |
Александр Пушкин |
ИЭЭ |
1 075 |
поэт |
25 |
Иван Крылов |
ИЛИ |
1 238 |
баснописец |
26 |
Жан-Поль Сартр |
СЛИ |
1 581 |
философ |
27 |
Аушра Аугустинавичюте |
ИЛЭ |
1 707 |
соционик |
28 |
Александр Лоуэн |
СЭИ |
2 968 |
психолог |
Заметим, что наиболее близкими оказались словари практически всех психологов за исключением Александра Лоуэна.
Теперь проверим остается ли действовать это правило для социоников:
№ |
Автор |
ТИМ |
Расстояние |
Профессия |
1 |
Аушра Аугустинавичюте |
ИЛЭ |
0 |
соционик |
2 |
Екатерина Филатова |
ЭИИ |
1 169 |
соционик |
3 |
Виктор Гуленко |
ЛИИ |
1 294 |
соционик |
4 |
Зигмунд Фрейд |
ИЛЭ |
1 578 |
психолог |
5 |
Эрих Фромм |
ЭИИ |
1 670 |
психолог |
6 |
Карл Юнг |
ИЛИ |
1 703 |
психолог |
7 |
Абрахам Маслоу |
ИЭЭ |
1 707 |
психолог |
8 |
Эрик Берн |
ИЛЭ |
1 709 |
психолог |
9 |
Пауло Коэльо |
ЭИИ |
2 143 |
писатель |
10 |
Лев Толстой |
СЭЭ |
2 154 |
писатель |
11 |
Антон Чехов |
ЛИИ |
2 272 |
писатель |
12 |
Билл Гейтс |
ЛИЭ |
2 284 |
бизнесмен |
13 |
Герман Гессе |
ИЛИ |
2 307 |
писатель |
14 |
Джек Лондон |
ЛИЭ |
2 346 |
писатель |
15 |
Теодор Драйзер |
ЭСИ |
2 369 |
писатель |
16 |
Иван Тургенев |
ЭСИ |
2 378 |
писатель |
17 |
Станислав Лем |
ИЛИ |
2 401 |
писатель |
18 |
Виктор Гюго |
ЭСЭ |
2 433 |
писатель |
19 |
Ги де Мопассан |
СЛИ |
2 470 |
писатель |
20 |
Николай Гоголь |
ЭИЭ |
2 505 |
писатель |
21 |
Жюль Верн |
ЭСЭ |
2 510 |
писатель |
22 |
Федор Достоевский |
ЭИИ |
2 529 |
писатель |
23 |
Гарсия Маркес |
ИЛИ |
2 544 |
писатель |
24 |
Александр Пушкин |
ИЭЭ |
2 591 |
поэт |
25 |
Агата Кристи |
СЛИ |
2 604 |
писатель |
26 |
Иван Крылов |
ИЛИ |
2 968 |
баснописец |
27 |
Жан-Поль Сартр |
СЛИ |
3 194 |
философ |
28 |
Александр Лоуэн |
СЭИ |
3 861 |
психолог |
Соционики сверху, далее подряд все психологи, опять же за исключением Лоуэна. Таким образом наша гипотеза о существенном влиянии предметной области на распределение частот слов в тексте еще раз подтвердилась.
Хотя это правило выполняется не всегда, например, для Гуленко, словарь Филатовой опять же оказывается сверху, но словарь Аушры находится в конце списка.
Так почему же словарь Лоуэна расположен настолько далеко от остальных психологов?
Объем анализируемого текста
Для ответа на этот вопрос построим таблицу для самого Лоуэна:
№ |
Автор |
ТИМ |
Расстояние |
Профессия |
Объем текста |
1 |
Александр Лоуэн |
СЭИ |
0 |
психолог |
28 816 |
2 |
Зигмунд Фрейд |
ИЛЭ |
2 698 |
психолог |
229 669 |
3 |
Карл Юнг |
ИЛИ |
2 778 |
психолог |
206 119 |
4 |
Эрих Фромм |
ЭИИ |
2 928 |
психолог |
123 063 |
5 |
Абрахам Маслоу |
ИЭЭ |
2 968 |
психолог |
72 763 |
6 |
Гарсия Маркес |
ЭСЭ |
2 993 |
писатель |
31 583 |
7 |
Пауло Коэльо |
ЭИИ |
2 998 |
писатель |
206 341 |
8 |
Джек Лондон |
ЛИЭ |
3 009 |
писатель |
518 348 |
9 |
Лев Толстой |
СЭЭ |
3 017 |
писатель |
256 137 |
10 |
Станислав Лем |
ИЛИ |
3 023 |
писатель |
180 395 |
11 |
Герман Гессе |
ИЛИ |
3 069 |
писатель |
115 476 |
12 |
Николай Гоголь |
ЭИЭ |
3 087 |
писатель |
166 778 |
13 |
Екатерина Филатова |
ЭИИ |
3 109 |
соционик |
157 332 |
14 |
Ги де Мопассан |
СЛИ |
3 111 |
писатель |
60 620 |
15 |
Эрик Берн |
ИЛЭ |
3 155 |
психолог |
110 248 |
16 |
Виктор Гюго |
ЭСЭ |
3 162 |
писатель |
774 221 |
17 |
Иван Тургенев |
ЭСИ |
3 171 |
писатель |
257 121 |
18 |
Антон Чехов |
ЛИИ |
3 181 |
писатель |
209 448 |
19 |
Виктор Гуленко |
ЛИИ |
3 248 |
соционик |
33 628 |
20 |
Теодор Драйзер |
ЭСИ |
3 266 |
писатель |
245 036 |
21 |
Жюль Верн |
ЭСЭ |
3 316 |
писатель |
143 855 |
22 |
Федор Достоевский |
ЭИИ |
3 316 |
писатель |
382 849 |
23 |
Агата Кристи |
СЛИ |
3 381 |
писатель |
140 406 |
24 |
Билл Гейтс |
ЛИЭ |
3 390 |
бизнесмен |
87 808 |
25 |
Александр Пушкин |
ИЭЭ |
3 536 |
поэт |
340 188 |
26 |
Иван Крылов |
ИЛИ |
3 738 |
баснописец |
7 545 |
27 |
Аушра Аугустинавичюте |
ИЛЭ |
3 861 |
соционик |
19 135 |
28 |
Жан-Поль Сартр |
СЛИ |
4 037 |
философ |
14 477 |
Получается, что для самого Лоуэна словари психологов оказываются ближе, чем все остальные. Так в чем же дело? Мне кажется в данном случае есть две основные причины:
- Для анализа была взята книга "Вы и ваше тело" по телесно-ориентированной терапии, которая отличается от остальных психологических направлений своеобразием лексики достаточно сильно
- В последнем столбце указано количество анализируемых слов. Для Лоуэна, Аушры, Сартра, Крылова оно относительно мало. Хотя эта проблема частично решается пятым пунктом алгоритма, малое количество анализируемых слов делает словарь неустойчивым.
Еще одним фактор, который может воздействовать на частоту вхождения слов, время написания книги, подробно не анализировался.
А теперь переходим к самому интересному для социоников.
Попытка определения психотипа
Отсортируем список по возрастанию расстояния от словаря Германа Гессе:
№ |
Автор |
ТИМ |
Расстояние |
Профессия |
1 |
Герман Гессе |
ИЛИ |
0 |
писатель |
2 |
Лев Толстой |
СЭЭ |
213 |
писатель |
3 |
Джек Лондон |
ЛИЭ |
234 |
писатель |
4 |
Иван Тургенев |
ЭСИ |
240 |
писатель |
5 |
Пауло Коэльо |
ЭИИ |
256 |
писатель |
6 |
Ги де Мопассан |
СЛИ |
261 |
писатель |
7 |
Станислав Лем |
ИЛИ |
265 |
писатель |
8 |
Виктор Гюго |
ЭСЭ |
283 |
писатель |
9 |
Антон Чехов |
ЛИИ |
302 |
писатель |
10 |
Теодор Драйзер |
ЭСИ |
305 |
писатель |
11 |
Федор Достоевский |
ЭИИ |
312 |
писатель |
12 |
Гарсия Маркес |
ЭСЭ |
336 |
писатель |
13 |
Николай Гоголь |
ЭИЭ |
348 |
писатель |
14 |
Жюль Верн |
ЭСЭ |
407 |
писатель |
15 |
Агата Кристи |
СЛИ |
428 |
писатель |
16 |
Александр Пушкин |
ИЭЭ |
450 |
поэт |
17 |
Карл Юнг |
ИЛИ |
485 |
психолог |
18 |
Зигмунд Фрейд |
ИЛЭ |
495 |
психолог |
19 |
Эрик Берн |
ИЛЭ |
654 |
психолог |
20 |
Эрих Фромм |
ЭИИ |
705 |
психолог |
21 |
Абрахам Маслоу |
ИЭЭ |
707 |
психолог |
22 |
Билл Гейтс |
ЛИЭ |
712 |
бизнесмен |
23 |
Иван Крылов |
ИЛИ |
723 |
баснописец |
24 |
Екатерина Филатова |
ЭИИ |
827 |
соционик |
25 |
Жан-Поль Сартр |
СЛИ |
961 |
философ |
26 |
Виктор Гуленко |
ЛИИ |
1 021 |
соционик |
27 |
Аушра Аугустинавичюте |
ИЛЭ |
2 307 |
соционик |
28 |
Александр Лоуэн |
СЭИ |
3 069 |
психолог |
Опять все писатели сверху, то есть влияние предметной области определяется достаточно точно.
Но если посмотреть на психотип ИЛИ, то он получается разбросанным по всей таблице. Аналогичные результаты видны и в остальных таблицах, приводимых выше. Я собрал версии о психотипах известных людей большинства известных социоников и построил эталонный список на основе их анализа. В нем, как представители типа интуитивно-логических интровертов (ИЛИ), оказались Герман Гессе, Станислав Лем и Гарсия Маркес (мое мнение - ЭСЭ), по поводу психотипа Карла Густава Юнга мнения социоников разделились между ИЛИ и ЛИИ. В любом случае при замене версий типов Маркеса и Юнга на более распространенные общая картина не меняется, то есть данная методика, использующая частотный анализ первых 5000-10000 наиболее употребляемых слов не может дать определение психотипа (точнее совпадения с наиболее вероятными версиями).
Итак, в целом частотные словари оказались достаточно устойчивыми на больших массивах информации. То есть каждый их нас обладает своим неповторимым частотным словарем и аналогично почерку его можно идентифицировать с достаточно большой вероятностью.
Это дает надежду возможности определения психотипа на основе его анализа.
О семантическом подходе в соционике писали Вайсбанд, Филимонов, Ритчик, Шепетько, Аушра.
Прокофьева, Ермак, питерская группа социоников, а также авторы этого сайта (я и Елена Заманская) составили свои семантические словари по каждой из функций.
Первые же идеи, которая приходят в голову для модификации данной методики: отфильтровать слова русского языка и рассматривать только те, которые относят к наполнению соционических функций, а также попробовать использовать при типировании основные дихотомии Юнга и признаки Рейнина. Данное исследование было проведено. О его результатах читайте в следующей статье.
Заключение
Итак в данной статье:
- Показано, что частотный словарь человека достаточно устойчив на больших объемах текста и неустойчив на малых.
- Была предложена новая методика определения автора текста на естественном языке. Основными плюсами данной методики являются ее надежность, простота и возможность автоматического использования. К минусам можно отнести то, что анализируемый текст должен быть достаточно большим для надежного определения авторства. Возможно в дальнейшем удастся синтезировать ее с методикой Хетсо.
- Показано, что на частоту употребления слов существенно влияет не только автор, но также предметная область, жанр и размер анализируемого текста.
- Переводчик оказывает гораздо меньшее влияние на распределение частот.
- C помощью частотного анализа по наиболее употребительным словам не удается определять соционический тип без дополнительной фильтрации по семантическим словарям.
Полученные результаты показывают, что психотип влияет на частоту употребления слов в русском языке в целом меньше, чем предметная область, жанр и размер анализируемого текста.
Сам анализируемый текст должен быть достаточно большим, иначе выводы будут ненадежными!
Данная статья не претендует на полноценное исследование, так как, например, для оценки надежности новой методики определения авторства нужно обработать гораздо большое число книг и источников информации. Возможно я это сделаю в будущем.
Олег Хрулев
Список литературы
1 |
Н.А. Морозов |
Новое орудие объективного исследования древних документов |
2 |
А.А. Марков |
Об одном применении статистического метода |
3 |
Г. Хетсо |
Методика, основанная на методах математической статистики |
4 |
Л.И. Бородкин |
Математические методы и компьютер в задачах атрибуции текстов |
5 |
О.В. Кукушкина, А.А. Поликарпов, Д.В. Хмелёв |
Определение авторства текста с использованием буквенной и грамматической информации |
6 |
С.А. Шаров |
Частотный словарь Шарова |
7 |
Л.Н. Засорина |
Частотный словарь Засориной |
8 |
Р.М. Фрумкина |
Психолингвистика |
|