Граф как метод описания истории русской рифмы

Об исследовании

Исследование посвящено новому методу анализа русских рифм при помощи сетей. Созвучие стихотворных строк может быть удобно описано в терминах теории графов, так как оно представляет связь между словами. Определенные свойства могут быть приписаны узлам или связям, граф можно визуализировать и анализировать с помощью метрик.

Для сетевого анализа рифм мы написали программу, которая автоматически находит рифмы в файлах Национального корпуса русского языка, классифицирует их (богатая, точная и т.д.), строит рифменные сети. Усовершенствованную версию программы (без построения сетей) можно найти тут.

Принцип работы программы:

Результаты

В результате мы построили 5 сетей по разным временным отрезкам: одну сеть по XVIII веку, по одной сети на каждую треть XIX века, одну сеть по первой трети XX века.

Основные результаты:

1. Анализ визуализаций показал, что крупнейшие кластеры рифм одинаковы для всех получившихся сетей (пр. закрытые и открытые рифмы с ударным [а]). Крупнейшие узлы также повторяются — местоимения он, она, мой. При помощи визуализации рифменных сетей мы обнаружили общелингвистические черты русских рифм, независимые от определенной эпохи.

Скриншоты динамических визуализаций всех сетей:

Примеры динамических визуализаций:

Оригиналы динамических визуализаций

2. Полученные сети безмасштабны (scale free), так как степени узлов распределены по степенному закону. Кроме того, наши рифменные сети не обладают свойством тесного мира (коэффициент кластеризации меньше 0.1). Интересно, что оба эти качества присущи естественно возникающим сетям (биологическим, социальным). Мы предполагаем, что наблюдаемое противоречие говорит о том, что язык рифмы искусственен, подчинен некоторым ограничениям и правилам (метр, ритм и т.д.), однако рифмы создаются на естественном языке.

3. Три графовые метрики (диаметр, средняя длина пути, ассортативность) показали схожие значения для рифменных сетей XVIII века и первой трети XX века. Максимальные значения таких метрик, как средняя длина пути, ассортативность, кликовое число и максимальное k-ядро приходятся на первую треть XIX века. Мы интерпретируем полученные результаты таким образом, что схожие эпохи характеризуются нестабильными рифменными системами — формирование классицизма в XVIII веке, разрушение традиции в начале XX века. Первая треть XIX века — наиболее устойчивая система, характеризуемая определенным ядром популярных рифм.

(Таблица для копирования значений расположена здесь)

Ссылки

Полный текст исследования

Краткая информация про распознавание рифм с ё