Наукометрический анализ алфавита в русских стихах начала ХХ-го века

Автор:	uri
Автор оригинала:	Климов Юрий Николаевич

НАУКОМЕТРИЧЕСКИЙ АНАЛИЗ АЛФАВИТА В РУССКИХ СТИХАХ НАЧАЛА ХХ-ГО ВЕКА
Ю.Н. Климов
В будущем цифры рассеют мрак.
Цифры не умира.
Только меняют порядок, как
Телефонные номера.

Сонм их, вечным пером привит
К речи, расширит рот,
Удленит собой алфавит,
Либо наоборот.
И. Бродский, 1974-1975 [1]

Основой для наукометрического анализа русских стихов ХХ века была монография М.Л. Гаспарова ˝Русский стих начала ХХ века и комментарии˝ [2].
Целью данного исследования является обоснование, применение и сравнительный анализ алфавита в русских стихах по следующим позициям:
• динамика и кумулятивное число букв алфавита (БА, КЧБА);
• отношение гласных: и/ы, а/я, у/ю, о/е, звонких и глухих согласных, так как это признанные классические отношения букв алфавита;
• отношение БА к КЧБА;
• отношение КЧБА к кумулятивному числу слов (КЧС);
• моделирование БА и КЧБА по линейной, степенной, логарифмической, экспоненциальной зависимостям и полиному второй степени на основе электронных таблиц Excel, определяет статистические свойства русских текстов;
• определение энтальпии и исследование ее свойств БА и КЧБА в русских стихах по тематическим разделам;
• моделирование энтальпии алфавита в русских стихах;
• исследование распределения Бредфорда применительно к алфавиту в русских стихах ;
• исследование закона Ципфа и алфавита в русских стихах;
• выявление сходства и различия русских стихов по тематическим разделам: стих и проза (СиП), стихораздел и рифма (СиР), ритмика (Р), силлабо-тоническая и несиллабо-тоническая метрика (СМ и НМ), строфика (С), твердые формы (ТФ), стих и смысл (СиС);
• сравнительный анализ полученных результатов с литературными данными.
Методологической основой данного исследования явились теоретические работы видного информатика В.И. Горьковой [3] и практическая реализация Ю.Н. Климовым [4-12].
Применение методики частотного лингвистического анализа текстов показало широкие возможности исследования прозаических и поэтических текстов [4-7,11,13-16].
Проведенный нами анализ относительной частотности гласных в русском языке, приведенных в работе [4-7,11], показал, что формула гласных алфавита будет иметь следующий вид: < у гласных алфавита = уо, уе, уа, уи, уу, уы, уя, ую >, причем частота гласной а равна частоте гласной и.
Полученные статистические характеристики текстов другими авторами на основе [13-15] подтверждают наши результаты [4-7,11] относительно формул гласных для стихов: < у КЧГ стихов и тематических разделов = уо, уе, уа, уи, уу, уы, уя, ую>.
Отклонение от приведенной общей формулы гласных в стихах русских поэтов начала ХХ-го века указывает на их отличие от классических стихов ХVIII и XIX веков.
Рассмотрим динамику, КЧБА и кумулятивное число слов (КЧС) в русских стихах начала ХХ-го века. Так КЧБА по тематическим разделам составило для СиП – 8108, СиР – 16641, Р – 18228, СМ и НМ – 20014, С – 14130, ТФ - 21440 и СиС – 18977.
50% КЧБА приходится на следующие буквы русского алфавита: в – СиП, с – СиР, Р, СМ и НМ, С, р – ТФ и л – СиС.
Статистические данные динамики (Д) и КЧБА по тематическим разделам приведены ниже.
Тематический раздел СиП СиР Р СМ и НМ
Показатели Д КЧБА Д КЧБА Д КЧБА Д КЧБА
Среднее 256,94 4171,13 525,06 8682,16 576,65 9445,71 614,19 10607,16
Стандартная ошибка 38,63 439,17 77,71 887,17 84,89 975,02 91,99 1087,76
Медиана 188 3799 421 7976 481 8745 474,50 9951,50
Стандартное отклонение 215,07 2445,19 432,69 4939,54 472,68 5428,69 520,40 6153,30
Дисперсия выборки 46254,80 5978954,00 187222,70 24399039,00 223428,70 29470622,00 270818,40 37863139,00
Эксцесс 0,401 -1,26 -0,14 -1,25 -0,15 -1,21 -0,15 -1,29
Асимметричность 0,92 0,14 0,85 0,11 0,84 0,11 0,84 0,08
Интервал 846 7935 1514 16191 1653 17785 1876 19575
Минимум 5 173 2 450 2 443 4 443
Максимум 851 8108 1516 16641 1655 18228 1880 20018
Сумма 7965 129305 16277 269147 17876 292817 19654 339429
Счет 31 31 31 31 31 31 32 32
Наибольший(1) 851 8108 1516 16641 1655 18228 1880 20018
Наименьший(1) 5 173 2 450 2 443 4 443
Уровень надежности (95,0%) 78,89 896,90 158,71 1811,84 173,38 1991,26 187,63 2218,50
Тематический раздел С ТФ СиС
Показатели Д КЧБА Д КЧБА Д КЧБА
Среднее 413,13 7163,72 655,06 11548,88 579,88 10183,53
Стандартная ошибка 61,67 728,09 99,71 1163,65 87,59 1017,19
Медиана 329 6683 511 11025 443,50 9474
Стандартное отклонение 348,85 4118,68 564,02 6582,62 495,49 5754,07
Дисперсия выборки 121694,80 16963506,00 318116,50 43330849,00 245511,50 33109372,00
Эксцесс -0,34 -1,27 -0,03 -1,31 0,15 -1,27
Асимметричность 0,75 0,11 0,90 0,04 0,87 0,07
Интервал 1239 13146 1989 20849 1828 18474
Минимум 2 346 1 589 3 503
Максимум 1241 13492 1990 21438 1831 18977
Сумма 13220 229239 20962 369564 18556 325873
Счет 32 32 32 32 32 32
Наибольший(1) 1241 13492 1990 21438 1831 18977
Наименьший(1) 2 346 1 589 3 503
Уровень надежности (95,0%) 125,77 1484,94 203,35 2373,29 178,64 2074,57

Данные по корреляции КЧБА (все числа х 100) показывают высокие значения, отличные от динамики числа букв. В корреляционном анализе уровень значимости принят 0,05.
Тематический раздел СиП СиР Р СМ и НМ С ТФ СиС
Д KЧБА Д KЧБА Д KЧБА Д KЧБА Д KЧБА Д KЧБА Д KЧБА
СиП (Д) 1
СиП (KЧБА) 9 1
СиР (Д) 98 7 1
СиР (KЧБА) 8 99 7 1
Р (Д) 98 8 99 8 1
Р (KЧБА) 8 99 6 99 7 1
СМ и НМ (Д) 99 9 99 9 99 9 1
СМ и НМ (KЧБА) 8 99 6 99 7 99 2 1
С (Д) 99 9 99 9 99 8 99 2 1
С (KЧБА) 8 99 7 99 8 99 2 99 2 1
ТФ (Д) 99 6 99 6 99 5 99 1 99 -1 1
ТФ (KЧБА) 8 99 7 99 8 99 2 99 2 99 -0,5 1
СиС (Д) 99 7 99 7 99 7 99 4 99 6 98 8 1
СиС (KЧБА) 8 99 6 99 7 99 2 99 1 99 -1 99 0,2 1
Отношение гласных к согласным составило для тематических разделов русских стихов (в%): СиП – 41,34, СиР - 40,47, Р – 40,15, СМ и НМ – 37,59, С – 42,53, ТФ – 40,46 и СиС – 39.47.
Отношение гласных а/я составило: 3,30 (СиП),3,90 (СиР) 3,26 (Р), 3,31(СМ и НМ), 3,00 (С), 3,68 (ТФ) и 3,06 (СиС); о/е – 1,34 (СиП), 1,01(СиР) 1,00 (Р), 1,11 (СМ и НМ), 1,65 (С), 1,07 (ТФ) и 1,08 (СиС); и/ы – 2,57 (СиП), 2,39 (СиР), 2,51 (Р), по 2,65 (СМ и НМ, С), 2,39 (ТФ) и 2,03 (СиС); у/ю – 4,82 (СиП), 3,67 (СиР), 3,56 (Р), 3,10 (СМ и НМ), 4,71 (С), 2,97 (ТФ) и 4,59 (СиС).
Отношение звонких к глухим согласным б/п составило: 0,71 (СиП), 0,79 (СиР) 0,65 (Р), 0,73 (СМ и НМ), 0,59 (С), 0,66 (ТФ) и 0,85 (СиС); в/ф – 44,78 (СиП), 38,78 (СиР), 35,04 (Р), 36,33 (СМ и НМ), 35,06 (С), 34,97 (ТФ) и 216,00 (СиС); ф/в – 0,022 (СиП), 0,025 (СиР), 0,029 (Р), 0,028 (СМ и НМ), 0,029 (С), 0,0285 (ТФ) и 4,6•10-3 (СиС); г/к - 0,50 (СиП), 0,49 (СиР) 0,52 (Р), 0,51 (СМ и НМ), 0,46 (С), 0,62 (ТФ) и 0,53 (СиС); д/т - 0,54 (СиП), 0,50 (СиР), 0,55 (Р), 0,56 (СМ и НМ), 0,51 (С), 0,53 (ТФ) и 0,52 (СиС); ж/ш – 1,03 (СиП), 0,93 (СиР), 1,12 (Р), 0,92 (СМ и НМ), 1,25 (С), по 1,12 (ТФ, СиС); ш/ж – 0,97 (СиП), 1,07 (СиР), 0,89 (Р, СиС), 1,08 (СМ и НМ), 0,80 (С), 0,90 (ТФ) и 0,53; з/с - 0,31 (СиП), по 0,37 (СиР, Р), 0,38 (СМ и НМ), 0,42 (С), 0,46 (ТФ) и 0,39 (СиС).
Далее проведено отношение числа КЧБА к КЧС, которое по тематическим разделам русских стихов было равно 4,51 (СиП), 4,87 (СиР), 4,79 (Р), 4,78 (СМ и НМ), 4,83 (С), 4,76 (ТФ) и 4,48 (СиС), а отношение КЧС с КЧБА было следующим: 0,22 (СиП, СиС), по 0,21 (СиР, Р, С, ТФ) и 0,20 (СМ и НМ).
Распределение букв алфавита в русских стихах, начиная с наибольшей величины, показало, что в первую десятку вошли следующие буквы – о, е, а, и, н, т, в, с, л, р с различной частотой: для СиП от 851 до 361, СиР от 1516 до 698, Р от 1655 до 831, СМ и НМ от 1880 до 929, С от 1880 до 629, ТФ от 1990 до 970 и СиС от 1831 до 864.
Таким образом, показано различие в динамике ЧБА и КЧС тематических разделов русских стихов начала ХХ-го века, в отношении гласных к согласным, гласных к гласным, звонких к глухим согласным, КЧБА к КЧС, а также распределения частотности букв алфавита в русских стихах, вошедших в первую десятку, начиная с наибольшей величины.
Моделирование КЧБА в русских стихах по тематическим разделам
По полученным данным было проведено моделирование КЧБА в русских стихах по тематическим разделам на основе линейной, степенной, экспоненциальной, логарифмической зависимостей и полиному второй степени.
Применение линейной зависимости (y = аx+b) для анализа КЧБА русских стихов, начиная с наибольшей величины, показало, что по исходной величине a числа КЧБА они изменялись следующим образом: 555,31 (ТФ), 540,69 (СМ и НМ), 516,50 (СиС), 448,38 (CиР), 440,28 (Р), 354,35 (С) и 218,25 (СиП). Прирост КЧБА (величина b) колебался от 2415,70 (СиП) до 7334,70 (Р) с рассчитанным коэффициентом множественной корреляции R2 от 0,87 (С) до 0,99 (СиП).
Для степенной зависимости (y = а•xb) были получены следующие результаты: величина a (исходное число КЧБА) имела значения 4596,90(Р), 2803,10 (ТФ), 2544,90 (СМ и НМ), 2436,70 (СиС), 2234,40 (С), 2116,90 (СиР) и 1084,00 (СиП). Рассчитанная относительная скорость КЧБА составила от 0,572 (С) до 0,646 (СМ и НМ). В этом случае коэффициент множественной корреляции R2 составил от 0,96 (СиР, ТФ) до 0,99 (Р).
Применение экспоненциальной зависимости (y = а•еbх) для моделирования КЧБА показало, что КЧБА в год (величина а) колебалось, начиная с набольшей величины, от 7566,10 (Р) до 2415,20 (СиП). Рассчитанная относительная экспоненциальная скорость КЧБА была равна от 0,037 (Р) до 0,050 (СиП, СМ и НМ, СиС), а коэффициент множественной корреляции R2 – от 0,68 (СиР, ТФ) до 0,78 (Р).
Моделирование КЧБА по логарифмической зависимости (y = a•ln(x)+b) показало, что по исходному КЧБА (величина а) они располагались, начиная с наибольшей величины следующим образом: 6609,40 (ТФ), 6226,80 (СМ и НМ), 5926,40 (СиС), 5167,80 (СиР), 4765,90 (Р), 4223,00 (С) и 2516,90 (СиП).
Прирост КЧБА (величина b) был отрицательным от – 187,42 (С) до – 2318,50 (Р) с рассчитанными коэффициентами множественной корреляции R2 во всех случаях 0,98.
Сравнение относительной экспоненциальной скорости КЧБА по экспоненциальной зависимости с относительной скоростью КЧБА по степенной зависимости выявило их различие, кроме СМ и НМ, СиС.
Моделирование КЧБА по полиному второй степени (y = ax2+bx+c) показало, что величина а (значение КЧБА в начальный период) при х2 во всех случаях была отрицательной от – 9,61 (СиП) до – 23,95 (С).
Величина b (средний абсолютный прирост КЧБА) при х в полиноме второй степени изменялась почти также, как величина а КЧБА в линейной зависимости от 1369,70 (ТФ) до 535,29 (СиП), кроме СиР и Р.
Величина свободного члена с (половина ускорения КЧБА) полинома второй степени изменялась от 618,17 (СиП) до 4148,00 (Р). Рассчитанный коэффициент множественной корреляции R2 во всех указанных случаях был равен 0,99.
Таким образом, моделирование КЧБА в русских стихах по тематическим разделам показало, что наилучшие результаты получены для степенной, логарифмической зависимостей и полиному второй степени. Показано различие относительной и экспоненциальной относительной скорости КЧБА, соответственно, для степенной и экспоненциальной зависимости.
Исследование динамики энтропии алфавита и ее моделирование в русских стихах начала ХХ-го века по алгебраическим зависимостям
Известно, что объективный анализ поэтических текстов представляет собой множество слов, которые образуют по какому-либо признаку группы слов, например по тематическим разделам русского стиха ХХ-го века.
Если число всех букв (КЧБА) обозначить через Ni, а число буквы алфавита – через ni, то можно определить относительную частотность появления конкретной буквы: рi = ni/Ni. По набору относительных частотностей появления буквы или слова на данные i-ю слова или буквы можно вычислить энтропию информации по известной формуле Шеннона: Нi = – Σрi log2рi, которая измеряется в битах.
Поэтому вначале были определены относительные частотности букв алфавита к КЧБА и КЧС в указанных русских стихах. Так относительная частотность отношения буквы алфавита к КЧБА по тематическим разделам русских стихов показало, что их значения изменялись: для СиП от 0,0006 (ъ) до 0,1050 (о), СиР от 0,0001(ъ) до 0,0911 (о), Р от 0,0001 (ъ) до 0,0908 (о), СМ и НМ от 0,0002 (ъ) до 0,939 (о), С от 0,0003 (ъ) до 0,0920 (о), ТФ от 0,0002 (ъ) до 0,0928 (о) и СиС от 0,0002 (ъ) до 0,0965 (о) с вычисленной энтропией для первого случая: СМ и НМ (4,527), Р и С (по 4,524), СиР (4,522), ТФ (4,521), СиС (4,515) и СиП (4,502).
Вместе с этим относительная частотность отношения буквы алфавита к КЧС по тематическим разделам русских стихов показало, что их значения были значительно выше предыдущих вычислений: для СиП от 0,0028 (ъ) до 0,5304 (е), СиР от 0,0628 (ъ) до 0,5310 (а), Р от 0,0005 (ъ) до 0,5286 (а), СМ и НМ от 0,0012 (ъ) до 0,5301 (а), С от 0,014 (ъ) до 0,5283 (е), ТФ от 0,011 (ъ) до 0,5304 (а) и СиС от 0,0007 (ъ) до 0,5290 (е) с вычисленной энтропией: СиР (10,897), С (10,874), СМ и НМ (10,846), Р (10,840), ТФ (10,805), СиС (10,534) и СиП (10,508).

Перейдем к моделированию энтропии КЧБА в русских стихах начала ХХ-го века.
Применение линейной зависимости y = аx+b показало, что исходная энтропия (величина а) для исследованных тематических разделов, рассчитанная по отношению каждой буквы алфавита к КЧБА (КЭТР-1), имела следующие значения, начиная с наибольшей величины: по 0,144 (СиП, Р, СМ и НМ), по 0,143 (СиР, С, ТФ) и 0,142 (СиС), а по отношению каждой буквы алфавита к КЧС (КЭТР-2) – 0,342 (Р), по 0,341 (СиР, С), 0,340 (СМ и НМ), 0,338 (ТФ) и 0,331 (СиП). Приращение энтропии во всех случаях было отрицательным: для КЭТР-1 – от – 0,079 (СиС до – 0,132 (СиП) и для КЭТР-2 – от – 0,144 (СиС) до – 0,225 (Р). Рассчитанный коэффициент множественной корреляции R2 был равен 0,99.
Значения исходной энтропии (величина а), вычисленные по степенной зависимости y = а•xb, имели следующие значения, начиная с наибольшей величины: для КЭТР-1: по 0,112 (СиР, СиС), 0,109 (ТФ), 0,107 (С), 0,103 (Р), 0,098 (СиП) и 0,097 (СМ и НМ), а для КЭТР-2 - 0,311 (СиР), 0,304 (ТФ), 0,303 (С), 0,298 (СиС),0,288 (Р), 0,277 (СМ и НМ) и 0,271 (СиП).
Относительная скорость энтропии алфавита в русских стихах начала ХХ-го века (величина b) для КЭТР-1 изменялась следующим образом, начиная с наибольшей величины: 1,113 (СМ и НМ), 1,111 (СиП), 1,103 (Р), 1,081 (С), 1,077 (ТФ), 1,070 (СиР) и 1,068 (СиС), а для КЭТР-2 – по 1,055 (СМ и НМ, СиП), 1,042 (Р), 1,028 (С), 1,024 (ТФ), 1,023 (СиС) и 1,019 (СиР) с коэффициентом множественной корреляции R2 = 0,99.
Величина а в экспоненциальной зависимости (y = а•еbх), которая является исходной энтропией алфавита в русских стихах начала ХХ-го века, имела следующие значения, начиная с наибольшей величины: для КЭТР-1 – 0,406 (СиС), 0,399 (ТФ), 0,396 (С), 0,394 (СиР), 0,375 (Р), 0,374 (СМ и НМ) и 0,363 (СиП), а для КЭТР-2 – 1,031 (С), 1,027 (ТФ), 1,016 (СиР), 1,006 (СиС), 0,978 (СМ и НМ), 0,969 (Р) и 0,091 (СиП).
Полученная относительная экспоненциальная скорость КЭТР (величина b), начиная с наибольшей величины: для КЭТР-1 – от 0,092 (СиП) до 0,086 (СиС), а для КЭТР-2 – от 0,090 (СиС) до 0,083 (ТФ) с коэффициентом множественной корреляции R2 от 0,81 (СиП, Р, СМ и НМ, С, СиС для КЭТР-1) и 0,83 (для КЭТР-2) до 0,82 (СиР, ТФ для КЭТР-1) и 0,84 (СиР, Р, С, ТФ для КЭТР-2).
Исследование величины а исходной энтропии алфавита на основе логарифмической зависимости (y = a•ln(x) + b), начиная с наибольшей величины, показало, что для КЭТР-1 она имела следующие значения: 1,473 (СМ и НМ),1,472 (ТФ), 1,466 (С), 1,457 (СиС), 1,434 (Р), 1,431 (СиП) и 1,428 (СиР), а для КЭТР-2 – 3,479 (СМ и НМ), 3,458 (ТФ), 3,482 (С), 3,389 (Р), 3,388 (СиР), 3,355 (СиС) и 3,292 (СиП). Прирост значения энтропии (величина b) для КЭТР-1 и КЭТР-2 в большинстве случаев был отрицательным: от – 1,389 до – 1,471 и от – 3,174 до – 3,350, соответственно, с коэффициентом множественной корреляции R2, равным от 0,81 до 0,82.
Изменение величины а (значение энтропии в начальный период) при х2 в полиноме второй степени (y = ax2+bx+c) имело свои особенности, начиная с наибольшей величины: для КЭТР-1 – от 0,0009 (СиП, СиР, Р) до 0,0005 (ТФ), а для КЭТР-2 – от 0,0022 (СиП, Р) до 0,0015 (ТФ).
Величины b при х (средний абсолютный прирост энтропии) в полиноме второй степени, начиная с наибольшей величины, имели следующие значения для КЭТР-1: 0,126 (ТФ), по 0,121 (СМ и НМ, СиС), 0,119 (С), по 0,115 (Р, СиР) и 0,113 (СиП), а для КЭТР-2 – по 0,287 (ТФ, СМ и НМ), 0,285 (С), 0,272 (СиС), 0,270 (Р), 0,269 (СиР) и 0,264 (СиП).
Величина с, характеризующая половину ускорения энтропии в полиноме второй степени, имела следующие значения для КЭТР-1: 0,126 (ТФ), 0,122 (СМ и НМ), 0,121 (СиС), 0,119 (С), по 0,115 (Р, СиР) и 0,113 (СиП), а для КЭТР-2 – 0,240 (СиР), 0,182 (СиС), 0,180 (Р), 0,177 (СиП), 0,157 (С), 0,135 (ТФ) и 0,096 (СМ и НМ) с коэффициентом множественной корреляции R2, равным во всех случаях 0,99.
Таким образом, показано различие в относительной частотности букв в тематических разделах русских стихов начала ХХ-го века с вычисленной энтропией для первого случая: СМ и НМ (4,527), Р и С (по 4,524), СиР (4,522), ТФ (4,521), СиС (4,515) и СиП (4,502), значение относительной частотности букв к числу слов было значительно выше, чем для предыдущих вычислений с вычисленной энтропией: СиР (10,897), С (10,874), СМ и НМ (10,846), Р (10,840), ТФ (10,805), СиС (10,534) и СиП (10,508). Впервые проведено моделирование энтропии алфавита русского языка в тематических разделах русских стихов по линейной, степенной, логарифмический зависимостям и полиному второй степени. Выявлены сходство и различие коэффициентов в указанных зависимостях. Наилучшие результаты моделирования энтропии получены для линейной, степенной зависимостей и полиному второй степени.
О выявление ядерной зоны букв алфавита в русских стихах начала ХХ-го века (распределение Бредфорда)
Известно, что для каждой предметной области, представляемой основными потребителями информации, можно определить минимальное и максимальное число журналов или книг по распределению Бредфорда [17].
Поэтому этот закон можно применить к тематическим разделам русских стихов начала ХХ-го века для выявления минимального числа букв алфавита (ядерная зона) и их распределение по трем неравномерным зонам [18].
Определение ядерной зоны слов алфавита русских стихов проводили по точкам пересечения кривых логарифмической зависимости и полинома второй степени [7].
Так для тематического раздела СиП I-я (ядерная) зона содержала две буквы (о, е) с частотой 1487, II-зона – 12 букв (а, и, н, т, в, с, л, р, к, м, у, д) с частотой 4825, III-я зона – 14 букв (ы, п, я, г, ь, й, б, х, з, ч, ж, ш, ю, ц) с частотой 11749 и соотношением 1:3,24:1,17;
для тематического раздела СиР – I-я (ядерная) зона содержала две буквы (о, е) с частотой 3011, II-зона – 12 букв (а, н, и, т, с, л, р, в, к, м, у, д) с частотой 9727, III-я зона – 14 букв (ы, п, й, ч, з, я, б, ь, г, ш, х, ж, ю, ц) с частотой 3806 и соотношением 1:3,23:1,26;
для тематического раздела Р – I-я (ядерная) зона содержала две буквы (о, е) с частотой 3297, II-зона – 12 букв (а, н, и, т, с, в, л, р, м, к, д, у) с частотой 10653, III-я зона – 14 букв (п, ы, я, ь, з, й, б, г, ч, х, ж, ш, ю, ц) с частотой 4149 и соотношением 1:3,23:1,26;
для тематического раздела СМ и НМ – I-я (ядерная) зона содержала две буквы (о, е) с частотой 3571, II-зона – 12 букв (а, и, н, т, с, л, в, р, к, д, м, у) с частотой 11729, III-я зона – 14 букв (ы, п, я, ь, з, б, г, й, ч, х, ш, ж, ю, ц) с частотой 4582 и соотношением 1:3,29:1,28;
для тематического раздела С – I-я (ядерная) зона содержала две буквы (о, е) с частотой 3009, II-зона – 12 букв (и, а, н, т, с, р, в, л, м, к, у, д) с частотой 8006, III-я зона – 14 букв (п, ы, з, я, й, ь, г, б, ч, х, ж, ш, ю, ц) с частотой 3035 и соотношением 1:2,66:1,01;
для тематического раздела ТФ – I-я (ядерная) зона содержала две буквы (о, е) с частотой 3858, II-зона – 12 букв (а, н, и, т, р, л, в, с, м, к, д, п) с частотой 12474, III-я зона – 15 букв (у, ы, й, я, з, г, ь, б, ч, х, ж, ю, ш, ц) с частотой 5044 и соотношением 1:3,23:1,31;
для тематического раздела СиС – I-я (ядерная) зона содержала две буквы (о, е) с частотой 3517, II-зона – 12 букв (а, н, т, и, с, л, р, в, к, д, м, у) с частотой 11011, III-я зона – 15 букв (ы, п, й, я, ь, б, з, г, ч, ж, х, ш, ю, ц, щ) с частотой 4437 и соотношением 1:3,13:1,26.
Таким образом, впервые проведено применение распределения Бредфорда к тематическим разделам русских стихов начала ХХ-го века. Показано наличие трех наравномерных зон концентрации и рассеяния букв русского алфавита и их соотношения по трем зонам. Для большинства тематических разделов в ядерную зону вошли две буквы – о, е, 12 букв алфавита входили во вторую зону и 14 – 15 букв – в третью зону. Доказано соответствие букв русского алфавита распределению Бредфорда.
Применение закона Ципфа для анализа алфавита в русских стихах начала ХХ-го века
Закон Ципфа гласит о том, что, если к какому-либо достаточно большому тексту составить список ранжированных в порядке убывания всех встречающихся слов, то произведение их ранга на частоту слова будет величиной постоянной: f•r = c, где f – частота встречаемости слова в тексте, r – ранг слова в списке, c – эмпирическая постоянная величина [17].
Можно применить закон Ципфа для букв алфавита русского языка в стихах русских поэтов начала ХХ-го века. Результаты данного исследования показывают, что для тематического раздела СиП произведение ранга буквы на убывающую ее частоту есть величина непостоянная, которая колеблется от 851 (о, ранг 1) до 3708 (м, ранг 12) и падает до 160 (ъ, ранг 32). Однако, если рассматривать логарифм произведения ранга буквы на ее частотность, наблюдается увеличение величины с, с буквы е до буквы м (12 ранг), равной 3,57, затем ее снижение до буквы ю (ранг 27) – 3,18, что указывает на соответствие закону Ципфа. После ранга 27 до ранга 32 закон Ципфа не подтверждается;
для тематического раздела СиР произведение ранга буквы на убывающую ее частоту также есть величина непостоянная, которая колеблется от 1516 (о, ранг 1) до 7263 (р, ранг 9) и падает до 1421 (щ, ранг 29). Однако, если рассматривать логарифм произведения ранга буквы на ее частотность, наблюдается увеличение величины с с буквы о до буквы р (9 ранг), равной 3,86, затем ее снижение до буквы щ (ранг 29) – 3,15, что указывает на соответствие закону Ципфа. После ранга 29 до ранга 32 закон Ципфа не подтверждается;
для тематического раздела Р произведение ранга буквы на убывающую ее частоту также есть величина непостоянная, которая колеблется от 1655 (о, ранг 1) до 8310 (р, ранг 10) и падает до 2204 (щ, ранг 29). Однако, если рассматривать логарифм произведения ранга буквы на ее частотность, наблюдается увеличение величины с с буквы о до буквы р (10 ранг), равной 3,92, а затем ее снижение до буквы щ (ранг 29) – 3,34, что указывает на соответствие закону Ципфа. После ранга 29 до ранга 32 закон Ципфа не подтверждается;
для тематического раздела СМ и НМ произведение ранга буквы на убывающую ее частоту также есть величина непостоянная, которая колеблется от 1880 (о, ранг 1) до 9290 (р, ранг 10) и падает до 2204 (щ, ранг 29). Однако, если рассматривать логарифм произведения ранга буквы на ее частотность, наблюдается увеличение величины с с буквы о до буквы р (10 ранг), равной 3,97, затем ее снижение до буквы щ (ранг 29) – 3,34, что указывает на соответствие закону Ципфа. После ранга 29 до ранга 32 закон Ципфа не подтверждается;
для тематического раздела С произведение ранга буквы на убывающую ее частоту также есть величина непостоянная, которая колеблется от 1880 (о, ранг 1) до 6290 (л, ранг 10) и падает до 1160 (щ, ранг 29). Однако, если рассматривать логарифм произведения ранга буквы на ее частотность, наблюдается увеличение величины с с буквы о до буквы л (10 ранг), равной 3,80, затем ее снижение до буквы щ (ранг 29) – 3,33, что указывает на соответствие закону Ципфа. После ранга 29 до ранга 33 закон Ципфа не подтверждается;
для тематического раздела ТФ произведение ранга буквы на убывающую ее частоту также есть величина непостоянная, которая колеблется от 1990 (о, ранг 1) до 9700 (с, ранг 10) и падает до 2146 (щ, ранг 29). Однако, если рассматривать логарифм произведения ранга буквы на ее частотность, наблюдается увеличение величины с с буквы о до буквы с (10 ранг), равной 3,99, затем ее снижение до буквы щ (ранг 29) – 3,33, что указывает на соответствие закону Ципфа. После ранга 29 до ранга 33 закон Ципфа не подтверждается;
для тематического раздела СиС произведение ранга буквы на убывающую ее частоту также есть величина непостоянная, которая колеблется от 1831 (о, ранг 1) до 8640 (в, ранг 10) и падает до 1798 (щ, ранг 29). Однако, если рассматривать логарифм произведения ранга буквы на ее частотность, наблюдается увеличение величины с с буквы о до буквы в (10 ранг), равной 3,94, затем ее снижение до буквы щ (ранг 29) – 3,25, что указывает на соответствие закону Ципфа. После ранга 29 до ранга 32 закон Ципфа не подтверждается.
Следует отметить, что произведение убывающей ЧБ русского алфавита на ранг буквы в стихах поэтов начала ХХ-го века хорошо аппроксимируется полиномом второй степени:
Тематический
раздел Полином второй степени Тематический
раздел Полином второй степени
СиП y = - 12,13х2+347,09х+955,21, R2=0,94 С y = - 19,11х2+546,55х+1824,30, R2=0,96
СиР y = - 24,37х2+708,95х+1900,40, R2=0,93 ТФ y = - 30,27х2+885,23х+2540,10, R2=0,94
Р y = - 26,57х2+771,10х+2125,70, R2=0,96 СиС y = - 30,60х2+891,41х+1803,80, R2=0,94
СМ и НМ y = - 29,54х2+859,72х+2260,90, R2=0,93

Графически произведение убывающей частотности букв русского алфавита на ранг буквы в русских стихах представляет собой одновершинную параболу. Произведение log f на ЧБ в виде кумуляты хорошо аппроксимируется линейной, степенной зависимостями и полиномом второй степени (см. графики).
Изменение величины а (значение частотности букв в начальный период) при х2 в полиноме второй степени (y = ax2+ bx+c) имело свои особенности, начиная с наибольшей величины, составило: для СиС (– 30,60), ТР (– 30,27), СМ и НМ (– 29,54), Р( – 26,57), СиР (– 24,37), С (– 19,11) и СиП (– 12,13).
Величины b при х (средний абсолютный прирост частотности букв) были положительными в полиноме второй степени, начиная с наибольшей величины, имели следующие значения: для СиС – 891,41, ТР – 885,23, СМ и НМ – 859,72, Р – 771,10, СиР – 708,95, С – 546,55 и СиП – 347,09.
Величина с, характеризующая половину ускорения частотности букв в полиноме второй степени была положительной. Она имела следующие значения: для ТР – 2540,10, СМ и НМ – 2260,90, Р – 2125,70, СиР – 1900,40, С – 1824,30, СиС – 1803,80 и СиП – 955,21 с коэффициентами множественной корреляции R2, равными от 0,93 (СиР, СМ и НМ) до 0,96 (Р, С).
Значение логарифма произведения ранга на кумулятивную убывающую частотность букв для русских стихов начала ХХ-го века хорошо описывались линейной зависимостью:
Тематический
раздел Линейная зависимость Тематический
раздел Линейная зависимость
СиП y = 3,39х - 0,24, R2 = 0,99 С y = 3,59х + 0,19, R2 = 0,99
СиР y = 3,71х - 0,35, R2 = 0,99 ТФ y = 3,80х - 0,37, R2 = 0,99
Р y = 3,76х - 0,36, R2 = 0,99 СиС y = 3,76х - 0,22, R2 = 0,99
СМ и НМ y = 3,80х - 0,38, R2 = 0,99

Применение линейной зависимости (y = аx+b) для вычисления значений логарифма произведения ранга на кумулятивную убывающую частотность букв для русских стихов начала ХХ-го века, начиная с наибольшей величины, показало, что по исходной величине a они располагались следующим образом, начиная с наибольшей величины: по 3,80 (СМ и НМ, ТР), по 3,76 (СиС, Р), 3,71 (СиР), 3,59 (С) и 3,39 (СиП).
Прирост значений логарифма произведения ранга на кумулятивную убывающую частотность букв (величина b) был отрицательным, кроме С (0,19), который колебался от – 0,04 (ТР) до – 0,38 (СМ и НМ) с рассчитанным коэффициентом множественной корреляции R2 во всех случая равным 0,99.
Таким образом, впервые показано применение закона Ципфа для наукометрического анализа алфавита в тематических разделах русских стихов начала ХХ-го века. Показано, произведение ранга буквы на ее частоту есть величина непостоянная для всего алфавита и постоянная для большинства букв, т.е. подтверждается закон Ципфа для русского алфавита в стихах русских начала ХХ-го века.
Обсуждение полученных результатов
Представленная в работах [19-20] относительная частотность алфавита русского языка имела следующие значения: от 0,003 (э, щ) до 0,062 (а); от 0,002 (ф) до 0,095 (о). По сравнению с полученными нами результатами эти значения относительной частотности алфавита русского языка были ниже. По всей вероятности, в указанных работах были исследованы прозаические или научно-технические тексты.
Следует отметить, что данные, приведенные в работе [20] по относительной частотности букв русского алфавита были схожи с рядом тематических разделов стихов русских поэтов: щ (С, ТФ, СиС), ш (СиП, С, СиС), х (СиС), ж (СиП), ч (СиП, Р, ТФ, СиС), б (С), я (СиР), п (СиС), с (ТФ), т (СМ и НМ), и (СиР, Р, СМ и НМ, С, ТФ), а (С, СиС), о (СиП, Р, СМ и НМ, СиС), т.е. в 36,40% всех букв.
Приведенные в работе [16] показатели энтропии алфавита в стихах Н. Рубцова от 3,884 до 4,613 для 45 стихов, из них только восемь стихов (17,8%) имели энтропию больше 4,500. По сравнению с полученными нами данными по тематическим разделам русских стихов начала ХХ-го века по 293 стихам энтропия колебалась от 4,502 СиП до 4,527 СМ и НМ.
Выводы
1. Показано различие в динамике ЧБА и КЧС тематических разделов русских стихов начала ХХ-го века, в отношении гласных к согласным, гласных к гласным, звонких к глухим согласным, КЧБА к КЧС, а также распределения частотности букв алфавита в русских стихах, вошедших в первую десятку, начиная с наибольшей величины.
2. Моделирование КЧБА в русских стихах по тематическим разделам показало, что наилучшие результаты получены для степенной, логарифмической зависимостей и полинома второй степени. Показано различие относительной и экспоненциальной относительной скорости КЧБА, соответственно, для степенной и экспоненциальной зависимости.
3. Показано различие в относительной частотности букв в тематических разделах русских стихов начала ХХ-го века с вычисленной энтропией для первого случая: СМ и НМ (4,527), Р и С (по 4,524), СиР (4,522), ТФ (4,521), СиС (4,515) и СиП (4,502), значение относительной частотности букв к числу слов было значительно выше, чем для предыдущих вычислений с энтропией: СиР (10,897), С (10,874), СМ и НМ (10,846), Р (10,840), ТФ (10,805), СиС (10,534) и СиП (10,508).
4. Впервые проведено моделирование энтропии алфавита русского языка в тематических разделах русских стихов по линейной, степенной, логарифмической зависимостям и полиному второй степени. Показано сходство и различие коэффициентов в указанных зависимостях. Наилучшие результаты моделирования энтропии получены для линейной, степенной зависимостей и полинома второй степени. Введено понятие относительной и относительной экспоненциальной скорости энтропии алфавита русского языка на основе степенной и экспоненциальной зависимостей.
5. Впервые проведено применение распределения Бредфорда к алфавиту тематических разделов русских стихов начала ХХ-го века. Показано наличие трех наравномерных зон концентрации и рассеяния букв русского алфавита и их соотношения по трем зонам. Для большинства тематических разделов в ядерную зону вошли две буквы – о, е, 12 букв алфавита – во вторую зону и 14 – 15 букв – в третью зону. Доказано соответствие букв русского алфавита распределению Бредфорда.
6. Впервые показано применение закона Ципфа для наукометрического анализа алфавита в тематических разделах русских стихов начала ХХ-го века. Выявлено, что произведение ранга буквы на ее частоту есть величина непостоянная для всего алфавита и постоянная для большинства его букв, т.е. подтверждается закон Ципфа для русского алфавита в русских стихах начала ХХ-го века. Графически произведение убывающей частотности букв русского алфавита на ранг буквы в русских стихах представляет собой одновершинную параболу. Произведение log f на убывание ЧБ в виде кумуляты хорошо аппроксимируется линейной, степенной зависимостями и полиномом второй степени.
Список литературы
1. Бродский И. Урания: Стихотворения. – СПб.: Изд-во ˝Азбука˝, ˝Азбука-Аттикус˝, 2010, – 224с.
2. Гаспаров М.Л. Русский стих начала ХХ века в комментариях. 3-е изд. М.: КДУ, 2004. – 312с.
3. Горькова В. И. Информетрия. Итоги науки и техники. – М.: ВИНИТИ. – 1988. – Т. 10. – 190с.
4. Климов Ю.Н. Наукометрический анализ двух редакций текстов древнерусских рукописей "Беседа отца с сыном о женской злобе". http://obshelit.net/users/-rr/23.09.2010,12:01.
5. Климов Ю.Н. Наукометрическое исследование 151-го псалма на церковно-славянском и литературном русском языках. http://obshelit.net.2010.11/14.16:37.
6. Климов Ю.Н. Сравнительный наукометрический анализ трех древнерусских текстов: ″Феврония″, ″Задонщина″ и ″Беседа отца с сыном о женской злобе″. http://obshelit.net.2011/01/10.15:15
7. Климов Ю.Н. Наукометрический анализ гласных в ″Слове о полку Игореве″. http: //obshelit.net.2011/02/16;15:07.
8. Климов Ю.Н. Разработка методологических основ анализа информационных потоков в процессе создания перспективных технологий и новых знаний (Депонирована в ФГУП ВИМИ, ДО № 8883, Москва, 2001).
9. Климов ЮН. Разработка организационных принципов генерации и анализа информационных ресурсов в процессе создания перспективных технологий (Депонирована в ФГУП ВИМИ, ДО № 8977, Москва, 2005).
10. Климов Ю.Н. Методы анализа потоков научно-технической информации в процессе эффективной реализации функционирования информационных технологий. – М.: ФГУП ″ВИМИ″, ДО № 9040, 2008. – 302с.
11. Климов Ю.Н. Квалиметрическое исследование русского стиха на основе наукометрического подхода. http://Informetrics.ru/articles/sn.php? id=74, 30.07.2010.
12. Климов Ю.Н. Системная методология исследование реальных потоков научно-технической информации в среде мирового информационного пространства. – М.: 2009. – 312 с. http://www.rags. ru/node/2751.
13. Кирносов В.В. Применение статистических методов в сравнительных исследованиях художественных текстов. //˝ИТО-Сибирь-2008˝, http://ito/edu/ru/2008/Kursk/
14. Анализ текстов http://www statsoft.ru/home/portal/exchange/text analysis html. 20.04.2011.
15. Применение частотных характеристик текстов. http://lag-web chat.ru/texts.html.
16. Частотный анализ поэтических текстов по всем буквам. http://mgpu.ru/download.pdp?id=2414.
17. Солтон Дж. Динамические библиотечно-информационные системы. – М.: Изд-во ˝Мир˝. 1979. – С. 186,198.
18. Климов Ю.Н. Моделирование распределений Бредфорда и Ципфа. // Межотраслевая информационная служба. 2008. № 4. С. 60-62.
19. Нечаев В.И. Элементы криптографии (Основы теории защиты информации). – М.: Высшая школа. 1999. – 109с.
20. Вентцель Е.С. Теория вероятностей. – М.: ˝Наука˝. 4-е изд., 1969. – С. 504.
Дескрипторы: Наукометрия. Анализ. Алфавит. Стихи. Русские поэты. Начало ХХ-го века. Динамика букв алфавита. Отношение гласных. Отношение звонких и глухих согласных. Алгебраические зависимости. Моделирование. Энтропия. Относительная скорость энтропии. Относительная экспоненциальная скорость энтропии. Распределение Бредфорда. Закон Ципфа. Тематические разделы. Стих и проза. Стихораздел и рифма. Ритмика. Силлабо-тоническая метрика. Несиллабо-тоническая метрика. Строфика. Твердые формы. Стих и смысл.

Читатели (1462)

Добавить отзыв

Наукометрический анализ алфавита в русских стихах начала ХХ-го века

Литературоведение, литературная критика