ОБЩЕЛИТ.NET - КРИТИКА
Международная русскоязычная литературная сеть: поэзия, проза, литературная критика, литературоведение.
Поиск по сайту  критики:
Авторы Произведения Отзывы ЛитФорум Конкурсы Моя страница Книжная лавка Помощь О сайте
Для зарегистрированных пользователей
логин:
пароль:
тип:
регистрация забыли пароль
 
Анонсы

StihoPhone.ru

ЗАКОН БЕНФОРДА В ЛЕКСИКОЛОГИИ

Автор:
Автор оригинала:
Климов Ю.Н., Климов О.Н.
Закон Бенфорда или закон первой цифры гласит, что в таблицах чисел, основанных на данных источников из реальной жизни, цифра 1 на первом месте встречается гораздо чаще, чем все остальные (рис. 1). Более того, чем больше цифра, тем меньше вероятности, что она будет стоять в числе на первом месте [1 http://baguzin.ru/wp/zakon-benforda-ili-zakon-pervoj-tsifry/].

Рис. 1. Вероятность встретить первую цифру в данных из источников реальной жизни [2].
Например, если подсчитать, с какой частотой встречаются первые цифры в числах, являющихся степенью двойки, то закономерность будет почти такой же (рис. 2). Аналогично ведут себя числа Фибоначчи и чуть менее «красиво» факториалы (Рис. 2 Excel-файла). Закону Бенфорда подчиняются числа из многих областей, к примеру, из области финансов. В действительности, закон как нельзя лучше подходит для обработки большого массива финансовых показателей на предмет мошенничества. Закон Бенфорда применим к множествам чисел, которые могут расти экспоненциально (темп роста величины пропорционален её текущему значению). Например, счета за электричество, остатки товаров на складах, цены на акции, численность населения, смертности т.п.
Закон не действует для распределений с заданными минимальными или максимальными значениями (список компаний с доходом от 50 000 до 100 000 долларов). И не подходит нормальное распределение и распределения, охватывающие только один или два порядка величин (IQ взрослых). Закон Бенфорда не применим к множеству букв (например, к словам применим закон Ципфа). Объём данных должен быть достаточен для применения статистических методов.


Рис. 2. Первая цифра в числах, являющихся степенью двойки, для диапазона от 20 до 21000 [1].
Форма Закона Бенфорда может быть объяснена, если предположить, что равномерно распределены логарифмы чисел; например, вероятность нахождения числа между 100 и 1000 (логарифм между 2 и 3) является такой же, как и между 10 000 и 100 000 (логарифм между 4 и 5). Для множества чисел, особенно имеющих экспоненциальный рост, таких как доходы или цены на бирже, это разумное предположение. Закон Бенфорда выполняется для всех процессов, имеющих фрактальную природу Для того чтобы установить явный вид функции F(n), удовлетворяющей закону Бенфорда, рассмотрим переменную величину G(t), растушую по показательному (экспоненциальному) закону [3].
Время, за которое G(t) возрастает от 1 до 10, примем за единицу времени; тогда G(t) = 10t. Разделим интервал [0, 1] на отрезки, внутри которых значения G(t) заключены между последовательными целыми числами. Их границами служат точки lg1 = 0, lg2, lg3…..lg9, lg10 = 1 (рис. 3).

Рис. 3. Объяснение закона Бенфорда [2].
Когда G(t) нарастёт до 10, примем эту десятку за новую единицу измерения, а текущее время – за новое начало отсчета; при этом процесс нарастания G(t) в следующем разряде от новой единицы до новой десятки каждый раз будет описываться одной и той же формулой. Вероятность обнаружить величину G в таком состоянии, что её первая цифра равна n, равна длине n-ого отрезка:
..
Значения F(n), вычисленные по этой формуле, приведены в таблице:
Первая цифра Значение F(n) или вероятность встретить цифру первой
1 30,103%
2 17,609%
3 12,494%
4 9,691%
5 7,918%
6 6,695%
7 5,799%
8 5,115%
9 4,576%
Предыдущее описание приведено по работе [1 http://baguzin.ru/wp/zakon-benforda-ili-zakon-pervoj-tsifry/].
Выдвигается гипотеза о применимости закона Бенфорда для лексикологии
Приведем наши численные данные в области лексикологии [4]:
• CФ АК 1-3 ЛНТ - Словоформы в романе «Анна Каренина» (Часть 1-3) Л.Н. Толстого;
• CУ АК 1-3 ЛНТ – Словоупотребления в романе «Анна Каренина» (Часть 1-3) Л.Н. Толстого;
• И.А. Бродский. Графемы;
• Псалтирь;
• В.В. Левик. Частота слов в поэме Г. Гейне «Германия. Зимняя сказка»;
• А.С. Пушкин «Евгений Онегин» Графемы;
• Л. Н. Толстой «Война и мир». Графемы;
• А.Н. Толстой «Пётр 1». Графемы
Значение F(n) или вероятность встретить цифру первой, вычисленные по этой формуле, приведены в табл. 1-8.
Таблица 1.
Словоформы в романе Л.Н. Толстого «Анна Каренина» (Часть 1-3)
Словоформы Первая цифра Динамика.
Числа Значение F(n) или вероятность встретить цифру первой Кумулятивные
числа Значение F(n) или вероятность встретить цифру первой
1 7 30,103% 7 30,103%
2 2 17,609% 9 47,712%
3 3 12,494% 12 60,206%
4 3 9,691% 15 69,897%
5 2 7,918% 17 77,815%
6 4 6,695% 21 84,510%
7 2 5,799% 23 90,309%
8 0 5,115% 23 95,424%
9 2 4,576% 25 100,000%
25 100,000%
Таблица 2.
Словоупотребления в романе Л.Н. Толстого «Анна Каренина» (Часть 1-3)
Словоупотребления Первая цифра Динамика.
Числа Значение F(n) или вероятность встретить цифру первой Кумулятивные
числа Значение F(n) или вероятность встретить цифру первой
1 14 30,103% 14 30,10%
2 4 17,609% 18 47,712%
3 2 12,494% 20 60,206%
4 1 9,691% 21 69,897%
5 1 7,918% 22 77,815%
6 0 6,695% 22 84,510%
7 1 5,799% 23 90,309%
8 1 5,115% 24 95,424%
9 1 4,576% 25 100,000%
100,000%
Таблица 3.
И.А. Бродский Стихи. Графемы

И.А. Бродский Графемы
Первая
цифра
Динамика.
Числа Значение F(n) или вероятность встретить цифру первой Кумулятивные
числа Значение F(n) или вероятность встретить цифру первой
1 8 30,103% 8 30,203%
2 5 17,609% 13 47,812%
3 5 12,494% 18 60,306%
4 3 9,691% 21 69,997%
5 2 7,918% 23 77,915%
6 4 6,695% 27 84,610%
7 0 5,799% 27 90,409%
8 4 5,115% 31 95,524%
9 2 4,576% 33 100,100%
33 100,000%
Таблица 4.
Псалтирь

Псалтирь
Динамика.
Числа Значение F(n) или вероятность встретить цифру первой Кумулятивные
числа Значение F(n) или вероятность встретить цифру первой
1 8 30,103% 8 30,103%
2 3 17,609% 11 47,712%
3 6 12,494% 17 60,206%
4 1 9,691% 18 69,897%
5 6 7,918% 24 77,815%
6 1 6,695% 25 84,510%
7 1 5,799% 26 90,309%
8 6 5,115% 32 95,424%
9 1 4,576% 33 100,000%
33 100,000%

Таблица 5.
В.В. Левик Частота слов в поэме Г. Гейне «Германия. Зимняя сказка»

Частота слов
Числа Динамика.
Числа Значение F(n) или вероятность встретить цифру первой Кумулятивные
числа Значение F(n) или вероятность встретить цифру первой
1 10 30,103% 10 30,103%
2 6 17,609% 16 47,712%
3 4 12,494% 20 60,206%
4 2 9,691% 22 69,897%
5 0 7,918% 22 77,815%
6 2 6,695% 24 84,510%
7 3 5,799% 27 90,309%
8 4 5,115% 31 95,424%
9 0 4,576% 31 100,000%
31 100,000%

Таблица 6 .
А.С. Пушкин «Евгений Онегин» Графемы
Графемы. «Евгений Онегин»
Первая цифра Динамика.
Числа Значение F(n) или вероятность встретить цифру первой Кумулятивные
числа Значение F(n) или вероятность встретить цифру первой
1 7 30,103% 7 30,103%
2 8 17,609% 15 47,712%
3 4 12,494% 19 60,206%
4 2 9,691% 21 69,897%
5 3 7,918% 24 77,815%
6 2 6,695% 26 84,510%
7 1 5,799% 27 90,309%
8 3 5,115% 30 95,424%
9 2 4,576% 32 100,000%
100,000% 100,000%
Таблица 7.
Л. Н. Толстой «Война и мир». Графемы.

Графемы. «Война и мир» Первая цифра Динамика.
Числа Значение F(n) или вероятность встретить цифру первой Кумулятивные
числа Значение F(n) или вероятность встретить цифру первой
1 9 30,103% 9 30,103%
2 10 17,609% 19 47,712%
3 2 12,494% 21 60,206%
4 3 9,691% 24 69,897%
5 3 7,918% 24 77,815%
6 2 6,695% 26 84,510%
7 3 5,799% 27 90,309%
8 1 5,115% 30 95,424%
9 0 4,576% 32 100,000%
32 100,000%
Таблица 8.
А.Н. Толстой «Пётр 1» Графемы
Графемы. ПЁТР 1. Первая цифра Динамика.
Числа Значение F(n) или вероятность встретить цифру первой Кумулятивные
числа Значение F(n) или вероятность встретить цифру первой
1 14 30,103% 14 30,103%
2 3 17,609% 17 47,712%
3 2 12,494% 19 60,206%
4 5 9,691% 24 69,897%
5 2 7,918% 26 77,815%
6 3 6,695% 29 84,510%
7 0 5,799% 29 90,309%
8 3 5,115% 30 95,424%
9 1 4,576% 33 100,000%
33 100,000% %
Числа в исследованных произведениях изменяются от 23 словоформы в романе Л.Н. Толстого «Анна Каренина» (Часть 1-3) до 33 А.Н. Толстой «Пётр 1».
Значение F(n) или вероятность встретить цифру первой во всех примерах составляют при числах 1-9 от 30,103% до 4,576%, а кумулятивные числа - от 30,103% до 100,000%.
Таким образом, опровергается мнение [1], что закон Бенфорда не применим к множеству букв, т.е. подтверждается выдвинутая нами гипотеза о применимости закона Бенфорда для описания лексикологии.
Моделирование простыми алгебраическими уравнениями перечисленных художественных произведений
Перейдем к моделированию простыми алгебраическими уравнениями перечисленных художественных произведений (рис. 4-11).
Одинаковость кривых динамики и кумуляты при равенстве значений F(n) первой цифры похожа на «рачьи» клешни (4-11)..

Рис. 4. Значение F(n словоформ в романе Л.Н. Толстого «Анна Каренина»


Рис. 5. Значение F(n словоупотреблений в романе Л.Н. Толстого «Анна Каренина»




Рис. 6. . Значение F(n. графем в стихах И.А. Бродского



Рис. 7 Значение F(n в Псалтири




Рис. 8. Значение F(n частоты слов в переводе В.В. Левиком поэмы Г. Гейне «Германия. Зимняя сказка»

Рис. 9. Значение F(n) графем в поэме А.С. Пушкина «Евгений Онегин».


Рис. 10 Значение F(n) графем в романе Л. Н. Толстой «Война и мир».




Рис. 11. Значение F(n) графем в романе А.Н. Толстого «Пётр 1».

Представленные простые алгебраические уравнения для всех примеров на рис. 1-8 динамики значений F(n) имеют одинаковые значения, например, y Д Псалтирь = -0,026x + 0,2411, R² = 0,7462 ; y = 0,2745e-0,219x, R² = 0,932; y = 0,0059x2 - 0,0852x + 0,3496, R² = 0,9446; y = -0,112ln(x) + 0,2698, R² = 0,9475; y = -0,0013x3 + 0,0256x2 - 0,1681x + 0,4362, R² = 0,9898, y = 0,3135x-0,864, R² = 0,9985 и описываются с наибольшей точностью от экспоненциального уравнения до полинома третьей степени. Наилучшей моделью является полином третьей степени. Относительная скорость для динами изменения значения F(n) составляет 0,864, а относительная экспоненциальная скорость -0,219x
Представленные простые алгебраические уравнения для всех примеров на рис. 1-8 кумулятивных значений F(n) имеют одинаковые значения, например y К Псалтирь = 0,3564e0,1314x, R² = 0,8533; y = 0,0829x + 0,3142, R² = 0,9507; y = 0,3192x0,5391, R² = 0,9913; y = 0,3228ln(x) + 0,2698, R² = 0,9934; y = -0,008x2 + 0,1631x + 0,1673, R² = 0,9962; y = 0,001x3 - 0,0234x2 + 0,2278x + 0,0997, R² = 0,9997 и описываются с наибольшей точностью от линейного уравнения до полинома третьей степени. Наилучшей моделью являются полином второй и третьей степени. Относительная скорость для кумуляты изменения значения F(n) составляет 0,5391, а относительная экспоненциальная скорость 0,1314x
Следует отметить, что F(n) или вероятность встретить цифру первой по простым алгебраическим уравнениям имеют различные значения; для динамики 0,2745 = 27,45% и для кумуляты 0,3564 = 35,64% (экспоненциальное уравнение), для динамики 0,3135 = 31,35% и для кумуляты 0,3192 = 31,92 (степенное уравнение) и для динамики 0,2411 = 24,11% и для кумуляты 0,3142 = 31,42 (линейное уравнение)
Таким образом, моделирование F(n) или вероятность встретить цифру первой по простым алгебраическим уравнениям подтверждает значения 30,108% по динамике и 0,3135 = 31,35% и по кумуляте 0,3192 = 31,92% (степенное уравнение) и по кумуляте 0,3142 = 31,42% (линейное уравнение).
Закон Бенфорда по лексикологии роднит с исследованными нами квантитативными характеристиками лексики и текстов [4-5].

Выводы

1 Впервые закон Бенфорда подтверждается для лексикологии и уточняется простыми алгебраическими уравнениями для динамики и кумулятивного числа цифр.
2 Впервые также показано по простым алгебраическим уравнениям различие динамики и кумуляты для относительной и относительной экспоненциальной скоростей изменение F(n) или вероятности встретить цифру первой.
3 Закон Бенфорда по лексикологии сближает с исследованными нами квантитативными характеристиками лексики и текстов.

Литература

1. Baguzin. Закон Бенфорда или закон первой цифры http://baguzin.ru/wp/zakon-benforda-ili-zakon-pervoj-tsifry/
2. Млодинова Л. (Не)совершенная случайность. Как случай управляет нашей жизнью
3. Schetnikov A. I.. Shchetnikova A. V. Teaching and Researching Seminar "Distribution of the First Significant Digits" Math. Ed., 2002, Issue 2(21), Pages 108–123 (Mi mo525)
4. リテラ - カート | ロシア書籍専門店 ナウカ・ジャパン naukajapan.jp/detail.php?id=153315&PHPID.. Квантитативная лексикология, корпусная лингвистика и количественная информатика: монография. Климов Ю.Н. Москва, ОчУ ВО "ММА" 340 c. hard. 2016. 年 ISBN 9785904360542 R153315
5. Климов Ю.Н. Квантитативная лексикология, корпусная лингвистика и количественная информатика: монография. Москва, ОчУ ВО "ММА" 340 c. hard. 2016. 年 ISBN 9785904360542 R153315
ДЕСКРИПТОРЫ: Ключевые слова; закон Бенфорда, информатика, математическое моделирование



Читатели (513) Добавить отзыв
 

Литературоведение, литературная критика