ОБЩЕЛИТ.NET - КРИТИКА
Международная русскоязычная литературная сеть: поэзия, проза, литературная критика, литературоведение.
Поиск по сайту  критики:
Авторы Произведения Отзывы ЛитФорум Конкурсы Моя страница Книжная лавка Помощь О сайте
Для зарегистрированных пользователей
логин:
пароль:
тип:
регистрация забыли пароль
 
Анонсы

StihoPhone.ru

О параметрах общеязыковых и научно-технических словарей

Автор:
Автор оригинала:
Климов Юрий Николаевич


О ПАРАМЕТРАХ ОБЩЕЯЗЫКОВЫХ И НАУЧНО-ТЕХНИЧЕСКИХ СЛОВАРЕЙ

Ю.Н. Климов, канд. техн. наук


Предпринята попытка проследить соотношение числа слов по алфавитному диапазону (по их убыванию и возрастанию). Это позволяет выявить специфику лексики, представленной в этих словарях.
Для исследования числа слов в алфавитном диапазоне были выбраны следующие словари:
• Энциклопедический словарь (ЭС) [1],
• Словарь терминов по информатике на русском и английском языках (словарь Воройского) [2],
• Терминологический словарь по информационной теории и практике (словарь Полушкина-Черного) [3],
• Морфемно - орфографический словарь А.Н. Тихонова (словарь Тихонова) [4],
• Словарь В.И. Даля (словарь Даля) [5],
• Новый толково-словообразовательный словарь русского языка (словарь Ефремовой) [6],
• Большой энциклопедический словарь (БЭС) [7],
• Русско-английский словарь [8],
• Русско-немецкий словарь [9],
• Электронный словарь русского литературного языка (ЭСРЛЯ) [10],
• Обратный словарь русского языка (ОСРЯ) [11]
• БЭС «Языкознание» [12],
• Словарь терминов по информатике [13].
Следует отметить, что в ОСРЯ применяется обратный по сравнению с обычными словарями порядок представления слов, т.е. не с начальной буквы, а с конечной буквы слов.
Таким образом, словари можно рассматривать как иерархическую алфавитную систему, содержащую тематические значения общеупотребительных и специализированных слов. То есть речь идет о системно-семантическом исследовании словарей с выяснением их структуры и зависимостью число слов от специфичности словаря.
Моделирование научно-технической информации на основе некоторых информационных методов было предпринято в трудах В.И. Горьковой [14], а их реализация – в работах Ю.Н. Климова[15-23], по исследованию словарей [15] и энтропии в поэзии и прозе [21,22].

Прежде всего, рассмотрим соотношение словарей по объему, 50 % числа слов, соответствующая буква и ее место в перечне слов (в словаре в алфавитном диапазоне, по убыванию число слов в словаре, по возрастанию число слов в словаре).
Анализ результатов показал, что наибольшее число слов приходится на словарь Ефремовой (122741 слово), а наименьшее – словарь по информатике (1281 слово).
50 % числа слов в алфавитном диапазоне соответствовала буква о для словаря Ефремовой, словаря Даля, словаря Тихонова, БЭС "Языкознание" и словаря Воройского. Далее 50 % число слов в словарях в алфавитном диапазоне соответствовала буква м: БЭС, ЭС и словарь Полушкина-Черного, а буква м - словарь по информатике.
При этом место буквы, соответствующей 50 % числа слов в словарях в алфавитном диапазоне, было от 12 места (словарь Полушкина-Черного) до 15 места (словари Ефремовой, Тихонова, ЭС, словарь Даля, БЭС "Языкознание"). Распределение букв в словарях по убыванию числа слов найдено следующим: 50 % числа слов по их убыванию соответствовало их распределению в алфавитном диапазоне: наибольшее – словарь Ефремовой, а наименьшее – словарь Полушкина-Черного.
50 % числа слов в словарях по убыванию соответствовала буква в (словари Ефремовой и Даля), буква а (БЭС, словарь Полушкина-Черного), буква н (словарь Тихонова), буква г (ЭС), буква о (словарь по информатике) и буква м (словарь Воройского). При этом место буквы в словарях по убыванию колебалось от 5 места (словари: Ефремовой, по информатике, Воройского и Полушкина-Черного) до 7 места (ЭС).
Вместе с этим 50 % числа слов в словарях по возрастанию число слов имело другую тенденцию. Так, 50 % числа слов по возрастанию снижалось от словаря Ефремовой до словаря по информатике (62322 и 628 слов).
50 % числа слов в словарях по возрастанию соответствовали буквы: буква г (БЭС и ЭС), буква ф (БЭС "Языкознание", словарь Воройского), буква к (словарь Ефремовой), буква н (словарь Тихонова), буква с (словарь Даля), буква т (словарь словарь Полушкина-Черного и буква о (словарь Полушкина-Черного), которые заняли места, начиная с наибольшего числа слов, приходящихся на соответствующую букву, от 22 места (словари по информатике и Воройского) до 25 места (ЭС, словарь Даля).
Рассмотрим отношение числа букв числу слов в исследованных словарях: от 0,0005 (щ) до 0,145 (с, словарь Воройского), от 0,002 (ж) до 0,129 (п, словарь Полушкина-Черного), от 0,0003(й) до 0,178 (п, словарь Тихонова), от 4,67•10-5 (й) до 0,240(п, словарь Даля), от 0,0002(й) до 0,192 (п, словарь Ефремовой), от 0.0010 (й) до 0,103 (п, БЭС), от 0,0003 (й) до 0,164 (п, русско-английский словарь) и от 2,0•10-4 (й) до 0,172 (п, русско-немецкий словарь).
Исследование отношения гласных к согласным, звонких к глухим согласным для исследованных словарей показало, что для а/я оно составило от 0 (ы, ЭСРЛЯ) до 9,0 (БЭС), и/ы – от 0 (словарь Воройского, словарь Полушкина-Черного, словарь Тихонова, словари: Даля, Ефремовой, БЭС, русско-английский и русско-немецкий словари) до 6749,47 (ЭСРЛЯ), у/ю – от 0 (словарь Полушкина-Черного) до 326,45 (ЭСРЛЯ), о/е – 0,31 (ОСРЯ) до 38,00 (словарь Воройского), б/п – от 0,24 (русско-английский словарь) до 0,83 (ЭСРЛЯ), в/ф – от 2,51 (ОСРЯ) до 421,20 ЭСРЛЯ), ф/в – от 0,02 (ЭСРЛЯ) до 1,10 (словарь Полушкина-Черного), г/к – от 0,06 (ЭСРЛЯ, ОСРЯ) до 0,57 (БЭС), д/т – от 0,26 (ОСРЯ) до 1,61 (словарь Даля), ж/ш – от 0,32 (словарь Даля) до 16,44 (ЭСРЛЯ), ш/ж – от 0,06 (ЭСРЛЯ) до 3,16 (словарь Даля), з/с – от 0,03 (ЭСРЛЯ) до 0,98 (словарь Даля).
Показателем отличия общеязыкового словаря от специального могут служить относительные величины числа слов в алфавитном диапазоне, начиная с наибольшей величины.
Согласно работе Л.В. Успенского [24] наиболее часто встречающимися буквами русского языка являются п, р, к, е, а менее встречающимися – э, ы, ф.
Проведенный анализ относительной частотности букв алфавитного диапазона представленных словарей показал, что первые 10 букв общеязыковых и специальных словарей соответствовали следующей последовательности:
• словарь Тихонова: п, с, о, в, к, н, р, з, м, б с относительной частотностью от 0,1776 до 0,0410,
• словарь Даля: п, н, о, в, с, з, к, р, б, и с относительной частотностью от 0,2478 до 0,0354,
• словарь Ефремовой: п, с, о, н, в, к, р, з, м, д с относительной частотностью от 0,1915 до 0,0387,
• БЭС: к, с, п, м, а, б, г, т, д, в с относительной частотностью от 0,1027 до 0,0444,
• ЭСРЛЯ: и, в, я, с, а, к, у, о, н, п с относительной частотностью от 0,3393 до 0,0091,
• словарь Воройского: с, п, к, а, м, и, ф, о, т, в с относительной частотностью от 0,14555 до 0,0401,
• словарь Полушкина-Черного: п, к, и, с, а, о, р, д, м, б с относительной частотностью от 0,1288 до 0,0375,
• русско-английский словарь: п, с, о, н, в, к, р, з, м, б с относительной частотностью от 0,1636 до 0,0387,
• русско-немецкий словарь: п, с, о, н, в, р, з, к, у, б с относительной частотностью от 0,1718 до 0,0371,
• ОСРЯ: ь, й, я, а, е, к, о, т, р, н с относительной частотностью от 0,2478 до 0,0140.
Эти данные свидетельствуют о том, что тематическая специфика словарей и их объемы, не говоря уже о периоде существования языка, отображенном в словаре (как например словарь В.И. Даля), накладывает совершенно очевидный отпечаток и на соотношение слов в них по начальной и конечной буквам, а также на динамику перехода от слов на одну букву к другой в строго алфавитном диапазоне, так и при расположении слов на разные буквы по убыванию и возрастанию их объемов.
Например, для букв (ф, э) получены следующие значения относительной частотности и места в алфавитном диапазоне:
• словарь Тихонова: ф, э с относительной частотностью 0,0157 (18 место), 0,0118 (11 место),
• словарь Даля: ф, э с относительной частотностью 0,0116 (21 место), 0,0027 (26 место),
• словарь Ефремовой: ф, э с относительной частотностью 0,0161 (18 место), 0,0110 (22 место),
• БЭС: ф, э с относительной частотностью 0,0287 (14 место), 0,0225 (17 место),
• ЭСРЛЯ: ф, э с относительной частотностью 0,0004 (25 место), 0,0021 (21 место),
• словарь Воройского: ф, э с относительной частотностью 0,0430 (7 место), 0,0231 (16 место),
• словарь Полушкина-Черного: ф, э с относительной частотностью 0,0351 (12 место), 0,0096 (11 место),
• русско-английский словарь: ф, э с относительной частотностью 0,0114 (21 место), 0,0099 (23 место),
• русско-немецкий словарь: ф, э с относительной частотностью 0,0126 (18 место), 0,0093 (22 место),
• ОСРЯ: ф, э с относительной частотностью 0,0014 (25 место), 0,00005 (31 место).
Как видно, слова на эти буквы очень по-разному представлены в различных словарях. Особенно мало таких слов в общеязыковых словарях. Специальные словари богаты этой лексикой, в основном, это заимствованные научные и технические термины.

Моделирование в алфавитном диапазоне числа слов в словарях

Для моделирования числа слов в алфавитном диапазоне в словарях применяли линейную, степенную, экспоненциальную, логарифмическую зависимости и полином второй степени.
Так, линейная зависимость (у=ах+b) хорошо аппроксимировала кумулятивное число слов словаря Ефремовой в алфавитном диапазоне, словаря Тихонова, БЭС (кумулята и динамика числа слов по убыванию), ЭС (динамика числа слов по убыванию и возрастанию), словарей: Даля, БЭС "Языкознание", словаря по информатике, словаря Полушкина-Черного, словаря Воройского. Полученные коэффициенты множественной корреляции составили 0,91-0,98.
По линейной зависимости динамика числа слов для всех словарей имела низкие показатели коэффициента множественной корреляции (0,05-0,15), что указывает на необходимость преобразования динамики числа слов в кумуляту для получения высоких показателей применяемых зависимостей.
Степенная зависимость (у=ахb) с высокими показателями коэффициентов множественной корреляции описывала кумулятивное число слов, кумулятивное число слов по убыванию и по возрастанию их числа (0,96-0,99).
Вместе с этим динамика число слов по возрастанию числа слов также имела высокие показатели коэффициента множественной корреляции (0,93-0,98), что несколько ниже, чем для кумулятивного числа слов в исследованных словарях. В некоторых случаях динамика числа слов по возрастанию была выше, чем кумулятивное их число по убыванию или динамика числа слов по убыванию была ниже, чем кумулятивное их число по возрастанию.
Как и в случае аппроксимации числа слов в словарях по линейной зависимости для динамики числа слов коэффициент множественной корреляции был выше, чем для степенной зависимости, а для динамики числа слов по возрастанию для линейной зависимости он был ниже в большинстве случаев, чем для степенной.
Таким образом, в большинстве случаев аппроксимация числа слов в словарях по степенной зависимости для кумулятивного их числа, числа слов по убыванию, числа слов по возрастанию имели высокие значения коэффициетов множественной корреляции (R2 = 0,93-0,99), что указывает на адекватный выбор математической зависимости для описания свойств распределения числа слов по кумуляте, а также кумулятам по возрастанию и по убыванию числа слов в словарях.
Рассмотрим аппроксимацию число слов в словарях по экспоненциальной зависимости (y=alnx+b).
Наиболее высокие аппроксимации число слов по экспоненциальной зависимости в словарях по величине множественной корреляции отмечены для следующих словарей:
• по динамике число слов по убыванию (словари по информатике и Полушкина-Черного – R2 = 0,91 и 0,96);
• по динамике число слов по возрастанию (словари по информатике и Полушкина-Черного - R2 = 0,91 и 0,97);
• по кумулятивному число слов (словарь Воройского, R2 = 0,91);
• по возрастающему и кумулятивному числу слов (словари по информатике и Полушкина-Черного – R2 = 0,90 и 0,97).
В остальных случаях величина множественной корреляции была ниже 0,90.
Сравнение моделирования числа слов в словарях по экспоненциальной с линейной зависимостью было несколько лучше в 27 случаях из 54, т.е. в 50% всех зависимостей, а по сравнению со степенной – в 16 случаях из 54, т.е. в 29,6% всех зависимостей.
Таким образом, сравнением аппроксимируемых зависимостей числа слов в словарях показано, что в этом случае наиболее приемлемой оказалась степенная зависимость, чем линейная.
Интересным было изучение относительной скорости числа слов в словарях по показателю степени в степенной зависимости.
Относительная скорость числа слов в словарях была отрицательной для динамик числа слов в словарях в алфавитном диапазоне и по убыванию для всех словарей: Ефремовой, Тихонова, ЭС, Даля, БЭС "Языкознание", по информатике, Полушкина-Черного и Воройского. Она колебалась от – 0,35 (словарь Ефремовой) до 0,59 (БЭС) и от – 1,10 (ЭС) до 1,62 (словарь Даля), соответственно.
Эти результаты указывают на специфичность лексического и численного состава словарей и различие методов статистической обработки экспериментальных данных.
В большинстве случаев относительная скорость числа слов в словарях по кумулятивному их числу, кумулятивному число слов по убыванию, динамике числа слов и кумулятивному числу слов по возрастанию были положительны и находились в пределах: 0,84 - 1,21 (ЭС, словарь Даля) , 0.41- 0.65 (словарь Даля, ЭС), 1,37 – 1,93 (словарь Полушкина-Черного, ЭС и словарь Даля) и 1.87 – 2,68 (словарь Полушкина-Черного и БЭС), соответственно. Полученные результаты указывают на специфичность исследуемого лексического материала словарей и применения статистических методов преобразования исходных данных для последующего анализа и построения алгебраических зависимостей.
Рассмотрим изменение относительной скорости числа слов в словарях по отношению к кумулятивному их числу.
Ранее было отмечено, что по показателю степени в степенной зависимости (величине b) исследованные словари в алфавитном диапазоне изменялись от – 0,35 (словарь Ефремовой) до – 0,59 (БЭС), а по динамике числа слов – от – 1,10 (энциклопедический словарь) до – 1,52 (словарь Даля) [25].
Так, для словаря Ефремовой отношение относительной скорости кумулятивного числа слов по убыванию к этой величине для кумулятивного числа слов составило 0,42, отношение относительной скорости кумулятивного числа слов к этой величине для кумулятивного числа слов – 2,13. Полученные величины для других словарей составили: 0.49 и 2,33 (словарь Тихонова), 0,72 и 3,08 (БЭС), 0,77 и 2.54 (ЭС), 0.34 и 2.12 (словарь Даля), 0,53 и 2,65 (БЭС "Языкознание"), 0,53 и 2,30 (словарь терминов по информатике), 0,58 и 1,93 (словарь Полушкина-Черного) и 0,58 и 2,68 (словарь Воройского).
Так как эти полученные величины сильно отличаются друг от друга, то всегда следует выбирать адекватную математическую зависимость с высокой величиной множественной корреляции для аппроксимации свойств числа слов в словарях. Затем следует проводить сравнение численных данных, полученных по другим алгебраическим зависимостям, а также приводить данных к определенному виду (например, к кумулятивному виду, кумуляте по убыванию или кумуляте по возрастанию числа слов в словарях).
Изменение экспоненциальной скорости числа слов словарях для динамики числа слов в словарях в алфавитном диапазоне, динамики числа слов по убыванию по экспоненциальной зависимости, как и для относительной скорости числа слов по степенной зависимости, имеют отрицательные значения от – 0,05 до – 0,18. Они были значительно ниже, чем относительная скорость числа слов по степенной зависимости.
Впервые вычислена относительная величина оценки отношения кумулятивных числа слов по убыванию и числа слов по возрастанию к кумулятивному числу слов в словарях. Для ее вычисления можно применять степенную и экспоненциальную зависимости.
Показано, что в большинстве случаев отношение экспоненциальной скорости числа слов в словарях по кумулятивному числу слов по их убыванию и по их возрастанию к кумулятивному числу слов составило 0,36 (словарь Ефремовой) – 0,75 (ЭС) и 2,09 (словарь Ефремовой) – 2,87 (БЭС), соответственно.
При этом отношение относительной скорости числа слов в словарях по кумулятивному числу слов по их убыванию и по их возрастанию к кумулятивному числу слов составило 0,42 (словарь Ефремовой) – 0,77 (ЭС) и 1,93 (словарь Полушкина-Черного) – 3,08 (БЭС).
Таким образом, для оценки кумулятивного числа слов по степенной и экспоненциальным зависимостям можно применять отношение относительных скоростей кумулятивного числа слов по убыванию, так число слов по возрастанию к кумулятивному числу слов для степенной зависимости и отношение экспоненциальных скоростей кумулятивного числа слов по убыванию, так число слов по возрастанию к кумулятивному числу слов для экспоненциальной зависимости (процент ошибки измерения составляет 1,6-8,1%). Причем эта относительная величина по возрастанию числа слов в кумулятивном виде была выше, чем число слов по убыванию.
Рассмотрим моделирование числа слов в словарях по логарифмической зависимости и полиному второй степени.
Логарифмическая зависимость хорошо аппроксимировала распределение числа слов в словарях по следующим позициям: динамика и кумулятивное число слов по убыванию (R2 = 0,91 (словарь Ефремовой) – 0,99 (словари Воройского и Полушкина-Черного). Низкие величины R2 относились к динамике числа слов словарей: словарь Ефремовой – словарь Полушкина-Черного. Что касается кумулятивного числа слов в словарях, то значения R2 были значительно лучше, чем для динамики числа слов и составили от 0,79 до 0,85 (словарь Ефремовой и ЭС).
Однако, приведение динамики числа слов к кумулятивному виду (логарифмическая зависимость) не способствовало увеличению значения R2 по сравнению с кумулятивным числом слов и оно составило 0,54 (словарь Ефремовой) – 0,59 (ЭС).
Таким образом, приведение динамики числа слов по убыванию в словарях к кумулятивному виду улучшало значения R2 и давала возможность получить адекватные алгебраические зависимости, характеризующие специфику общеязычных и специальных словарей.
Моделированием числа слов в словарях по полиному второй степени показало, что в 36 случаях значения коэффициентов множественной корреляции R2 для числа слов в словарях был равен 0,94 (словарь Ефремовой) – 0,99 (словари Ефремовой, Тихонова, БЭС – кумулята по убыванию и возрастанию числа слов, ЭС – динамика числа слов, кумулята по убыванию и возрастанию числа слов, словарь Даля - кумулята числа слов по убыванию, БЭС "Языкознание" – число слов по убыванию, динамика числа слов по возрастанию, словарь терминов по информатике – кумулята числа слов по убыванию и по возрастанию, словарь Воройского – кумулята числа слов по убыванию и по возрастанию, словарь Полушкина-Черного – кумулята числа слов по убыванию и по возрастанию, динамика числа слов по возрастанию.
Сравнение коэффициентов множественной корреляции R2 при моделировании динамики и кумулятивного числа слов в словарях для полинома второй степени с линейной, степенной, экспоненциальной и логарифмической зависимостям показало, что в большинстве случаев значение R2 было выше, чем для всех сравниваемых зависимостей: с линейной зависимостью (55 случаев), со степенной зависимостью (41 случай), с экспоненциальной зависимостью (49 случаев) и с логарифмической зависимостью (50 случаев).
Следует отметить, что для динамики числа слов в алфавитном диапазоне всех исследованных словарей R2 оставался низким и составил 0,13 (БЭС) – 0,30 (словарь терминой по информатике).
Таким образом, наиболее приемлемым условием хорошей аппроксимации числа слов в словарях и представления исходных данных для расчета является приведение их к кумулятивному виду с последующим выбором наиболее адекватной математической модели с высокими значениями коэффициента множественной корреляции R2 . В нашем случае это – полином второй степени и степенная модель.

Исследование ядерной зоны алфавитного диапазона словарей
(Распределение Бредфорда)

Известно, что для каждой предметной области, представляемой основными потребителями информации, можно определить минимальное и максимальное число журналов или книг по распределению Бредфорда [23, 25].
Поэтому этот закон нами применен к тематическим разделам русских стихов начала ХХ-го века для выявления минимального числа букв алфавита (ядерная зона) и их распределение по трем неравномерным зонам [21, 22].
Определение ядерной зоны слов алфавита русских стихов проводили по точкам пересечения кривых логарифмической зависимости и полинома второй степени [21, 23].
Для словаря Воройского I-я (ядерная) зона составила две буквы слов в словаре (с, п), начиная с наибольшей величины с общей частотностью 1264, II-я зона – 10 букв (к, а, м, и, ф, о, т, в, р, г) с общей частотностью 2194 и III-я зона – 16 букв (д, б, н, э, з, у, л, ц, я, ш, ч, х, к, е, ю, щ) с общей частотностью 956 с соотношением частотностей по зонам: 1:1,74:0,76;
• для словаря Полушкина-Черного I-я (ядерная) зона составила две буквы слов в словаре (п, к), начиная с наибольшей величины с общей частотностью 324, II-я зона – девять букв (и, с, а, о, р, д, м, б, т) с общей частотностью 680 и III-я зона – 16 букв (ф, в, з, н, г, л, н, я, э, ц, е, ч, х, ш, щ) с общей частотностью 277 с соотношением частотностей букв по зонам: 1:2,10:0,85;
• для словаря Даля I-я (ядерная) зона составила две буквы слов в словаре (п, н), начиная с наибольшей величины с общей частотностью 109887, II-я зона – 11 букв (о, в, с, з, к, р, б, и, д, у, т) с общей частотностью 29626 и III-я зона – 14 букв (м, г, ш, а, л, ч, х, ф, ж, е, ц, я, э) с общей частотностью 5516 с соотношением частотностей букв по зонам: 1:0,21:0,0005;
• для словаря Тихонова I-я (ядерная) зона составила две буквы слов в словаре (а, с), начиная с наибольшей величины с общей частотностью 25313, II-я зона – 10 букв (о, в, к, н, р, з, м, б, д, т) с общей частотностью 47759 и III-я зона – 15 букв (а, г, у, и, л, ф, ш, э, и, х, ж, ц, я, е, щ) с общей частотностью 19926 с соотношением частотностей букв по зонам: 1:1,69:0,04;
• для словаря Ефремовой I-я (ядерная) зона составила две буквы слов в словаре (п, с), начиная с наибольшей величины с общей частотностью 34624, II-я зона – 10 букв (о, н, в, к, р, з, м, д, б, т) с общей частотностью 62792 и III-я зона – 15 букв (у, г, и, л, а, ф, ш, ч, х, э, ж, ц, я, е, щ) с общей частотностью 25123 с соотношением частотностей букв по зонам: 1:1,81:0,73;
• для БЭС I-я (ядерная) зона составила две буквы слов в словаре (к, с), начиная с наибольшей величины с общей частотностью 13841, II-я зона – 11 букв (п, м, а, б, г, т, д, в, р, л, н) с общей частотностью 45269 и III-я зона – 14 букв (ф, о, и, э, х, ш, з, ч, у, ц, я, к, е, ю) с общей частотностью 14273 с соотношением частотностей букв по зонам: 1:3,27:1,03;
• для русско-английского словаря I-я (ядерная) зона составила две буквы слов в словаре (п, с), начиная с наибольшей величины с общей частотностью 7917, II-я зона – 10 букв (о, н, в, к, р, з, м, б, д, т) с общей частотностью 17606 и III-я зона – 15 букв (у, г, и, л, а, ш, ч, ц, д, х, э, ж, я, е, щ) с общей частотностью 6865 с соотношением частотностей букв по зонам: 1:2,22:0,87;
• для русско-немецкого словаря I-я (ядерная) зона составила две буквы слов в словаре (п, с), начиная с наибольшей величины с общей частотностью 16139, II-я зона – девять букв (о, н, в, р, з, к, у, б, м) с общей частотностью 29467 и III-я зона – 15 букв (д, т, и, г, а, л, ф, ш, х, ч, э, ж, ц, я, е) с общей частотностью 12894 с соотношением частотностей букв по зонам: 1:1,83:0,80;
• для электронного словаря русского литературного языка I-я (ядерная) зона составила две буквы слов в словаре (и, в), начиная с наибольшей величины с общей частотностью 155080, II-я зона – пять букв (я, с, а, к, у) с общей частотностью 114021 и III-я зона – 18 букв (о, н, п, ж, б, т, д, м, ч, з, г, е, р, э, л, х, ш, ф) с общей частотностью 28820 с соотношением частотностей букв по зонам: 1:0,74:0,19;
• для обратного словаря русского языка I-я (ядерная) зона составила две буквы слов в словаре (ь, й), начиная с наибольшей величины с общей частотностью 55321, II-я зона – пять букв (я, а, е, к, о) с общей частотностью 50489 и III-я зона – 18 букв (т, р, н, и, м, ц, ы, д, л, в, г, з, п, у, х, ж, ф) с общей частотностью15319 и IV-я – семь букв (б, ш, ч, ю, щ, э, ъ) с общей частотностью 403 с соотношением частотностей букв по зонам: 1:0,91:0,28:0,007.
Таким образом, первой букве (п), начиная с наибольшей величины, были одинаковыми следующие словари: Полушкина-Черного, Тихонова, Даля, Ефремовой, русско-английского и русско-немецкого; по второй букве (с) словари: Тихонова, Ефремовой, БЭС, русско-английский и русско-немецкий; по третьей букве (о) словари: Тихонова, Ефремовой, русско-английский и русско-немецкий; по четвертой букве (н) словари: Ефремовой, русско-английский и русско-немецкий.
Словари ОСРЯ и ЭСРЛЯ отличались от других словарей по частотности первых двух букв (и, в) ЭСРЛЯ и (ь, й) ОСРЯ, а также неравномерным соотношением частотности букв алфавита в словарях по трем зонам распределения Бредфорда, что подтверждает результаты наших работ [23, 24].
Но в противоположность исследованным распределениям слов в алфавитном диапазоне в словарях словарь ОСРЯ по последовательности частотности первых букв слов во второй зоне распределения Бредфорда были обратной, чем в других словарях.

Энтропия распределения слов в алфавитном диапазоне

Известно, что объективный анализ поэтических текстов представляет собой множество слов, которые образуют по какому-либо признаку группы слов, например по тематическим разделам русского стиха ХХ-го века [21,22,26-28].
Если число всех букв обозначить через Ni, а число буквы алфавита – через ni, то можно определить относительную частотность появления конкретной буквы: рi = ni/Ni. По набору относительных частотностей появления буквы или слова на данные i-ю слова или буквы можно вычислить энтропию информации, которая измеряется в битах, по известной формуле Шеннона: Нi = – Σрi log2рi [29].
Вычисленная энтропия в битах для исследованных словарей по динамике числа букв в алфавитном диапазоне, начиная с наибольшей величины, колебалась для: словаря Воройского – от 0 (ь, ы, ъ, й) до 0,405 (с); словаря Полушкина-Черного - от 0 (ю, ь, ы, ъ) до 0,381 (п); словаря Тихонова - от 0 (ю, ь, ы, ъ) до 0,443 (п); словаря Даля - от 0 (ь, ы, ъ) до 0,499 (п); словаря Ефремовой - от 0 (ь, ы, ъ) до 0,457 (п); БЭС - от 0 (ь, ы) до 0,337 (к); русско-английского словаря - от 0 (ь, ы, ъ) до 0,427(п); русско-немецкого словаря - от 0 (ь, ы, ъ) до 0,437(п); ЭСРЛЯ - от 0 (ь) до 0,529(и); ОСРЯ - от 0 (ъ) до 0,499 (ь).
Таким образом, наибольшее значение энтропии по динамике алфавита приходилось на букву (и) ЭСРЛЯ, букву (п) словари Даля, Ефремовой, Тихонова, русско-английский и русско-немецкий словари. При этом общая энтропия алфавита в словарях составила, начиная с наибольшей величины: БЭС (4,399), русско-английский словарь (4,226), словарь Тихонова (4,203), словарь Воройского (4,128), словарь Ефремовой (4,160), русско-немецкий словарь (4,126), словарь Полушкина-Черного (4,116), ОСРЯ (3,272) и ЭСРЛЯ (3,016).
Перейдем к моделированию энтропии алфавита слов в словарях по логарифмической зависимости и полиному второй степени.
Так, величина а энтропии по логарифмической зависимости БЭС составила 1,45, словаря Тихонова 1,34, СВр 1,32, словарей: Ефремовой 1,31, Полушкина-Черного 1,30, русско-немецкого словаря 1,29, словаря Даля 1,19, русско-английского словаря 1,05, ЭСРЛЯ 0,85 и ОСРЯ 0,83 с коэффициентом множественной корреляции от 0,92 (ОСРЯ, ЭСРЛЯ ) – 0,98 (словарь Даля).
В полиноме второй степени величина а при х2 во всех случаях была отрицательной и равной 0,005, а величина b (средний абсолютный прирост) колебалась от 0,213 (ЭСРЛЯ) до 0,294 (БЭС) с коэффициентом множественной корреляции от 0,91 (ЭСРЛЯ) до 0,99 (в остальных случаях).

Энтропия распределения слов в алфавитном диапазоне

Исследование энтропии (отношение числа слов на букву к общему числу слов) по логарифмической зависимости и полиному второй степени показало, что:
• для словаря Воройского I-я (ядерная) зона содержала две буквы составила две (с, п), начиная с наибольшей величины с общей энтропией 0,803, II-я зона – 12 букв (к, а, м, и, ф, о, т, в, р, г, д, б) с общей энтропией 2,412 и III-я зона – 14 букв (н, э, з, у, л, ц, я, ш, ч, х, ж, ю, щ, й) с общей энтропией 0,963 с соотношением энтропии по зонам: 1:3,00:0,50;
• для словаря Полушкина-Черного I-я (ядерная) зона составила две буквы слов в словаре (п, к), начиная с наибольшей величины с общей энтропией 0,755, II-я зона – 10 букв (и, с, а, о, р, д, м, б, т,ф) с общей энтропией 2,286 и III-я зона – 15 букв (в, з, у, г, л, н, я, э, ц, е, ч, х, ш, щ, ж) с общей энтропией 1,075 с соотношением энтропии букв по зонам: 1:3,028:1,423;
• для словаря Даля I-я (ядерная) зона составила две буквы слов в словаре (п, н), начиная с наибольшей величины с общей энтропией 0,816, II-я зона – 11 букв (о, в, с, з, к, р, б, и, д, у, т) с общей энтропией 2,258 и III-я зона – 14 букв (м, г, ш, а, л, ч, х, ф, ж, е, ц, я, э, щ) с общей энтропией 0,822 с соотношением энтропии по зонам: 1:2,770:1,020;
• для словаря Тихонова I-я (ядерная) зона составила две буквы слов в словаре (п, с), начиная с наибольшей величины с общей энтропией 0,764, II-я зона – 11 букв (о, в, к, н, р, з, м, б, д, т, а) с общей энтропией 2,333 и III-я зона – 15 букв (г, у, и, л, ф, ш, э, г, х, ж, ц, я, е, щ, ю) с общей энтропией 1,448 с соотношением энтропии букв по зонам: 1:3,053:1,448;
• для словаря Ефремовой I-я (ядерная) зона составила две буквы слов в словаре (п, с), начиная с наибольшей величины с общей энтропией 0,771, II-я зона – 12 букв (н, о, в, к, р, з, м, д, б, т, у, г) с общей энтропией 2,573 и III-я зона – 14 букв (и, а, л, ф, ш, ч, х, э, ж, ц, я, е, щ, ю) с общей энтропией 0,313 с соотношением энтропии букв по зонам: 1:3,337:1,055;
• для БЭС I-я (ядерная) зона составила две буквы слов в словаре (к, с), начиная с наибольшей величины с общей энтропией 0,641, II-я зона – 13 букв (п, м, а, б, г, т, д, в, р, л, н, ф, о) с общей энтропией 2,739 и III-я зона – 14 букв (и, э, х, ш, з, у, ч, ц, я, к, е, ю, щ, й) с общей энтропией 2,739 с соотношением частотностей букв по зонам: 1:4,273:1,587;
• для русско-английского словаря I-я (ядерная) зона составила две буквы слов в словаре (п, с), начиная с наибольшей величины с энтропией 0,724, II-я зона – 11 букв (о, н, в, к, р, з, н, б, д, т, у) с общей энтропией 2,399 и III-я зона – 15 букв (г, и, л, а, ш, ч, ф, ц, х, э, ж, я, е, щ, ю) с общей энтропией 1,099 с соотношением энтропии букв по зонам: 1:3,314:1,515;
• для русско-немецкого словаря I-я (ядерная) зона составила две буквы слов в словаре (п, с), начиная с наибольшей величины с общей энтропией 0,776, II-я зона – 11 букв (о, н, в, р, з, к, у, б, м, д, т) с общей энтропией 2,372 и III-я зона – 15 букв (и, г, а, л, ф, ш, х, ч, э, ж, ц, я, е, щ, ю) с общей энтропией 0,974 с соотношением энтропии букв по зонам: 1:3,056:1,255;
• для электронного словаря русского литературного языка I-я (ядерная) зона составила две буквы слов в словаре (и, в), начиная с наибольшей величины с общей энтропией 0,975, II-я зона – семь букв (я, с, а, к, у, о, н) с общей энтропией 2,575 и III-я зона – 16 букв (п, ж, б, т, д, м, ч, з, г, е, р, э, л, х, ш, ф) с общей энтропией 3,005 с соотношением энтропии букв по зонам: 1:1,621:0,467;
• для обратного словаря русского языка I-я (ядерная) зона составила две буквы слов в словаре (ь, й), начиная с наибольшей величины с общей энтропией 0,970, II-я зона – восемь букв (я, а, е, к, о, т, р, н) с общей энтропией 2,678 и III-я зона – 15 букв (и, м, ц, ы, с, д, л, в, г, з, п, у, х, ж, ф) с общей энтропией 3,226 с соотношением энтропии букв по зонам: 1:1,761:0,565, что подтверждает неравномерное соотношением энтропии букв алфавита в словарях по трем зонам распределения Бредфорда, представленное в наших работах [21-22].
Таким образом, по величине энтропии первой буквы (п), начиная с наибольшей величины, были сходны следующие словари: Полушкина-Черного, Тихонова, Даля, Ефремовой, русско-английский и русско-немецкий словари; по второй букве (с) словари: Тихонова, Ефремовой, БЭС, русско-английский и русско-немецкий словари; по третьей букве (о) словари: Тихонова, Ефремовой, русско-английский и русско-немецкий словари; по четвертой букве (н): словарь Ефремовой, русско-английский и русско-немецкий словари.
Сравнение распределения слов в словарях в алфавитном диапазоне согласно распределению Бредфорда и по энтропии показало, что словари Воройского, Полушкина-Черного, Тихонова, Даля, Ефремовой, БЭС, русско-английского словаря, русско-немецкого словаря, ЭСРЛЯ и ОСРЯ имели одинаковое число гласных в I-й ядерной зоне: с, п (словарь Воройского), п, к (словарь Полушкина-Черного), п, н (словарь Даля), п, с (словарь Тихонова, словарь Ефремовой, БЭС, русско-английский и русско-немецкий словари), и, в (ЭСРЛЯ) и ь, й (ОСРЯ); во II-й зоне в распределении Бредфорда по энтропии произошло увеличение числа букв от одной (словарь Полушкина-Черного, словарь Тихонова, русско-английский словарь) до трех букв (ОСРЯ) за счет их перехода из III-й зоны и в III-й зоне – произошло изменение порядка и числа букв.
Таким образом, показано сходство и различие распределений Бредфорда для слов в алфавитном диапазоне в словарях и по энтропии.
Помимо этого численное соотношение распределения слов в словарях в алфавитном диапазоне согласно распределениям Бредфорда и по энтропии выявило их различие и сходство словарей: Воройского и Полушкина-Черного, Тихонова и Ефремовой, русско-английского и русско-немецкого, ЭСРЛЯ и ОСРЯ.
Таким образом, полученные результаты распределения числа слов в алфавитном диапазоне в общеязыковых и специальных словарях позволили количественно исследовать динамику и кумулятивное число слов в словарях, выявить основные параметры, характеризующие эти словари (относительная скорость слов – величина b в степенной зависимости, концентрация и рассеяние слов в алфавитном диапазоне, значение энтропии). Это позволило подобрать адекватные алгебраические зависимости для их описания, выявить различие относительных скоростей изменения числа слов в алфавитном диапазоне для исследованных словарей. Помимо этого рассчитать значение энтропии для словарей, показать их сходство и различие на основе определения неравномерности зон концентрации и рассеяния для кумулятивного числа слов в алфавитном диапазоне в словарях и энтропии по Бредфорду.

Л И Т Е Р А Т У Р А

1. Энциклопедический словарь - http:wwwjiport.com/?name/EncDic.
2. Алфавитный указатель русскоязычных терминов по информатике // Воройский Ф.С. Информатика. Новый систематизированный толковый словарь - справочник. – М.: Физматлит. 2003. – 760 с.
3. П о л у ш к и н В.А., Ч е р н ы й А.И., Ж д а н о в а Г.С. и др. - Терминологический словарь по информационной теории и практике (русско-испанский) – М. - Гавана: 1969 – 191 с.
4. Морфемно-орфографический словарь А.Н. Тихонова. – М.: ООО АСТ, ООО Астрель. 2002. – 704с.
5. Словарь В.И. Даля - http:wwwjiport.com/?name=dal.
6. Толковый словарь Ефремовой Т.Ф.- http:wwwjiport.com/?name=efr.
7. Большойэнциклопедическийсловарь.-http:wwwjiport.com/?name=vedu.ru/BigEncDic.
8. Русско-английский словарь.- http:wwwjiport.com/?name=kre
9. Русско-немецкий словарь.- http:wwwjiport.com/?name=rude
10. Электронный словарь русского языка.- http:litw-win.zip
11. Обратный словарь русского языка – М.; "Сов. Энциклопедия". 1974. 944с.
12. Большой энциклопедический словарь "Языкознание" / Под ред. Ярцевой В.Н.- М.: БСЭ, 2000. – 688 с.
13. Ж д а н о в а Г.С., К о л о б р о д о в а Е.С., П о л у ш к и н В.А., Ч е р н ы й А.И. Словарь терминов по информатике на русском и английском языках. – М.: Наука, 1971. – 359 с.
14. Г о р ь к о в а В. И. Информетрия. Итоги науки и техники. - М.: ВИНИТИ. - 1988.- Т. 10. - 190 с.
15. К л и м о в Ю. Н. Разработка методологических основ анализа информационных потоков в процессе создания перспективных технологий и новых знаний (Депонирована в ФГУП "ВИМИ", ДО № 8883, Москва, 2001).
16. К л и м о в Ю. Н. Разработка организационных принципов генерации и анализа информационных ресурсов в процессе создания перспективных технологий (Депонирована в ФГУП ВИМИ, ДО № 8977, Москва, 2005).
17. К л и м о в Ю. Н. Наукометрические исследования информационных потоков в области нанонауки, наноматериалов, наноструктуры и нанотехнологии на основе зарубежной и отечественной библиографии // Межотраслевая информационная служба. – 2005. - № 2-3 (131-132). - С. 3-23.
18. К л и м о в Ю.Н. Наукометрическое исследование отечественной библиографии по наноструктурам и нанотехнологиям. – Межотраслевая информационная служба..- 2007. - № 4. - С. 47-55.
19. К л и м о в Ю.Н. Методы анализа потоков научно-технической информации (Обзор). // Межотраслевая информационная служба. № 1, 2008, с. 34-53.
20. К л и м о в Ю.Н. Исследование потоков научно-технической информации на основе отечественной библиографии по наноструктурам и нанотехнологиям. // Научно-техническая информация. Сер.1. Организация и методика информационной работы. 2007. - № 12.- С. 17-25.
21. К л и м о в Ю.Н. Наукометрический анализ алфавита в русских стихах начала ХХ-го века // http: obshelit.net.19-07-2011;17:42.
22. К л и м о в Ю.Н. Квалиметрический анализ алфавита в русской поэзии и в произведениях древнерусской литературы // http: obshelit.net. 2011; 10/10,14:45.
23. К л и м о в Ю.Н. Моделирование распределений Бредфорда и Ципфа. // Межотраслевая информационная служба. 2008. № 4. С. 60-62.
24. У с п е н с к и й Л.В. Слово о словах. – М.: Изд-во ˝Молодая гвардия˝,– С. 136.
25. С о л т о н Дж. Динамические библиотечно-информационные системы. – М.: Изд-во ˝Мир˝. 1979. – С. 186,198.
26. К и р н о с о в В.В. Применение статистических методов в сравнительных исследованиях художественных текстов. //˝ИТО-Сибирь-2008˝,http://ito/edu /ru/2008/Kursk/
27. Анализ текстов http://www statsoft.ru/home/portal/exchange/text analysis html. 20.04.2011.
28. Применение частотных характеристик текстов. http://lag-web chat.ru/texts.html.
29. Частотный анализ поэтических текстов по всем буквам. http://mgpu.ru/download.pdp?id=2414.

Дескрипторы: сравнительный анализ, словари русского языка, словари по информатике, динамика слов, кумулятивное число слов, распределение Бредфорда, энтропия слов в словарях, моделирование слов в словарях, линейная зависимость, степенная зависимость, экспоненциальная зависимость, полином второй степени, изменение энтропии по Бредфорду, сравнительный анализ распределений Бредфорда






Читатели (1408) Добавить отзыв
 

Литературоведение, литературная критика