Статистика лингвистического анализа библиотеки и средние значения всех книг

Анализ проводился только над русскоязычными текстами. Минимальный размер обрабатываемой fb2 книги - 50 Кб. За одну страницу принято среднее значение в 1800 символов. Уникальные слова - это все встреченные уникальные слова при разборе (включая слова с ошибками, в разных склонениях, придуманные слова и имена и т.д.)

Суммарные данные анализа:

Всего обработано515281 книг
Суммарная длинна текстов207,910,071,198 знаков
Суммарная длинна диалогов57,351,229,064 знаков
Суммарное количество слов31,235,979,110 слов
Всего страниц115,763,121 страниц
Всего предложений2,801,754,007 предложений

Средние данные книг:

Средняя длинна текста403489 знаков
Средняя длинна диалогов111301 знаков
Среднее количество слов в произведении60619 слов
Среднее количество страниц в произведении225 страниц
Средняя длина слова5.29 знаков
Среднее количество предложений в произведении5437 предложений
Средняя длина предложения80 знаков
Средняя доля диалогов в тексте27 %
Средняя доля авторского текста73 %
СДП диалогов69 знаков
СДП авторского текста96 знаков

Средний активный словарный запас

Всего использовано уникальных слов2,364,325 слов
Средний активный авторский словарный запас (САСЗ)12825
Средний активный авторский не словарный запас (САНСЗ)463
Удельный САСЗ на 3000 слов текста1488
Удельный САСЗ на 10000 слов текста3857
Удельный САСЗ на 100000 слов текста20886

Статистика букв и знаков препинания

Всего букв164,706,092,181 букв
Всего знаков препинания7,231,343,107 знаков

ЗнакСуммарное количество (шт.)Суммарное среднее количество на 1000 слов (шт.)
, запятая3,521,159,896112.58
. точка2,469,170,55780.41
- тире411,663,58014.05
? вопросительный знак274,843,8309.27
! восклицательный знак191,530,3167.01
... многоточие21,188,0380.83
!.. восклицательный знак с многоточием5,265,7740.2
?.. вопросительный знак с многоточием4,208,2040.15
!!! тройной восклицательный знак1,721,3730.08
?! вопросительный знак с восклицанием9,938,5820.39
" кавычка38,757,9881.44
() скобки64,130,5602.09
: двоеточие151,318,3885.18
; точка с запятой66,446,1612.1
БукваВсего (шт.)Средняя частота использования (в %)
А13,427,145,4058.21
Б2,757,995,2851.68
В7,266,844,2104.38
Г2,836,919,3831.71
Д4,968,304,8153.02
Е-Ё13,828,663,3608.38
Ж2,836,919,3831.71
З2,769,599,8051.69
И-Й13,264,644,7807.97
К5,556,274,8923.41
Л7,883,456,1274.8
М5,333,672,8463.24
Н10,891,123,2966.57
О18,183,296,21010.98
П4,649,813,1172.82
Р7,481,648,8904.49
С8,858,647,5815.34
Т10,189,340,2756.21
У4,595,026,3952.83
Ф318,905,6330.19
Х1,497,589,1250.9
Ц649,145,3350.39
Ч2,411,058,2381.48
Ш1,346,640,7760.84
Щ593,160,3010.35
Ь-Ъ3,241,569,6561.99
Ы3,094,396,0921.89
Э568,324,7580.34
Ю1,012,218,0210.62
Я3,550,586,1032.17
Диаграма использования букв в русском языке

Сумма частей речи

Часть речиВсего в текстах (шт.)средний % в текстах
Существительное8,522,266,36023.17
Глагол2,974,473,35520.7
Местоимение-существительное2,974,473,35515.72
Предлог2,253,546,62810.35
Союз2,712,395,0208
Прилагательное2,253,546,6285.95
Наречие1,849,427,8105.68
Местоимение-прилагательное1,386,439,2024.16
Частица1,443,051,8953.77
Местоименное наречие505,606,2491.39
Числительное178,730,2460.53
Числительное-прилагательное73,125,1540.16
Междометие31,446,2580.04
Часть композита - сложного слова5,038,7070.01