Статистика лингвистического анализа библиотеки и средние значения всех книг

Анализ проводился только над русскоязычными текстами. Минимальный размер обрабатываемой fb2 книги - 50 Кб. За одну страницу принято среднее значение в 1800 символов. Уникальные слова - это все встреченные уникальные слова при разборе (включая слова с ошибками, в разных склонениях, придуманные слова и имена и т.д.)

Суммарные данные анализа:

Всего обработано513927 книг
Суммарная длинна текстов207,378,184,009 знаков
Суммарная длинна диалогов57,188,062,880 знаков
Суммарное количество слов31,155,275,210 слов
Всего страниц115,466,943 страниц
Всего предложений2,793,859,159 предложений

Средние данные книг:

Средняя длинна текста403517 знаков
Средняя длинна диалогов111277 знаков
Среднее количество слов в произведении60622 слов
Среднее количество страниц в произведении225 страниц
Средняя длина слова5.29 знаков
Среднее количество предложений в произведении5436 предложений
Средняя длина предложения80 знаков
Средняя доля диалогов в тексте27 %
Средняя доля авторского текста73 %
СДП диалогов69 знаков
СДП авторского текста96 знаков

Средний активный словарный запас

Всего использовано уникальных слов2,234,302 слов
Средний активный авторский словарный запас (САСЗ)12826
Средний активный авторский не словарный запас (САНСЗ)463
Удельный САСЗ на 3000 слов текста1488
Удельный САСЗ на 10000 слов текста3857
Удельный САСЗ на 100000 слов текста20887

Статистика букв и знаков препинания

Всего букв164,285,196,017 букв
Всего знаков препинания7,212,834,220 знаков

ЗнакСуммарное количество (шт.)Суммарное среднее количество на 1000 слов (шт.)
, запятая3,512,302,793112.59
. точка2,462,461,69080.41
- тире410,616,70614.05
? вопросительный знак274,090,6259.27
! восклицательный знак191,027,4467.01
... многоточие21,152,5090.83
!.. восклицательный знак с многоточием5,258,1820.2
?.. вопросительный знак с многоточием4,197,9600.15
!!! тройной восклицательный знак1,716,1110.08
?! вопросительный знак с восклицанием9,917,6010.39
" кавычка38,699,7191.44
() скобки64,022,4302.09
: двоеточие151,004,5455.18
; точка с запятой66,366,0292.11
БукваВсего (шт.)Средняя частота использования (в %)
А13,392,523,4738.21
Б2,751,027,4881.68
В7,248,478,7604.38
Г2,829,852,6131.71
Д4,955,693,6443.02
Е-Ё13,793,628,4178.38
Ж2,829,852,6131.71
З2,762,489,1791.69
И-Й13,231,424,7687.97
К5,542,095,5773.41
Л7,863,300,8834.8
М5,319,926,3653.24
Н10,863,501,3826.57
О18,136,797,14610.98
П4,637,742,8082.82
Р7,462,566,7844.49
С8,836,153,4925.34
Т10,162,893,7536.2
У4,583,054,3042.83
Ф318,161,2660.19
Х1,493,809,2870.9
Ц647,552,0780.39
Ч2,404,814,4261.48
Ш1,343,113,3080.84
Щ591,632,8300.35
Ь-Ъ3,233,061,0431.99
Ы3,086,467,2711.89
Э566,881,7000.34
Ю1,009,635,5840.62
Я3,541,160,1432.17
Диаграма использования букв в русском языке

Сумма частей речи

Часть речиВсего в текстах (шт.)средний % в текстах
Существительное8,501,292,19623.17
Глагол2,966,624,37220.7
Местоимение-существительное2,966,624,37215.72
Предлог2,248,107,32610.35
Союз2,705,267,8698
Прилагательное2,248,107,3265.95
Наречие1,844,316,3215.68
Местоимение-прилагательное1,382,826,3024.16
Частица1,439,121,0423.77
Местоименное наречие504,239,7891.39
Числительное178,270,2790.53
Числительное-прилагательное72,927,4260.16
Междометие31,362,4810.04
Часть композита - сложного слова5,028,0310.01