воскресенье, 12 апреля 2009 г.

Зависимость роста количества триграмм от размера словаря.

Произвёл более детальный анализ количества слов и триграмм.
Общее число слов в выбранных книгах: 554928 слов.
Число уникальных слов в книгах: 57703 слова.
Число триграмм: 8340.

Зависимость количества триграмм от количества слов.
Красным цветом на графике отображено масштабированное значение производной. Синим цветом - количество триграмм.


Частотность встречаемости триграмм

Представлена гистограмма распределения "популярности" триграмм. Полезных данных на этой гистограмме разглядеть не удаётся, потому вот некоторые её характеристики:
Триграмма встречается от 1 до 10 раз - 2622 штук
Триграмма встречается от 1 до 100 раз - 5298 штук.
Наиболее популярные триграммы имеют частоты: 25736, 23366, 22604, 19849, 18060, 16947, 16267 и 16259.
Приведу пример триграмм встречающихся 1 раз.
[хуя] => [хуянь]
[уян] => [хуянь]
[чжо] => [чжо]
[чжэ] => [чжэня]
[жэн] => [чжэня]
[эня] => [чжэня]
[бао] => [бао]
[усю] => [дусю]
[биа] => [лабиальности]
[фюз] => [фюзеляжа]
[юзе] => [фюзеляжа]
[ияд] => [внутриядерную]
[ыяв] => [выявивших]
[уиц] => [интуиция]
[зущ] => [ползущим]
[ехз] => [четырехзначную]
[хзн] => [четырехзначную]
[фмо] => [логарифмов]
[нкм] => [инкм]
[адг] => [адгезивы]
[дге] => [адгезивы]
[гез] => [адгезивы]
[кюв] => [кюветах]
[ымр] => [вымрут]
[мтя] => [ломтя]
[брь] => [сентябрьская]
[рхм] => [сверхмощной]
[йга] => [тайга]
[ухк] => [двухкилометровое]
[йсм] => [сейсмостанции]
[нза] => [вонзаются]
[оео] => [своеобразная]
[улл] => [буллиальд]

Видно, что редкие триграммы можно разбить на несколько категорий:
- редкие слова,
- слова не специфичные для взятых текстов,
- иностранные слова, записанные русскими буквами (здесь же и иностранные имена).
- слова с ошибками.

Выводы
Каждое слово в тексте повторяется в среднем 10 раз. Судя по скорости прибывания триграмм, можно уверенно сделать вывод, что либо количество триграмм в русском языке не ограниченно небольшим числом, либо текущая выборка слов недостаточна для работы с русским текстом и следует расширить выборку текстов. Так как по первому пути (отказаться от триграмм) всегда можно пойти, сейчас следует пойти по второму пути и увеличить объём анализируемых текстов. В будущем стоит расширить исходный текстовый материал специфическими статьями и научными работами. Стоит добавить в анализируемые тексты перечни числительных и имён. При разработке, вероятно, можно будет добавить в качестве параметра возможность управления весом характеристик. Вероятно, что при достаточно большой выборке текстов, можно будет из списка найденных триграмм исключить редкие триграммы.

[Для себя. Следующий шаг работы - расширить библиотеку текстов, автоматизировать текущий анализ и добавить возможность кеширования результатов, ибо текущая скорость анализа (около 2 минут) не устраивает.]

Комментариев нет: