вторник, 14 апреля 2009 г.

Триграммы. Итог.

Наконец мне удалось подобрать достаточно большой список слов, чтобы ростом количества триграмм можно было пренебречь. Вот полученная зависимость количества триграмм от общего числа слов.

Вот как выглядит последняя часть данных:

слов триграмм
1730000 9770
1740000 9777
1750000 9810
1760000 9821
1770000 9826
1780000 9830
1790000 9842
1800000 9843
1810000 9848
1814350 9848

То есть речь идёт о единицах триграмм на 10000 слов. Думаю, что на этот раз библиотеку можно считать достаточно большой.

Вот перечень последних добавленных триграмм

[утх] - сутхеп
[хеп] - сутхеп
[ тх] - тхани
[тха] - тхани
[фум] - фумико
[цуо] - тацуо
[онэ] - хонэн
[дзю] - дзюнъитиро
[зюн] - дзюнъитиро
[юнъ] - дзюнъитиро
[нъи] - дзюнъитиро
[ъит] - дзюнъитиро
[идз] - танидзаки
[гаи] - онегаи
[йсэ] - кайсэки
[кюс] - кюсю
[саи] - насаи
[джм] - риджмором
[жоа] - жоао
[оао] - жоао
[йру] - перейру
[йра] - перейра
[лао] - лаоса
[ымл] - подымлю
[ууу] - уууя
[ууя] - уууя
[пьй] - пьйоотр
[ьйо] - пьйоотр
[йоо] - пьйоотр
[ иэ] - иэна
[нпо] - аванпосты
[уии] - уиии
[иии] - уиии
[ьяш] - итальяшка
[пуэ] - пуэбло
[уэб] - пуэбло
[пиб] - пибоди
[шце] - мышце
[окэ] - электрокэба
[язю] - князю
[зю ] - князю
[обю] - обюссонскими
[шез] - шезлонгов
[ьо ] - мурильо
[ лт] - лтые
[цул] - танцулек
[лшу] - уолшу
[ сй] - сйо
[сйо] - сйо
[огю] - огюста
[шцу] - мышцу
[йпф] - грейпфруты
[пфр] - грейпфруты
[эвт] - эвтаназию
[рнш] - бернштейн
[зиф] - сизифу
[фуд] - фудзиямы
[удз] - фудзиямы
[куг] - токугава
[иэя] - иэясу
[эяс] - иэясу
[эси] - дэсита
[чме] - импичменте
[кия] - макияжем
[ияж] - макияжем
[ьфь] - монгольфьере
[луф] - полуфинальных
[уфи] - полуфинальных
[ эя] - эякуляции
[эяк] - эякуляции
[ефы] - рельефы

Из этого перечня можно сделать вывод, что число слов, которые интересуют данное исследование практически исчерпано. В словарь и так уже попадает большое количество "лишних" сложных и иностранных слов. Хотя, для меня загадка, почему такое слово как "макияжем" попало только в самом конце и даже содержит уникальные триграммы.

Вот перечень книг, которые были использованы:

Артур Кларк, Джентри Ли. Рама явленный
Артур Кларк. Строптивая орхидея
Артур Кларк. И если я, земля, тебя забуду...
Айзек Азимов. Буква закона
Айзек Азимов. Конец Вечности
Айзек Азимов. Мнимые величины
Сергей Снегов. Кольцо обратного времени
Сергей Снегов. Вторжение в Персей
Артур Кларк. Да будет свет!
Айзек Азимов. Немезида
Айзек Азимов. Выбор катастроф
Айзек Азимов. Затерянные у Весты
Айзек Азимов. Световирши
Артур Кларк. Абсолютная мелодия
Артур Кларк. Город и звезды
Артур Кларк. Одиссея Один
Артур Кларк. Мимолетность
Артур Кларк. Остров дельфинов
Вадим Шефнер. Девушка у обрыва
Вадим Шефнер. Сестра печали
Айзек Азимов. Нашли!
Сергей Снегов. Галактическая разведка
Айзек Азимов. Сами боги
Вадим Шефнер. Небесный подкидыш, Исповедь трусоватого храбреца
Артур Кларк. Пески Марса
Артур Кларк. Что взлетает вверх...
Артур Конан Дойл. Долина ужаса
Артур Кларк. Соседи
Артур Кларк. последняя одиссея
Артур Конан Дойл. Этюд в багровых тонах
Артур Кларк. Одиссея Два
Айзек Азимов. Выборы
Айзек Азимов. Фантастическое путешествие
Артур Конан Дойл. Знак четырех
Артур Кларк, Джентри Ли. Рама II
Артур Кларк. заключительная одиссея. Пролог
Артур Кларк. Преходящее
Артур Кларк. Свидание с Рамой
Артур Конан Дойл. Смерть русского помещика
Артур Кларк. Одиссея Три
Артур Конан Дойл. Собака Баскервилей
Артур Кларк, Джентри Ли. Сад Рамы


Ну и чисто ради интереса, вот перечень самых популярных триграмм русского языка:

[ то] => 29813
[ом ] => 29988
[ла ] => 30140
[ за] => 30655
[ бы] => 30753
[про] => 31750
[ чт] => 33122
[сь ] => 33921
[что] => 34356
[ост] => 34670
[ он] => 36056
[ ко] => 36357
[ой ] => 36758
[ся ] => 43002
[ли ] => 44881
[го ] => 45122
[ в ] => 45806
[на ] => 50036
[не ] => 51049
[ть ] => 53798
[ и ] => 54454
[но ] => 55321
[то ] => 58822
[ пр] => 61182
[ на] => 69637
[ не] => 74908
[ по] => 87655

Да, довольно необычный перечень получился, но это не страшно. В конце концов эти характеристики предназначены для машинного анализа, а не ручного.

Выводы:
Число действительных триграмм русского языка находится в районе 10000, а число всех триграмм равно 39304. Получается, что методика триграмм позволит отфильтровывать 3 триграммы из 4. Да, результаты не слишком обнадёживают. Но это всё же лучше чем ничего. По крайней мере, это поможет отфильтровать совсем бестолковые варианты. С другой стороны, полученная гистограмма "популярности" может помочь упорядочивать слова по вероятностным характеристикам. Да, у меня уже есть небольшие наработки по автоматическому склонению существительных и будет очень интересно применить фильтрацию и упорядочивание триграммами. Но всему своё время.

[Для себя: следующий пост надо посвятить общим мыслям о частях речи, частях предложения, а также вариантам склонения и спряжения.]

Комментариев нет: