четверг, 16 апреля 2009 г.

Существительные

Если взять любое существительное, то его базовые словоформы довольно просто определяются, это 6 падежей единственного числа и 6 падежей множественного числа. Итого 12 словоформ, но для некоторых существительных не существует множественного числа, а для некоторых, наоборот, не существует единственного числа. Эту задачу можно упростить, если рассматривать единственное число и множественное число как два разных слова, связанных между собой смысловой связью, а так как анализ смысловых связей пока не входит в мою задачу, такой подход допустим.

Существительные в единственном числе
число числа числу число числом числе
подарок подарка подарку подарок подарком подарке
слон слона слону слона слоном слоне
день дня дню день днем дне
дно дна дну дно дном дне
Что мы видим из этих примеров? Словоформы отличаются друг от друга только окончанием, приставка у словоформ не изменяется, может измениться корень слова. Если немного расширить список, то можно обнаружить, что некоторые слова в предложном падеже могут иметь несколько допустимых форм. Дабы сильно не сужать понятие существительного, не буду исключать из этой категории существительные образованные от других частей речи.

Предлагаю при анализе существительных отказаться от использования частей слова и ввести другую классификацию: базовая часть слова и окончание. Базовая часть слова - неизменяемая начальная часть слова, окончание - изменяемая завершающая часть слова. Для большинства слов новое понятие окончания будет совпадать с общим понятием, а базовая часть слова будет включать в себя приставки, корни и суффиксы. Правилен ли этот подход, можно будет сказать, только когда будет собрана достаточно большая база слов.

Сбор данных по существительным в единственном числе
Для сбора данных по существительным в единсственном числе применяется следующая методика.
1. Вручную составляется эталонная база словоформ для 40-50 существительных.
2. Производится анализ словоформ каждого слова и выявляются окончания для соответствующих падежей.
3. Составляется список зарегистрированных случаев склонения слов. Ожидается, что этот список не будет содержать более нескольких десятков вариантов склонения. Если это не так, то следует пересмотреть методику сбора данных.
4. Из текста выбирается произвольное слово, оно проверяется на отсутствие в эталонном списке существительных и на отсутствиее в списке слов, не подлежащих анализу.
5. К нему применяются возможные варианты склонения.
6. Список возможных вариантов склонения обрабатывается фильтром триграмм и выводится пользователю.
7. Пользователь должен выбрать один из предложенных вариантов, предложить свой или указать, что выбранное слово не является существительным. В первом и втором случае эталонные словоформы заносятся в базу существительных, в третьем случае слово заносится в список слов не подлежащих анализу.
8. Переход к шагу 2.

Подитог
Когда будет набрана база эталонных словоформ (1000 слов), следует остановиться и проанализировать все случаи склонения представленные в ней. Следует попытаться провести аналогии между получившейся классификацией и общепринятыми классификациями существительных. Вероятно, некоторые частные случаи склонения можно будет объединить между собой. Также возможно удастся найти зависимость между случаями склонения и буквенной записью слова.

[Для себя: Прикрутить фильтр триграмм и дособрать базу. Следующие два поста посвятить анализу эталонной базы]

1 комментарий:

Анонимный комментирует...
Этот комментарий был удален администратором блога.