четверг, 9 апреля 2009 г.

Програмный анализ русского текста

Решил реализовать давно вертевшуюся в голове идею программного анализа русскоязычного текста. В анализ входит разбор слов по частям речи и определение словоформ, а также анализ предложений на их части. В результате должна получиться "идеальная" система для проверки орфографии и пунктуации.

Исследование разбивается на несколько этапов.
1) Анализ текста в целом.
2) Анализ отдельных слов.
3) Анализ словосочетаний.
4) Анализ предложений.

Посты постараюсь организовать небольшими и исключительно с результатами исследований.

4 комментария:

Unknown комментирует...

Здравствуйте!

Не будете ли добры проинформировать меня о том как идут дела по программному анализу русского текста? Я очень в этом заинтересован.

С уважением, Чингиз!

Alexxz комментирует...

China
Распечатал на карточках и сижу вывожу систему. Есть весьма забавные и странные случаи например слова мужчина и женщина склоняются полностью идентично. Что самое интересное, остальные слова с такой же формой склонения принадлежат женскому роду. Напрашиваются весьма специфичные выводы.

А в целом дела - слишком маленькая словарная база пока у меня набрана, чтобы можно было судить о различных случаях.

Unknown комментирует...

А почему готовыми словарными базами пользуешься? Извини конешно, вопрос может глупым покажется, но ты аналогичные работы исследовал? В интернете уже не мало готового есть. Просто у каждого есть свои - и +.

Alexxz комментирует...

China, вероятно, я просто не знаю как искать, потому что не нашёл ни одного подходящего словаря. А использовать готовые обобщения - принципиально не хочу.

Может подскажешь, где взять словарик с готовыми словоформами с учётом буквы ё? Меня интересуют именно сырые данные, а не уже готовые результаты анализа.