Решил реализовать давно вертевшуюся в голове идею программного анализа русскоязычного текста. В анализ входит разбор слов по частям речи и определение словоформ, а также анализ предложений на их части. В результате должна получиться "идеальная" система для проверки орфографии и пунктуации.
Исследование разбивается на несколько этапов.
1) Анализ текста в целом.
2) Анализ отдельных слов.
3) Анализ словосочетаний.
4) Анализ предложений.
Посты постараюсь организовать небольшими и исключительно с результатами исследований.
Подписаться на:
Комментарии к сообщению (Atom)
Архив блога
-
▼
2009
(29)
-
▼
апреля
(12)
- Аспекты реализации
- Продолжение существительных
- Формы склонения существительных
- Буква Ё в русском языке
- Формы склонения существительных
- И снова о триграммах
- Существительные
- Части речи и части слова и части предложения
- Триграммы. Итог.
- Зависимость роста количества триграмм от размера с...
- Триграммы русского языка
- Програмный анализ русского текста
-
▼
апреля
(12)
4 комментария:
Здравствуйте!
Не будете ли добры проинформировать меня о том как идут дела по программному анализу русского текста? Я очень в этом заинтересован.
С уважением, Чингиз!
China
Распечатал на карточках и сижу вывожу систему. Есть весьма забавные и странные случаи например слова мужчина и женщина склоняются полностью идентично. Что самое интересное, остальные слова с такой же формой склонения принадлежат женскому роду. Напрашиваются весьма специфичные выводы.
А в целом дела - слишком маленькая словарная база пока у меня набрана, чтобы можно было судить о различных случаях.
А почему готовыми словарными базами пользуешься? Извини конешно, вопрос может глупым покажется, но ты аналогичные работы исследовал? В интернете уже не мало готового есть. Просто у каждого есть свои - и +.
China, вероятно, я просто не знаю как искать, потому что не нашёл ни одного подходящего словаря. А использовать готовые обобщения - принципиально не хочу.
Может подскажешь, где взять словарик с готовыми словоформами с учётом буквы ё? Меня интересуют именно сырые данные, а не уже готовые результаты анализа.
Отправить комментарий