Получение флективного списка слов из ispell словаря

Все действия в этой статье происходят в дистрибутиве Ubuntu(14.04).

Создание hash файла из словаря ispell

Прежде всего необходимо скачать файл словаря. Я скачал финский словарь отсюда: http://ispell-fi.sourceforge.net/

Затем качаем скрипт который генерирует hash файл отсюда: http://ispell-fi.sourceforge.net/build.sh

Запускаем скрипт:

sh build.sh [размер]

(Размер small, medium или large в зависимости от скачанного файла аффиксов)

Я запускал со следующими параметрами:

sh build.sh large

Получение флективного списка слов

Прежде всего необходимо установить пакет с ispell:

sudo apt-get install ispell

Затем необходимо выполнить следующие команды в папке где находится словарь и hash файл, у меня это папка: «/home/hronom/test/»:

cat [имя словаря] | ispell -d ./[имя hash файла] -e | sed s/\ /'\n'/g | sort -f | uniq > [имя файла с флективным списком слов].inflected_list

Я запускал со следующими значениями:

cat finnish.dict | ispell -d ./finnish -e | sed s/\ /'\n'/g | sort -f | uniq > fi-FI.inflected_list

Заключение

Таким образом я получил файл содержащий порядка 6 миллионов слов.

Ну и как всегда исправления/пожелания/предложения к статье приветствуются, так, что пишите =)

Реклама

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s