Словарь русского языка для ispell
Версия - 0.99g5
Автор: Александр Лебедев (http://scon155.phys.msu.su/~swan/)
Предлагаемый орфографический словарь русского языка представляет интерес
прежде всего для пользователей системы UNIX, в которой набор средств для
проверки правописания весьма ограничен. Однако словарь может быть
полезен и для пользователей, работающих в операционных системах Windows,
DOS и OS/2, поскольку словарь поддерживает пять различных кодировок русских
букв (см. ниже). Встроенные в ispell функции позволяют считать его удобным
средством для работы с текстами, подготовленными в редакторе TeX, а также
с файлами в формате HTML. Вариант словаря с набором слов и affix-файлом,
подготовленными для программы MySpell, используется для проверки орфографии
в системе OpenOffice. Кроме этого, словарь может использоваться в
локальных и глобальных поисковых системах, строящихся на основе программ,
подобных HTDig и ASPseek.
Исторически предлагаемый словарь возник из небольшого словаря русского
языка для ispell, составленного Нилом Далтоном (Neal Dalton) в 1992 г.
на основе текстов, которые автор нашел в Интернет. Словарь Далтона был
очень небольшим (всего 52 тысячи словоформ), содержал большое число
ошибок (более 8% слов) и имел слабо развитый файл преобразования
окончаний слов (affix-файл).
На первом этапе (работа была начата в конце 1997 года) в affix-файл
словаря были добавлены отсутствовавшие в нем правила образования форм
существительных, прилагательных, причастий, наречий, изменены правила
формирования окончаний глаголов, так что affix-файл можно считать созданным
заново. Основным подходом, положенным в основу настоящего словаря, было
использование нормализованной формы слова и правил словоизменения,
отвечающих грамматике русского языка, а не традиционное использование
программы munchlist для создания словарей для ispell. По этой причине
этот словарь одновременно содержит и важную информацию о морфологии слов,
которая необходима для современных русскоязычных поисковых систем. При
вычитке словаря Далтона конкретные слова были приведены к нормализованной
форме и из словаря было исключено большинство ошибочных слов. На этом
этапе работы мной использовался орфографический словарь русского языка,
выпущенный Институтом русского языка АН СССР в 1991 г. Одновременно в
словарь было добавлено большое число слов, взятых из технических и
литературных текстов.
На втором этапе все имеющиеся в словаре слова были перепроверены с
помощью электронного орфографического словаря "Корректор" (120 тысяч
слов), а обнаруженные расхождения выверены по орфографическому словарю
русского языка, справочнику Зализняка ("Грамматический словарь русского
языка: словоизменение", 100 тысяч слов) и "Сводному словарю современной
русской лексики" (170 тысяч слов).
Все новые слова, добавляемые в словарь после этого, проходят проверку
с помощью указанных выше орфографических словарей (в специальных
областях -- энциклопедий) и с помощью нового издания "Русского
орфографического словаря" под редакцией Лопатина (160 тысяч слов).
Слова, отсутствующие в этих изданиях, добавляются если они действительно
широко используются и в их написании нет никаких сомнений. В настоящей
версии объем словаря составляет более 139 тысяч базовых слов, а полное
число образуемых из них словоформ превышает 1.367 миллиона (против 52 тысяч
в словаре Нила Далтона и 952 тысяч слов в имеющимся в свободном доступе
в Интернет словаре Константина Книжника, в котором, как оказалось при
выборочной проверке, содержится 6% ошибочных слов).
Отличительной чертой данного словаря от всех известных автору других
орфографических словарей является то, что начиная с версии 0.99c0 в него
включена полноценная поддержка буквы ё (другие словари просто заменяют
букву ё на букву е). Это может быть очень полезно при подготовке литературы
для детей младшего возраста, изданий для иностранцев, орфографических
справочников -- там, где правила издания требуют использования буквы ё.
Словарь base.koi, а также шесть дополнительных словарей (abbrev.koi,
computer.koi, for_name.koi, geography.koi, rare.koi, science.koi) и файл
russian.aff.koi поставляются в кодировке koi8-r. Для преобразования
текстов в другие поддерживаемые кодировки -- cp866 (alt), iso-8859-5,
cp1251 (win) и maccyrillic -- в комплект включен скрипт-перекодировщик
trans, написанный Владимиром Воловичем.
Внимание! В словарь rare.koi выделены некоторые редкие слова, написание
которых мало отличается от широко распространенных слов (например, пара
слов шоссе--шассе) и включение которых в основной словарь может приводить
к пропуску ошибок. По умолчанию эти слова не включаются в словарь. Если
эти слова вам действительно могут понадобиться (например, при создании
поисковой системы), уберите значок # в конце строки dict = ... в
Makefile.
Словарь постоянно совершенствуется, дополняется и корректируется.
Последнюю версию словаря можно найти на сервере:
ftp://scon155.phys.msu.su/pub/russian/ispell/rus-ispell.tar.gz
Файлы-заготовки для пользователей Windows и DOS в кодировках cp866 и cp1251
можно найти на сервере:
ftp://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp866.zip
ftp://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp1251.zip
На основе этого словаря Сергей Виницкий создал словарь для проверки
правописания в текстах, набранных в дореформенной русской орфографии.
Предложенное им расширение кодировки koi8 и сами словари можно найти по
адресу:
http://oldrus-ispell.sourceforge.net/koi8-extended.html
Вариант словаря, подготовленный для работы с программой MySpell, можно
найти по адресу:
ftp://scon155.phys.msu.su/pub/russian/ispell/myspell/rus-myspell.tar.gz
УСТАНОВКА:
A. Для пользователей, работающих в UNIX
Для пользователей UNIX для работы с орфографическим словарем русского
языка понадобится пакет программ ispell (последняя версия имеет номер
3.3.02). Эти программы обычно включаются в дистрибутивы UNIX и скорее
всего уже имеются на вашем компьютере. При желании пакет можно взять
по адресу
http://fmg-www.cs.ucla.edu/geoff/ispell.html
или найти на любом крупном ftp-сервере. При самостоятельной компиляции
ispell надо скопировать файл local.h.samp в local.h, закомментировать в
нем NO8BIT (#undef NO8BIT) и установить правильные пути для BINDIR,
LIBDIR и других рабочих директорий.
Чтобы построить рабочие файлы для ispell, вам необходим GNU make и
программы buildhash (одна из программ, поставляемых вместе с ispell),
sed, а также sort, tr и uniq (стандартные текстовые утилиты UNIX), пути
к которым указаны в переменной $PATH.
1) Поместите файл rus-ispell.tar.gz в рабочей директории и
разархивируйте его с помощью одной из команд:
gzip -dc rus-ispell.tar.gz | tar -xvf -
tar -xzvf rus-ispell.tar.gz
2) Отредактируйте Makefile и убедитесь, что LIB указывает на место,
где ispell будет искать свои рабочие файлы
3) Сделайте make для кодировки, используемой в вашей системе:
koi8-r (koi), iso-8859-5 (iso), cp866 (alt), cp1251 (win) или
maccyrillic (mac). Для этого выберите один из следующих вариантов:
make koi (или просто make)
make iso
make alt
make win
make mac
Создаваемый при этом hash-файл не будет поддерживать букву ё (как
требует того практика большинства изданий на русском языке). Если
же по какой-то причине вам нужна поддержка буквы ё (см. выше), для
включения поддержки буквы ё необходимо набрать:
make koi YO=1 (или просто make YO=1)
make iso YO=1
make alt YO=1
make win YO=1
make mac YO=1
4) Установите словари в рабочей директории ispell (здесь вам могут
понадобиться права доступа root):
make install
5) Теперь можно стереть ненужные файлы:
make clean
B. Для пользователей, работающих в Windows
Пользователи, работающие в Windows, могут использовать проверку русской
орфографии со словарями ispell, работая в программе TxtEdit (автор --
Лузиус Шнайдер). Саму программу можно найти по адресу
http://www.luziusschneider.com/TxtEditHome.htm
и дополнить ее программой ispell, адаптированной для win32, которую можно
взять с того же сайта по адресу:
http://www.luziusschneider.com/Speller/ISpCzLoRu.exe
Установка этих программ не вызывает проблем.
Недостатком программы является использование устаревшей (примерно пятилетней
давности) версии настоящего словаря. Для обновления этой версии пользователи
Windows могут взять готовые affix-файл и списки слов в кодировке cp1251 в
вариантах с поддержкой и без поддержки буквы ё, которые можно найти по адресу:
ftp:://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp866.zip
ftp://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp1251.zip
Для обновления словарей необходимо просто распаковать полученные файлы в
директории Program Files\Common Files\ISpell, запустить программу buildhash
(buildhash.exe russian.dic russian.aff russian.hash), а затем переместить
файлы russian.aff, russianyo.aff, russian.hash и russianyo.hash в
поддиректорию Russian, где ispell хранит рабочие файлы.
ИСПОЛЬЗОВАНИЕ:
ispell -d russian имя_файла
----------------------------------------------------------------
Со всеми замечаниями, пожеланиями прошу обращаться к автору,
Александру Лебедеву (swan@scon155.phys.msu.su)