|
Packit |
a907bc |
|
|
Packit |
a907bc |
Словарь русского языка для ispell
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Версия - 0.99g5
|
|
Packit |
a907bc |
Автор: Александр Лебедев (http://scon155.phys.msu.su/~swan/)
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Предлагаемый орфографический словарь русского языка представляет интерес
|
|
Packit |
a907bc |
прежде всего для пользователей системы UNIX, в которой набор средств для
|
|
Packit |
a907bc |
проверки правописания весьма ограничен. Однако словарь может быть
|
|
Packit |
a907bc |
полезен и для пользователей, работающих в операционных системах Windows,
|
|
Packit |
a907bc |
DOS и OS/2, поскольку словарь поддерживает пять различных кодировок русских
|
|
Packit |
a907bc |
букв (см. ниже). Встроенные в ispell функции позволяют считать его удобным
|
|
Packit |
a907bc |
средством для работы с текстами, подготовленными в редакторе TeX, а также
|
|
Packit |
a907bc |
с файлами в формате HTML. Вариант словаря с набором слов и affix-файлом,
|
|
Packit |
a907bc |
подготовленными для программы MySpell, используется для проверки орфографии
|
|
Packit |
a907bc |
в системе OpenOffice. Кроме этого, словарь может использоваться в
|
|
Packit |
a907bc |
локальных и глобальных поисковых системах, строящихся на основе программ,
|
|
Packit |
a907bc |
подобных HTDig и ASPseek.
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Исторически предлагаемый словарь возник из небольшого словаря русского
|
|
Packit |
a907bc |
языка для ispell, составленного Нилом Далтоном (Neal Dalton) в 1992 г.
|
|
Packit |
a907bc |
на основе текстов, которые автор нашел в Интернет. Словарь Далтона был
|
|
Packit |
a907bc |
очень небольшим (всего 52 тысячи словоформ), содержал большое число
|
|
Packit |
a907bc |
ошибок (более 8% слов) и имел слабо развитый файл преобразования
|
|
Packit |
a907bc |
окончаний слов (affix-файл).
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
На первом этапе (работа была начата в конце 1997 года) в affix-файл
|
|
Packit |
a907bc |
словаря были добавлены отсутствовавшие в нем правила образования форм
|
|
Packit |
a907bc |
существительных, прилагательных, причастий, наречий, изменены правила
|
|
Packit |
a907bc |
формирования окончаний глаголов, так что affix-файл можно считать созданным
|
|
Packit |
a907bc |
заново. Основным подходом, положенным в основу настоящего словаря, было
|
|
Packit |
a907bc |
использование нормализованной формы слова и правил словоизменения,
|
|
Packit |
a907bc |
отвечающих грамматике русского языка, а не традиционное использование
|
|
Packit |
a907bc |
программы munchlist для создания словарей для ispell. По этой причине
|
|
Packit |
a907bc |
этот словарь одновременно содержит и важную информацию о морфологии слов,
|
|
Packit |
a907bc |
которая необходима для современных русскоязычных поисковых систем. При
|
|
Packit |
a907bc |
вычитке словаря Далтона конкретные слова были приведены к нормализованной
|
|
Packit |
a907bc |
форме и из словаря было исключено большинство ошибочных слов. На этом
|
|
Packit |
a907bc |
этапе работы мной использовался орфографический словарь русского языка,
|
|
Packit |
a907bc |
выпущенный Институтом русского языка АН СССР в 1991 г. Одновременно в
|
|
Packit |
a907bc |
словарь было добавлено большое число слов, взятых из технических и
|
|
Packit |
a907bc |
литературных текстов.
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
На втором этапе все имеющиеся в словаре слова были перепроверены с
|
|
Packit |
a907bc |
помощью электронного орфографического словаря "Корректор" (120 тысяч
|
|
Packit |
a907bc |
слов), а обнаруженные расхождения выверены по орфографическому словарю
|
|
Packit |
a907bc |
русского языка, справочнику Зализняка ("Грамматический словарь русского
|
|
Packit |
a907bc |
языка: словоизменение", 100 тысяч слов) и "Сводному словарю современной
|
|
Packit |
a907bc |
русской лексики" (170 тысяч слов).
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Все новые слова, добавляемые в словарь после этого, проходят проверку
|
|
Packit |
a907bc |
с помощью указанных выше орфографических словарей (в специальных
|
|
Packit |
a907bc |
областях -- энциклопедий) и с помощью нового издания "Русского
|
|
Packit |
a907bc |
орфографического словаря" под редакцией Лопатина (160 тысяч слов).
|
|
Packit |
a907bc |
Слова, отсутствующие в этих изданиях, добавляются если они действительно
|
|
Packit |
a907bc |
широко используются и в их написании нет никаких сомнений. В настоящей
|
|
Packit |
a907bc |
версии объем словаря составляет более 139 тысяч базовых слов, а полное
|
|
Packit |
a907bc |
число образуемых из них словоформ превышает 1.367 миллиона (против 52 тысяч
|
|
Packit |
a907bc |
в словаре Нила Далтона и 952 тысяч слов в имеющимся в свободном доступе
|
|
Packit |
a907bc |
в Интернет словаре Константина Книжника, в котором, как оказалось при
|
|
Packit |
a907bc |
выборочной проверке, содержится 6% ошибочных слов).
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Отличительной чертой данного словаря от всех известных автору других
|
|
Packit |
a907bc |
орфографических словарей является то, что начиная с версии 0.99c0 в него
|
|
Packit |
a907bc |
включена полноценная поддержка буквы ё (другие словари просто заменяют
|
|
Packit |
a907bc |
букву ё на букву е). Это может быть очень полезно при подготовке литературы
|
|
Packit |
a907bc |
для детей младшего возраста, изданий для иностранцев, орфографических
|
|
Packit |
a907bc |
справочников -- там, где правила издания требуют использования буквы ё.
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Словарь base.koi, а также шесть дополнительных словарей (abbrev.koi,
|
|
Packit |
a907bc |
computer.koi, for_name.koi, geography.koi, rare.koi, science.koi) и файл
|
|
Packit |
a907bc |
russian.aff.koi поставляются в кодировке koi8-r. Для преобразования
|
|
Packit |
a907bc |
текстов в другие поддерживаемые кодировки -- cp866 (alt), iso-8859-5,
|
|
Packit |
a907bc |
cp1251 (win) и maccyrillic -- в комплект включен скрипт-перекодировщик
|
|
Packit |
a907bc |
trans, написанный Владимиром Воловичем.
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Внимание! В словарь rare.koi выделены некоторые редкие слова, написание
|
|
Packit |
a907bc |
которых мало отличается от широко распространенных слов (например, пара
|
|
Packit |
a907bc |
слов шоссе--шассе) и включение которых в основной словарь может приводить
|
|
Packit |
a907bc |
к пропуску ошибок. По умолчанию эти слова не включаются в словарь. Если
|
|
Packit |
a907bc |
эти слова вам действительно могут понадобиться (например, при создании
|
|
Packit |
a907bc |
поисковой системы), уберите значок # в конце строки dict = ... в
|
|
Packit |
a907bc |
Makefile.
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Словарь постоянно совершенствуется, дополняется и корректируется.
|
|
Packit |
a907bc |
Последнюю версию словаря можно найти на сервере:
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
ftp://scon155.phys.msu.su/pub/russian/ispell/rus-ispell.tar.gz
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Файлы-заготовки для пользователей Windows и DOS в кодировках cp866 и cp1251
|
|
Packit |
a907bc |
можно найти на сервере:
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
ftp://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp866.zip
|
|
Packit |
a907bc |
ftp://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp1251.zip
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
На основе этого словаря Сергей Виницкий создал словарь для проверки
|
|
Packit |
a907bc |
правописания в текстах, набранных в дореформенной русской орфографии.
|
|
Packit |
a907bc |
Предложенное им расширение кодировки koi8 и сами словари можно найти по
|
|
Packit |
a907bc |
адресу:
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
http://oldrus-ispell.sourceforge.net/koi8-extended.html
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Вариант словаря, подготовленный для работы с программой MySpell, можно
|
|
Packit |
a907bc |
найти по адресу:
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
ftp://scon155.phys.msu.su/pub/russian/ispell/myspell/rus-myspell.tar.gz
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
УСТАНОВКА:
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
A. Для пользователей, работающих в UNIX
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Для пользователей UNIX для работы с орфографическим словарем русского
|
|
Packit |
a907bc |
языка понадобится пакет программ ispell (последняя версия имеет номер
|
|
Packit |
a907bc |
3.3.02). Эти программы обычно включаются в дистрибутивы UNIX и скорее
|
|
Packit |
a907bc |
всего уже имеются на вашем компьютере. При желании пакет можно взять
|
|
Packit |
a907bc |
по адресу
|
|
Packit |
a907bc |
http://fmg-www.cs.ucla.edu/geoff/ispell.html
|
|
Packit |
a907bc |
или найти на любом крупном ftp-сервере. При самостоятельной компиляции
|
|
Packit |
a907bc |
ispell надо скопировать файл local.h.samp в local.h, закомментировать в
|
|
Packit |
a907bc |
нем NO8BIT (#undef NO8BIT) и установить правильные пути для BINDIR,
|
|
Packit |
a907bc |
LIBDIR и других рабочих директорий.
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Чтобы построить рабочие файлы для ispell, вам необходим GNU make и
|
|
Packit |
a907bc |
программы buildhash (одна из программ, поставляемых вместе с ispell),
|
|
Packit |
a907bc |
sed, а также sort, tr и uniq (стандартные текстовые утилиты UNIX), пути
|
|
Packit |
a907bc |
к которым указаны в переменной $PATH.
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
1) Поместите файл rus-ispell.tar.gz в рабочей директории и
|
|
Packit |
a907bc |
разархивируйте его с помощью одной из команд:
|
|
Packit |
a907bc |
gzip -dc rus-ispell.tar.gz | tar -xvf -
|
|
Packit |
a907bc |
tar -xzvf rus-ispell.tar.gz
|
|
Packit |
a907bc |
2) Отредактируйте Makefile и убедитесь, что LIB указывает на место,
|
|
Packit |
a907bc |
где ispell будет искать свои рабочие файлы
|
|
Packit |
a907bc |
3) Сделайте make для кодировки, используемой в вашей системе:
|
|
Packit |
a907bc |
koi8-r (koi), iso-8859-5 (iso), cp866 (alt), cp1251 (win) или
|
|
Packit |
a907bc |
maccyrillic (mac). Для этого выберите один из следующих вариантов:
|
|
Packit |
a907bc |
make koi (или просто make)
|
|
Packit |
a907bc |
make iso
|
|
Packit |
a907bc |
make alt
|
|
Packit |
a907bc |
make win
|
|
Packit |
a907bc |
make mac
|
|
Packit |
a907bc |
Создаваемый при этом hash-файл не будет поддерживать букву ё (как
|
|
Packit |
a907bc |
требует того практика большинства изданий на русском языке). Если
|
|
Packit |
a907bc |
же по какой-то причине вам нужна поддержка буквы ё (см. выше), для
|
|
Packit |
a907bc |
включения поддержки буквы ё необходимо набрать:
|
|
Packit |
a907bc |
make koi YO=1 (или просто make YO=1)
|
|
Packit |
a907bc |
make iso YO=1
|
|
Packit |
a907bc |
make alt YO=1
|
|
Packit |
a907bc |
make win YO=1
|
|
Packit |
a907bc |
make mac YO=1
|
|
Packit |
a907bc |
4) Установите словари в рабочей директории ispell (здесь вам могут
|
|
Packit |
a907bc |
понадобиться права доступа root):
|
|
Packit |
a907bc |
make install
|
|
Packit |
a907bc |
5) Теперь можно стереть ненужные файлы:
|
|
Packit |
a907bc |
make clean
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
B. Для пользователей, работающих в Windows
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Пользователи, работающие в Windows, могут использовать проверку русской
|
|
Packit |
a907bc |
орфографии со словарями ispell, работая в программе TxtEdit (автор --
|
|
Packit |
a907bc |
Лузиус Шнайдер). Саму программу можно найти по адресу
|
|
Packit |
a907bc |
http://www.luziusschneider.com/TxtEditHome.htm
|
|
Packit |
a907bc |
и дополнить ее программой ispell, адаптированной для win32, которую можно
|
|
Packit |
a907bc |
взять с того же сайта по адресу:
|
|
Packit |
a907bc |
http://www.luziusschneider.com/Speller/ISpCzLoRu.exe
|
|
Packit |
a907bc |
Установка этих программ не вызывает проблем.
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Недостатком программы является использование устаревшей (примерно пятилетней
|
|
Packit |
a907bc |
давности) версии настоящего словаря. Для обновления этой версии пользователи
|
|
Packit |
a907bc |
Windows могут взять готовые affix-файл и списки слов в кодировке cp1251 в
|
|
Packit |
a907bc |
вариантах с поддержкой и без поддержки буквы ё, которые можно найти по адресу:
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
ftp:://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp866.zip
|
|
Packit |
a907bc |
ftp://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp1251.zip
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
Для обновления словарей необходимо просто распаковать полученные файлы в
|
|
Packit |
a907bc |
директории Program Files\Common Files\ISpell, запустить программу buildhash
|
|
Packit |
a907bc |
(buildhash.exe russian.dic russian.aff russian.hash), а затем переместить
|
|
Packit |
a907bc |
файлы russian.aff, russianyo.aff, russian.hash и russianyo.hash в
|
|
Packit |
a907bc |
поддиректорию Russian, где ispell хранит рабочие файлы.
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
ИСПОЛЬЗОВАНИЕ:
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
ispell -d russian имя_файла
|
|
Packit |
a907bc |
|
|
Packit |
a907bc |
----------------------------------------------------------------
|
|
Packit |
a907bc |
Со всеми замечаниями, пожеланиями прошу обращаться к автору,
|
|
Packit |
a907bc |
Александру Лебедеву (swan@scon155.phys.msu.su)
|