README.koi
Словарь русского языка для ispell Версия - 0.99g5 Автор: Александр Лебедев (http://scon155.phys.msu.su/~swan/) Предлагаемый орфографический словарь русского языка представляет интерес прежде всего для пользователей системы UNIX, в которой набор средств для проверки правописания весьма ограничен. Однако словарь может быть полезен и для пользователей, работающих в операционных системах Windows, DOS и OS/2, поскольку словарь поддерживает пять различных кодировок русских букв (см. ниже). Встроенные в ispell функции позволяют считать его удобным средством для работы с текстами, подготовленными в редакторе TeX, а также с файлами в формате HTML. Вариант словаря с набором слов и affix-файлом, подготовленными для программы MySpell, используется для проверки орфографии в системе OpenOffice. Кроме этого, словарь может использоваться в локальных и глобальных поисковых системах, строящихся на основе программ, подобных HTDig и ASPseek. Исторически предлагаемый словарь возник из небольшого словаря русского языка для ispell, составленного Нилом Далтоном (Neal Dalton) в 1992 г. на основе текстов, которые автор нашел в Интернет. Словарь Далтона был очень небольшим (всего 52 тысячи словоформ), содержал большое число ошибок (более 8% слов) и имел слабо развитый файл преобразования окончаний слов (affix-файл). На первом этапе (работа была начата в конце 1997 года) в affix-файл словаря были добавлены отсутствовавшие в нем правила образования форм существительных, прилагательных, причастий, наречий, изменены правила формирования окончаний глаголов, так что affix-файл можно считать созданным заново. Основным подходом, положенным в основу настоящего словаря, было использование нормализованной формы слова и правил словоизменения, отвечающих грамматике русского языка, а не традиционное использование программы munchlist для создания словарей для ispell. По этой причине этот словарь одновременно содержит и важную информацию о морфологии слов, которая необходима для современных русскоязычных поисковых систем. При вычитке словаря Далтона конкретные слова были приведены к нормализованной форме и из словаря было исключено большинство ошибочных слов. На этом этапе работы мной использовался орфографический словарь русского языка, выпущенный Институтом русского языка АН СССР в 1991 г. Одновременно в словарь было добавлено большое число слов, взятых из технических и литературных текстов. На втором этапе все имеющиеся в словаре слова были перепроверены с помощью электронного орфографического словаря "Корректор" (120 тысяч слов), а обнаруженные расхождения выверены по орфографическому словарю русского языка, справочнику Зализняка ("Грамматический словарь русского языка: словоизменение", 100 тысяч слов) и "Сводному словарю современной русской лексики" (170 тысяч слов). Все новые слова, добавляемые в словарь после этого, проходят проверку с помощью указанных выше орфографических словарей (в специальных областях -- энциклопедий) и с помощью нового издания "Русского орфографического словаря" под редакцией Лопатина (160 тысяч слов). Слова, отсутствующие в этих изданиях, добавляются если они действительно широко используются и в их написании нет никаких сомнений. В настоящей версии объем словаря составляет более 139 тысяч базовых слов, а полное число образуемых из них словоформ превышает 1.367 миллиона (против 52 тысяч в словаре Нила Далтона и 952 тысяч слов в имеющимся в свободном доступе в Интернет словаре Константина Книжника, в котором, как оказалось при выборочной проверке, содержится 6% ошибочных слов). Отличительной чертой данного словаря от всех известных автору других орфографических словарей является то, что начиная с версии 0.99c0 в него включена полноценная поддержка буквы ё (другие словари просто заменяют букву ё на букву е). Это может быть очень полезно при подготовке литературы для детей младшего возраста, изданий для иностранцев, орфографических справочников -- там, где правила издания требуют использования буквы ё. Словарь base.koi, а также шесть дополнительных словарей (abbrev.koi, computer.koi, for_name.koi, geography.koi, rare.koi, science.koi) и файл russian.aff.koi поставляются в кодировке koi8-r. Для преобразования текстов в другие поддерживаемые кодировки -- cp866 (alt), iso-8859-5, cp1251 (win) и maccyrillic -- в комплект включен скрипт-перекодировщик trans, написанный Владимиром Воловичем. Внимание! В словарь rare.koi выделены некоторые редкие слова, написание которых мало отличается от широко распространенных слов (например, пара слов шоссе--шассе) и включение которых в основной словарь может приводить к пропуску ошибок. По умолчанию эти слова не включаются в словарь. Если эти слова вам действительно могут понадобиться (например, при создании поисковой системы), уберите значок # в конце строки dict = ... в Makefile. Словарь постоянно совершенствуется, дополняется и корректируется. Последнюю версию словаря можно найти на сервере: ftp://scon155.phys.msu.su/pub/russian/ispell/rus-ispell.tar.gz Файлы-заготовки для пользователей Windows и DOS в кодировках cp866 и cp1251 можно найти на сервере: ftp://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp866.zip ftp://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp1251.zip На основе этого словаря Сергей Виницкий создал словарь для проверки правописания в текстах, набранных в дореформенной русской орфографии. Предложенное им расширение кодировки koi8 и сами словари можно найти по адресу: http://oldrus-ispell.sourceforge.net/koi8-extended.html Вариант словаря, подготовленный для работы с программой MySpell, можно найти по адресу: ftp://scon155.phys.msu.su/pub/russian/ispell/myspell/rus-myspell.tar.gz УСТАНОВКА: A. Для пользователей, работающих в UNIX Для пользователей UNIX для работы с орфографическим словарем русского языка понадобится пакет программ ispell (последняя версия имеет номер 3.3.02). Эти программы обычно включаются в дистрибутивы UNIX и скорее всего уже имеются на вашем компьютере. При желании пакет можно взять по адресу http://fmg-www.cs.ucla.edu/geoff/ispell.html или найти на любом крупном ftp-сервере. При самостоятельной компиляции ispell надо скопировать файл local.h.samp в local.h, закомментировать в нем NO8BIT (#undef NO8BIT) и установить правильные пути для BINDIR, LIBDIR и других рабочих директорий. Чтобы построить рабочие файлы для ispell, вам необходим GNU make и программы buildhash (одна из программ, поставляемых вместе с ispell), sed, а также sort, tr и uniq (стандартные текстовые утилиты UNIX), пути к которым указаны в переменной $PATH. 1) Поместите файл rus-ispell.tar.gz в рабочей директории и разархивируйте его с помощью одной из команд: gzip -dc rus-ispell.tar.gz | tar -xvf - tar -xzvf rus-ispell.tar.gz 2) Отредактируйте Makefile и убедитесь, что LIB указывает на место, где ispell будет искать свои рабочие файлы 3) Сделайте make для кодировки, используемой в вашей системе: koi8-r (koi), iso-8859-5 (iso), cp866 (alt), cp1251 (win) или maccyrillic (mac). Для этого выберите один из следующих вариантов: make koi (или просто make) make iso make alt make win make mac Создаваемый при этом hash-файл не будет поддерживать букву ё (как требует того практика большинства изданий на русском языке). Если же по какой-то причине вам нужна поддержка буквы ё (см. выше), для включения поддержки буквы ё необходимо набрать: make koi YO=1 (или просто make YO=1) make iso YO=1 make alt YO=1 make win YO=1 make mac YO=1 4) Установите словари в рабочей директории ispell (здесь вам могут понадобиться права доступа root): make install 5) Теперь можно стереть ненужные файлы: make clean B. Для пользователей, работающих в Windows Пользователи, работающие в Windows, могут использовать проверку русской орфографии со словарями ispell, работая в программе TxtEdit (автор -- Лузиус Шнайдер). Саму программу можно найти по адресу http://www.luziusschneider.com/TxtEditHome.htm и дополнить ее программой ispell, адаптированной для win32, которую можно взять с того же сайта по адресу: http://www.luziusschneider.com/Speller/ISpCzLoRu.exe Установка этих программ не вызывает проблем. Недостатком программы является использование устаревшей (примерно пятилетней давности) версии настоящего словаря. Для обновления этой версии пользователи Windows могут взять готовые affix-файл и списки слов в кодировке cp1251 в вариантах с поддержкой и без поддержки буквы ё, которые можно найти по адресу: ftp:://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp866.zip ftp://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp1251.zip Для обновления словарей необходимо просто распаковать полученные файлы в директории Program Files\Common Files\ISpell, запустить программу buildhash (buildhash.exe russian.dic russian.aff russian.hash), а затем переместить файлы russian.aff, russianyo.aff, russian.hash и russianyo.hash в поддиректорию Russian, где ispell хранит рабочие файлы. ИСПОЛЬЗОВАНИЕ: ispell -d russian имя_файла ---------------------------------------------------------------- Со всеми замечаниями, пожеланиями прошу обращаться к автору, Александру Лебедеву (swan@scon155.phys.msu.su)