Blame dictionaries/README.koi

Packit a907bc
Packit a907bc
		   Словарь русского языка для ispell
Packit a907bc
Packit a907bc
			    Версия - 0.99g5
Packit a907bc
      Автор: Александр Лебедев (http://scon155.phys.msu.su/~swan/)
Packit a907bc
Packit a907bc
Предлагаемый орфографический словарь русского языка представляет интерес
Packit a907bc
прежде всего для пользователей системы UNIX, в которой набор средств для
Packit a907bc
проверки правописания весьма ограничен.  Однако словарь может быть
Packit a907bc
полезен и для пользователей, работающих в операционных системах Windows,
Packit a907bc
DOS и OS/2, поскольку словарь поддерживает пять различных кодировок русских
Packit a907bc
букв (см. ниже).  Встроенные в ispell функции позволяют считать его удобным
Packit a907bc
средством для работы с текстами, подготовленными в редакторе TeX, а также
Packit a907bc
с файлами в формате HTML. Вариант словаря с набором слов и affix-файлом,
Packit a907bc
подготовленными для программы MySpell, используется для проверки орфографии
Packit a907bc
в системе OpenOffice.  Кроме этого, словарь может использоваться в
Packit a907bc
локальных и глобальных поисковых системах, строящихся на основе программ,
Packit a907bc
подобных HTDig и ASPseek.
Packit a907bc
Packit a907bc
Исторически предлагаемый словарь возник из небольшого словаря русского
Packit a907bc
языка для ispell, составленного Нилом Далтоном (Neal Dalton) в 1992 г.
Packit a907bc
на основе текстов, которые автор нашел в Интернет.  Словарь Далтона был
Packit a907bc
очень небольшим (всего 52 тысячи словоформ), содержал большое число
Packit a907bc
ошибок (более 8% слов) и имел слабо развитый файл преобразования
Packit a907bc
окончаний слов (affix-файл).
Packit a907bc
Packit a907bc
На первом этапе (работа была начата в конце 1997 года) в affix-файл
Packit a907bc
словаря были добавлены отсутствовавшие в нем правила образования форм
Packit a907bc
существительных, прилагательных, причастий, наречий, изменены правила
Packit a907bc
формирования окончаний глаголов, так что affix-файл можно считать созданным
Packit a907bc
заново.  Основным подходом, положенным в основу настоящего словаря, было
Packit a907bc
использование нормализованной формы слова и правил словоизменения,
Packit a907bc
отвечающих грамматике русского языка, а не традиционное использование
Packit a907bc
программы munchlist для создания словарей для ispell.  По этой причине
Packit a907bc
этот словарь одновременно содержит и важную информацию о морфологии слов,
Packit a907bc
которая необходима для современных русскоязычных поисковых систем.  При
Packit a907bc
вычитке словаря Далтона конкретные слова были приведены к нормализованной
Packit a907bc
форме и из словаря было исключено большинство ошибочных слов.  На этом
Packit a907bc
этапе работы мной использовался орфографический словарь русского языка,
Packit a907bc
выпущенный Институтом русского языка АН СССР в 1991 г.  Одновременно в
Packit a907bc
словарь было добавлено большое число слов, взятых из технических и
Packit a907bc
литературных текстов.
Packit a907bc
Packit a907bc
На втором этапе все имеющиеся в словаре слова были перепроверены с
Packit a907bc
помощью электронного орфографического словаря "Корректор" (120 тысяч
Packit a907bc
слов), а обнаруженные расхождения выверены по орфографическому словарю
Packit a907bc
русского языка, справочнику Зализняка ("Грамматический словарь русского
Packit a907bc
языка: словоизменение", 100 тысяч слов) и "Сводному словарю современной
Packit a907bc
русской лексики" (170 тысяч слов).
Packit a907bc
Packit a907bc
Все новые слова, добавляемые в словарь после этого, проходят проверку
Packit a907bc
с помощью указанных выше орфографических словарей (в специальных
Packit a907bc
областях -- энциклопедий) и с помощью нового издания "Русского
Packit a907bc
орфографического словаря" под редакцией Лопатина (160 тысяч слов).
Packit a907bc
Слова, отсутствующие в этих изданиях, добавляются если они действительно
Packit a907bc
широко используются и в их написании нет никаких сомнений.  В настоящей
Packit a907bc
версии объем словаря составляет более 139 тысяч базовых слов, а полное
Packit a907bc
число образуемых из них словоформ превышает 1.367 миллиона (против 52 тысяч
Packit a907bc
в словаре Нила Далтона и 952 тысяч слов в имеющимся в свободном доступе
Packit a907bc
в Интернет словаре Константина Книжника, в котором, как оказалось при
Packit a907bc
выборочной проверке, содержится 6% ошибочных слов).
Packit a907bc
Packit a907bc
Отличительной чертой данного словаря от всех известных автору других
Packit a907bc
орфографических словарей является то, что начиная с версии 0.99c0 в него
Packit a907bc
включена полноценная поддержка буквы ё (другие словари просто заменяют
Packit a907bc
букву ё на букву е).  Это может быть очень полезно при подготовке литературы
Packit a907bc
для детей младшего возраста, изданий для иностранцев, орфографических
Packit a907bc
справочников -- там, где правила издания требуют использования буквы ё.
Packit a907bc
Packit a907bc
Словарь base.koi, а также шесть дополнительных словарей (abbrev.koi,
Packit a907bc
computer.koi, for_name.koi, geography.koi, rare.koi, science.koi) и файл
Packit a907bc
russian.aff.koi поставляются в кодировке koi8-r.  Для преобразования
Packit a907bc
текстов в другие поддерживаемые кодировки -- cp866 (alt), iso-8859-5,
Packit a907bc
cp1251 (win) и maccyrillic -- в комплект включен скрипт-перекодировщик
Packit a907bc
trans, написанный Владимиром Воловичем.
Packit a907bc
Packit a907bc
Внимание!  В словарь rare.koi выделены некоторые редкие слова, написание
Packit a907bc
которых мало отличается от широко распространенных слов (например, пара
Packit a907bc
слов шоссе--шассе) и включение которых в основной словарь может приводить
Packit a907bc
к пропуску ошибок.  По умолчанию эти слова не включаются в словарь.  Если
Packit a907bc
эти слова вам действительно могут понадобиться (например, при создании
Packit a907bc
поисковой системы), уберите значок # в конце строки dict = ... в
Packit a907bc
Makefile.
Packit a907bc
Packit a907bc
Словарь постоянно совершенствуется, дополняется и корректируется.
Packit a907bc
Последнюю версию словаря можно найти на сервере:
Packit a907bc
Packit a907bc
    ftp://scon155.phys.msu.su/pub/russian/ispell/rus-ispell.tar.gz
Packit a907bc
Packit a907bc
Файлы-заготовки для пользователей Windows и DOS в кодировках cp866 и cp1251
Packit a907bc
можно найти на сервере:
Packit a907bc
Packit a907bc
    ftp://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp866.zip
Packit a907bc
    ftp://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp1251.zip
Packit a907bc
Packit a907bc
На основе этого словаря Сергей Виницкий создал словарь для проверки
Packit a907bc
правописания в текстах, набранных в дореформенной русской орфографии.
Packit a907bc
Предложенное им расширение кодировки koi8 и сами словари можно найти по
Packit a907bc
адресу:
Packit a907bc
Packit a907bc
    http://oldrus-ispell.sourceforge.net/koi8-extended.html
Packit a907bc
Packit a907bc
Вариант словаря, подготовленный для работы с программой MySpell, можно
Packit a907bc
найти по адресу:
Packit a907bc
Packit a907bc
    ftp://scon155.phys.msu.su/pub/russian/ispell/myspell/rus-myspell.tar.gz
Packit a907bc
Packit a907bc
Packit a907bc
УСТАНОВКА:
Packit a907bc
Packit a907bc
  A. Для пользователей, работающих в UNIX
Packit a907bc
Packit a907bc
Для пользователей UNIX для работы с орфографическим словарем русского
Packit a907bc
языка понадобится пакет программ ispell (последняя версия имеет номер
Packit a907bc
3.3.02).  Эти программы обычно включаются в дистрибутивы UNIX и скорее
Packit a907bc
всего уже имеются на вашем компьютере.  При желании пакет можно взять
Packit a907bc
по адресу
Packit a907bc
    http://fmg-www.cs.ucla.edu/geoff/ispell.html
Packit a907bc
или найти на любом крупном ftp-сервере.  При самостоятельной компиляции
Packit a907bc
ispell надо скопировать файл local.h.samp в local.h, закомментировать в
Packit a907bc
нем NO8BIT (#undef NO8BIT) и установить правильные пути для BINDIR,
Packit a907bc
LIBDIR и других рабочих директорий.
Packit a907bc
Packit a907bc
Чтобы построить рабочие файлы для ispell, вам необходим GNU make и
Packit a907bc
программы buildhash (одна из программ, поставляемых вместе с ispell),
Packit a907bc
sed, а также sort, tr и uniq (стандартные текстовые утилиты UNIX), пути
Packit a907bc
к которым указаны в переменной $PATH.
Packit a907bc
Packit a907bc
  1) Поместите файл rus-ispell.tar.gz в рабочей директории и
Packit a907bc
     разархивируйте его с помощью одной из команд:
Packit a907bc
	gzip -dc rus-ispell.tar.gz | tar -xvf -
Packit a907bc
	tar -xzvf rus-ispell.tar.gz
Packit a907bc
  2) Отредактируйте Makefile и убедитесь, что LIB указывает на место,
Packit a907bc
	где ispell будет искать свои рабочие файлы
Packit a907bc
  3) Сделайте make для кодировки, используемой в вашей системе:
Packit a907bc
     koi8-r (koi), iso-8859-5 (iso), cp866 (alt), cp1251 (win) или
Packit a907bc
     maccyrillic (mac).  Для этого выберите один из следующих вариантов:
Packit a907bc
	make koi (или просто make)
Packit a907bc
	make iso
Packit a907bc
	make alt
Packit a907bc
	make win
Packit a907bc
	make mac
Packit a907bc
     Создаваемый при этом hash-файл не будет поддерживать букву ё (как
Packit a907bc
     требует того практика большинства изданий на русском языке).  Если
Packit a907bc
     же по какой-то причине вам нужна поддержка буквы ё (см. выше), для
Packit a907bc
     включения поддержки буквы ё необходимо набрать:
Packit a907bc
	make koi YO=1 (или просто make YO=1)
Packit a907bc
	make iso YO=1
Packit a907bc
	make alt YO=1
Packit a907bc
	make win YO=1
Packit a907bc
	make mac YO=1
Packit a907bc
  4) Установите словари в рабочей директории ispell (здесь вам могут
Packit a907bc
     понадобиться права доступа root):
Packit a907bc
	make install
Packit a907bc
  5) Теперь можно стереть ненужные файлы:
Packit a907bc
	make clean
Packit a907bc
Packit a907bc
  B. Для пользователей, работающих в Windows
Packit a907bc
Packit a907bc
Пользователи, работающие в Windows, могут использовать проверку русской
Packit a907bc
орфографии со словарями ispell, работая в программе TxtEdit (автор --
Packit a907bc
Лузиус Шнайдер).  Саму программу можно найти по адресу
Packit a907bc
    http://www.luziusschneider.com/TxtEditHome.htm
Packit a907bc
и дополнить ее программой ispell, адаптированной для win32, которую можно
Packit a907bc
взять с того же сайта по адресу:
Packit a907bc
    http://www.luziusschneider.com/Speller/ISpCzLoRu.exe
Packit a907bc
Установка этих программ не вызывает проблем.
Packit a907bc
Packit a907bc
Недостатком программы является использование устаревшей (примерно пятилетней
Packit a907bc
давности) версии настоящего словаря.  Для обновления этой версии пользователи
Packit a907bc
Windows могут взять готовые affix-файл и списки слов в кодировке cp1251 в
Packit a907bc
вариантах с поддержкой и без поддержки буквы ё, которые можно найти по адресу:
Packit a907bc
Packit a907bc
    ftp:://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp866.zip
Packit a907bc
    ftp://scon155.phys.msu.su/pub/russian/ispell/msdos/ricp1251.zip
Packit a907bc
Packit a907bc
Для обновления словарей необходимо просто распаковать полученные файлы в
Packit a907bc
директории Program Files\Common Files\ISpell, запустить программу buildhash
Packit a907bc
(buildhash.exe russian.dic russian.aff russian.hash), а затем переместить
Packit a907bc
файлы russian.aff, russianyo.aff, russian.hash и russianyo.hash в
Packit a907bc
поддиректорию Russian, где ispell хранит рабочие файлы.
Packit a907bc
Packit a907bc
Packit a907bc
ИСПОЛЬЗОВАНИЕ:
Packit a907bc
Packit a907bc
	ispell -d russian имя_файла
Packit a907bc
Packit a907bc
----------------------------------------------------------------
Packit a907bc
  Со всеми замечаниями, пожеланиями прошу обращаться к автору,
Packit a907bc
  Александру Лебедеву (swan@scon155.phys.msu.su)