Blame sukija/suomi.tex

Packit 1f3717
\documentclass[12pt]{article}
Packit 1f3717
\usepackage[finnish]{babel}
Packit 1f3717
\usepackage{a4}
Packit 1f3717
\tolerance=10000
Packit 1f3717
\frenchspacing
Packit 1f3717
\setlength{\parindent}{0pt}
Packit 1f3717
\setlength{\parskip}{1ex plus 0.5ex minus 0.2ex}
Packit 1f3717
%\usepackage[latin9]{inputenc}
Packit 1f3717
\usepackage{ucs}
Packit 1f3717
\usepackage[utf8]{inputenc}
Packit 1f3717
\usepackage[T1]{fontenc}
Packit 1f3717
\usepackage{hevea}
Packit 1f3717
\newcommand{\I}[2]{\item \ahref{#1}{#2} \begin{latexonly}(#1)\end{latexonly}}
Packit 1f3717
\newcommand{\M}[1]{\ahref{#1}{(#1)}}
Packit 1f3717
Packit 1f3717
%\renewcommand{\@charset}{UTF-8}
Packit 1f3717
Packit 1f3717
% Muuttaminen html-muotoon:  hevea -exec xxcharset.exe suomi.tex
Packit 1f3717
Packit 1f3717
Packit 1f3717
\begin{document}
Packit 1f3717
\title{Suomi-Malaga}
Packit 1f3717
\author{Hannu Väisänen}
Packit 1f3717
Packit 1f3717
\maketitle
Packit 1f3717
Packit 1f3717
\newpage
Packit 1f3717
Packit 1f3717
Copyright (©) 2006-2008 Hannu Väisänen.
Packit 1f3717
Packit 1f3717
Tämä dokumentti on vapaa; tätä dokumenttia on sallittu levittää
Packit 1f3717
edelleen ja muuttaa GNU yleisen lisenssin (GPL lisenssin) ehtojen
Packit 1f3717
mukaan sellaisina kuin Free Software Foundation on ne julkaissut; joko
Packit 1f3717
Lisenssin version 2, tai (valinnan mukaan) minkä tahansa myöhemmän
Packit 1f3717
version mukaisesti.
Packit 1f3717
Packit 1f3717
This document is free software; you can redistribute it and/or modify
Packit 1f3717
it under the terms of the GNU General Public License as published by
Packit 1f3717
the Free Software Foundation; either version 2, or (at your option)
Packit 1f3717
any later version.
Packit 1f3717
Packit 1f3717
\newpage
Packit 1f3717
Packit 1f3717
Suomi-Malaga on Malaga"-nimisellä ohjelmointikielellä
Packit 1f3717
\begin{latexonly} \\ \end{latexonly}
Packit 1f3717
\M{http://home.arcor.de/bjoern-beutel/malaga/}
Packit 1f3717
tehty suomen kielen muoto"-opin kuvaus.
Packit 1f3717
Packit 1f3717
Sen voi ladata SourceForgesta
Packit 1f3717
%\begin{latexonly}
Packit 1f3717
%\begin{verbatim}
Packit 1f3717
%http://sourceforge.net/project/showfiles.php?group_id=156731
Packit 1f3717
%\end{verbatim}
Packit 1f3717
%\end{latexonly}
Packit 1f3717
\ahrefurl{http://sourceforge.net/project/showfiles.php?group\_id=156731}
Packit 1f3717
Packit 1f3717
Uusimman version saa SourceForgesta komennolla
Packit 1f3717
Packit 1f3717
\begin{verbatim}
Packit 1f3717
svn co https://voikko.svn.sourceforge.net/svnroot/voikko/trunk/suomimalaga
Packit 1f3717
\end{verbatim}
Packit 1f3717
Packit 1f3717
Packit 1f3717
Suomi"-Malagaa voidaan levittää edelleen ja muuttaa GNU yleisen
Packit 1f3717
lisenssin (GPL"-lisenssin) ehtojen mukaan.
Packit 1f3717
Packit 1f3717
Pikainen asennusohje
Packit 1f3717
Packit 1f3717
Packit 1f3717
0. Tarkista, että käytät UTF-8 -lokaalia. 
Packit 1f3717
Packit 1f3717
Fedora Coressa käy \verb=fi_FI.utf8=.
Packit 1f3717
Packit 1f3717
1. Asenna Malaga ohjeiden mukaan.
Packit 1f3717
Packit 1f3717
2. Asenna Suomi-Malaga.
Packit 1f3717
Packit 1f3717
\begin{verbatim}
Packit 1f3717
bunzip2 -c suomi-malaga-x.y.z.tar.bz2 | tar xf -
Packit 1f3717
cd suomi-malaga-z.y.z
Packit 1f3717
make
Packit 1f3717
\end{verbatim}
Packit 1f3717
Packit 1f3717
Korvaa x.y.z lataamasi version numerolla.
Packit 1f3717
Packit 1f3717
Tämän jälkeen voit kokeilla Suomi-Malagaa komennolla
Packit 1f3717
\verb=malaga suomi.pro=
Packit 1f3717
Packit 1f3717
Ohjelma tulostaa jotain tällaista:
Packit 1f3717
Packit 1f3717
\begin{verbatim}
Packit 1f3717
This is malaga, version 7.9.
Packit 1f3717
Copyright (C) 1995 Bjoern Beutel.
Packit 1f3717
This program is part of Malaga, a system for Natural Language Analysis.
Packit 1f3717
You can distribute it under the terms of the GNU General Public License.
Packit 1f3717
malaga>
Packit 1f3717
\end{verbatim}
Packit 1f3717
Packit 1f3717
Nyt voit kokeilla Suomi-Malagaa kirjoittamalla
Packit 1f3717
\verb=ma alusta=
Packit 1f3717
Packit 1f3717
Tuloksena pitäisi olla \M{malaga1.png}
Packit 1f3717
Packit 1f3717
Jos kirjotat komennon \verb=tree= saat jotain tälläistä
Packit 1f3717
Packit 1f3717
\M{malaga2.png}
Packit 1f3717
Packit 1f3717
Kun napautat hiirellä ympyrää, jonka yläpuolella on numero 18
Packit 1f3717
tuloksena on
Packit 1f3717
Packit 1f3717
\M{malaga3.png}
Packit 1f3717
Packit 1f3717
Malaga lopetetaan komennolla \verb=quit=.
Packit 1f3717
Packit 1f3717
\bigskip
Packit 1f3717
Packit 1f3717
Ohjelmaa käytetään kahdessa sovelluksessa:
Packit 1f3717
Packit 1f3717
\begin{itemize}
Packit 1f3717
Packit 1f3717
\item Sukija \begin{latexonly} \\ \end{latexonly}
Packit 1f3717
\ahrefurl{http://joyds1.joensuu.fi/sukija/sukija.html}
Packit 1f3717
tiedostojen indeksointiohjelma, joka löytää sanat
Packit 1f3717
taivutusmuotoineen.
Packit 1f3717
Packit 1f3717
\item Voikko \begin{latexonly} \\ \end{latexonly}
Packit 1f3717
\ahrefurl{http://voikko.sourceforge.net/}
Packit 1f3717
suomen kielen oikolukuohjelma.
Packit 1f3717
\end{itemize}
Packit 1f3717
Packit 1f3717
Molemmat ohjelmat on julkaistu GPL"-lisenssillä.
Packit 1f3717
Packit 1f3717
Suomi-Malagaa voi käyttää myös Lucenessa
Packit 1f3717
\begin{latexonly} \\ \end{latexonly}
Packit 1f3717
(\ahrefurl{http://lucene.apache.org/java/}).
Packit 1f3717
Packit 1f3717
Lisätietoja asiasta on sivulla
Packit 1f3717
\begin{latexonly} \\ \end{latexonly}
Packit 1f3717
\ahrefurl{http://joyds1.joensuu.fi/programs/index.html}
Packit 1f3717
Packit 1f3717
Suomi-Malagaa voi testata Internetissä
Packit 1f3717
\begin{latexonly} \\ \end{latexonly}
Packit 1f3717
\ahrefurl{http://www.cl.uzh.ch/kitt/cgi-bin/clsmm/suomimalaga-query.pl}
Packit 1f3717
Packit 1f3717
\bigskip
Packit 1f3717
Packit 1f3717
Tällä hetkellä Sukija ja Voikko käyttävät Suomi-Malagasta eri
Packit 1f3717
versioita, mutta koodien yhdistäminen on käynnissä.
Packit 1f3717
Packit 1f3717
Eri versioitten käyttö johtuu siitä, että indeksoinnin ja oikoluvun
Packit 1f3717
tarpeet ovat erilaiset. Indeksoinnissa kielen kuvauksen on oltava
Packit 1f3717
deskriptiivinen: kieltä on kuvattava niin kuin sitä on kirjoitettu.
Packit 1f3717
Tällaista ohjelmaa on tietenkin mahdotonta tehdä, koska kukaan ei voi
Packit 1f3717
lukea läpi kaikkia suomenkielisiä tekstejä, vaikka ei aloittaisikaan
Packit 1f3717
Mikael Agricolasta.
Packit 1f3717
Packit 1f3717
Oikoluvussa kielen kuvauksen on oltava normatiivinen: oikoluvussa
Packit 1f3717
voidaan hyväksyä vain ne muodot, jotka ovat ''oikein'' nykyisten
Packit 1f3717
oikeinkirjoitussääntöjen mukaan. Tämmöistäkään kielen kuvausta ei ole
Packit 1f3717
olemassa, sillä vaikka suomesta on kirjoitettu monia kielioppeja, kun
Packit 1f3717
niiden perusteella rupeaa tekemään tietokoneohjelmaa, huomaa pian,
Packit 1f3717
että niissä on jätetty paljon lukijan kielikorvan varaan.
Packit 1f3717
Packit 1f3717
Molemmat Suomi-Malagan versiot ovat siis vain tekijöidensä
Packit 1f3717
mielipiteitä siitä, millainen suomen kieli on.
Packit 1f3717
Packit 1f3717
\bigskip
Packit 1f3717
Packit 1f3717
Suomi-Malagan versioitten välisiä eroja ovat muun muassa
Packit 1f3717
Packit 1f3717
Sukija-versio hyväksyy joitakin yleisiä kirjoitusvirheitä,
Packit 1f3717
esimerkiksi: julka(i)sta, julka(i)su, keho(i)ttaa, kirjo(i)ttaa,
Packit 1f3717
keho(i)tus, kirjo(i)tus.
Packit 1f3717
Packit 1f3717
Voikko-versio hyväksyy vain oikeat muodot julkaista, julkaisu,
Packit 1f3717
kehottaa, kirjoittaa, kehotus, kirjoitus. Joskus se näyttää hyväksyvän
Packit 1f3717
molemmat, mutta tällöin ne ovat kaksi eri sanaa: Aurinko helottaa
Packit 1f3717
taivaalta. Seppä heloittaa puukkoa.
Packit 1f3717
Packit 1f3717
Sukija-versio hyväksyy yhdyssanoja vapaammin kuin Voikko-versio.
Packit 1f3717
Packit 1f3717
Sukija-versio hyväksyy vanhentuneita taivutusmuotoja, joita
Packit 1f3717
Voikko-versio ei hyväksy, esim. matalata = matalaa.
Packit 1f3717
Packit 1f3717
Sukija-versio hyväksyy sivistyssanoista vanhentuneita muotoja kuten
Packit 1f3717
esimerkiksi obligatio ja obligatsioni.
Packit 1f3717
Packit 1f3717
Packit 1f3717
% Sukija"-versiossa sanat taipuvat Nykysuomen sanakirjan mukaan,
Packit 1f3717
% Voikko"-versiossa Suomen kielen perussanakirjan mukaan. Tämä muutos on
Packit 1f3717
% vasta tekeillä, ja suurin osa sanoista taipuu Voikko-versiossakin
Packit 1f3717
% Nykysuomen sanakirjan mukaan.
Packit 1f3717
Packit 1f3717
% Sanojen taivutus on otettu taivutusluokittain eikä sanoittain.
Packit 1f3717
% Esimerkiksi Nykysuomen sanakirja hyväksyy autio"-sanan yksikön osannot
Packit 1f3717
% autiota ja autioa, mutta Suomen kielen perussanakirja vain muodon
Packit 1f3717
% autiota. Olen jättänyt autioa"-muodon pois Voikko"-version
Packit 1f3717
% taivutuskaavasta, mutta en ole tarkistanut, että sanat, jotka taipuvat
Packit 1f3717
% Nykysuomen sanakirjassa kuten autio, taipuvat samalla tavalla myös
Packit 1f3717
% Suomen kielen perussanakirjassa.
Packit 1f3717
Packit 1f3717
\end{document}
Packit 1f3717