Blob Blame History Raw
\documentclass[12pt]{article}
\usepackage[finnish]{babel}
\usepackage{a4}
\tolerance=10000
\frenchspacing
\setlength{\parindent}{0pt}
\setlength{\parskip}{1ex plus 0.5ex minus 0.2ex}
%\usepackage[latin9]{inputenc}
\usepackage{ucs}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{hevea}
\newcommand{\I}[2]{\item \ahref{#1}{#2} \begin{latexonly}(#1)\end{latexonly}}
\newcommand{\M}[1]{\ahref{#1}{(#1)}}

%\renewcommand{\@charset}{UTF-8}

% Muuttaminen html-muotoon:  hevea -exec xxcharset.exe suomi.tex


\begin{document}
\title{Suomi-Malaga}
\author{Hannu Väisänen}

\maketitle

\newpage

Copyright (©) 2006-2008 Hannu Väisänen.

Tämä dokumentti on vapaa; tätä dokumenttia on sallittu levittää
edelleen ja muuttaa GNU yleisen lisenssin (GPL lisenssin) ehtojen
mukaan sellaisina kuin Free Software Foundation on ne julkaissut; joko
Lisenssin version 2, tai (valinnan mukaan) minkä tahansa myöhemmän
version mukaisesti.

This document is free software; you can redistribute it and/or modify
it under the terms of the GNU General Public License as published by
the Free Software Foundation; either version 2, or (at your option)
any later version.

\newpage

Suomi-Malaga on Malaga"-nimisellä ohjelmointikielellä
\begin{latexonly} \\ \end{latexonly}
\M{http://home.arcor.de/bjoern-beutel/malaga/}
tehty suomen kielen muoto"-opin kuvaus.

Sen voi ladata SourceForgesta
%\begin{latexonly}
%\begin{verbatim}
%http://sourceforge.net/project/showfiles.php?group_id=156731
%\end{verbatim}
%\end{latexonly}
\ahrefurl{http://sourceforge.net/project/showfiles.php?group\_id=156731}

Uusimman version saa SourceForgesta komennolla

\begin{verbatim}
svn co https://voikko.svn.sourceforge.net/svnroot/voikko/trunk/suomimalaga
\end{verbatim}


Suomi"-Malagaa voidaan levittää edelleen ja muuttaa GNU yleisen
lisenssin (GPL"-lisenssin) ehtojen mukaan.

Pikainen asennusohje


0. Tarkista, että käytät UTF-8 -lokaalia. 

Fedora Coressa käy \verb=fi_FI.utf8=.

1. Asenna Malaga ohjeiden mukaan.

2. Asenna Suomi-Malaga.

\begin{verbatim}
bunzip2 -c suomi-malaga-x.y.z.tar.bz2 | tar xf -
cd suomi-malaga-z.y.z
make
\end{verbatim}

Korvaa x.y.z lataamasi version numerolla.

Tämän jälkeen voit kokeilla Suomi-Malagaa komennolla
\verb=malaga suomi.pro=

Ohjelma tulostaa jotain tällaista:

\begin{verbatim}
This is malaga, version 7.9.
Copyright (C) 1995 Bjoern Beutel.
This program is part of Malaga, a system for Natural Language Analysis.
You can distribute it under the terms of the GNU General Public License.
malaga>
\end{verbatim}

Nyt voit kokeilla Suomi-Malagaa kirjoittamalla
\verb=ma alusta=

Tuloksena pitäisi olla \M{malaga1.png}

Jos kirjotat komennon \verb=tree= saat jotain tälläistä

\M{malaga2.png}

Kun napautat hiirellä ympyrää, jonka yläpuolella on numero 18
tuloksena on

\M{malaga3.png}

Malaga lopetetaan komennolla \verb=quit=.

\bigskip

Ohjelmaa käytetään kahdessa sovelluksessa:

\begin{itemize}

\item Sukija \begin{latexonly} \\ \end{latexonly}
\ahrefurl{http://joyds1.joensuu.fi/sukija/sukija.html}
tiedostojen indeksointiohjelma, joka löytää sanat
taivutusmuotoineen.

\item Voikko \begin{latexonly} \\ \end{latexonly}
\ahrefurl{http://voikko.sourceforge.net/}
suomen kielen oikolukuohjelma.
\end{itemize}

Molemmat ohjelmat on julkaistu GPL"-lisenssillä.

Suomi-Malagaa voi käyttää myös Lucenessa
\begin{latexonly} \\ \end{latexonly}
(\ahrefurl{http://lucene.apache.org/java/}).

Lisätietoja asiasta on sivulla
\begin{latexonly} \\ \end{latexonly}
\ahrefurl{http://joyds1.joensuu.fi/programs/index.html}

Suomi-Malagaa voi testata Internetissä
\begin{latexonly} \\ \end{latexonly}
\ahrefurl{http://www.cl.uzh.ch/kitt/cgi-bin/clsmm/suomimalaga-query.pl}

\bigskip

Tällä hetkellä Sukija ja Voikko käyttävät Suomi-Malagasta eri
versioita, mutta koodien yhdistäminen on käynnissä.

Eri versioitten käyttö johtuu siitä, että indeksoinnin ja oikoluvun
tarpeet ovat erilaiset. Indeksoinnissa kielen kuvauksen on oltava
deskriptiivinen: kieltä on kuvattava niin kuin sitä on kirjoitettu.
Tällaista ohjelmaa on tietenkin mahdotonta tehdä, koska kukaan ei voi
lukea läpi kaikkia suomenkielisiä tekstejä, vaikka ei aloittaisikaan
Mikael Agricolasta.

Oikoluvussa kielen kuvauksen on oltava normatiivinen: oikoluvussa
voidaan hyväksyä vain ne muodot, jotka ovat ''oikein'' nykyisten
oikeinkirjoitussääntöjen mukaan. Tämmöistäkään kielen kuvausta ei ole
olemassa, sillä vaikka suomesta on kirjoitettu monia kielioppeja, kun
niiden perusteella rupeaa tekemään tietokoneohjelmaa, huomaa pian,
että niissä on jätetty paljon lukijan kielikorvan varaan.

Molemmat Suomi-Malagan versiot ovat siis vain tekijöidensä
mielipiteitä siitä, millainen suomen kieli on.

\bigskip

Suomi-Malagan versioitten välisiä eroja ovat muun muassa

Sukija-versio hyväksyy joitakin yleisiä kirjoitusvirheitä,
esimerkiksi: julka(i)sta, julka(i)su, keho(i)ttaa, kirjo(i)ttaa,
keho(i)tus, kirjo(i)tus.

Voikko-versio hyväksyy vain oikeat muodot julkaista, julkaisu,
kehottaa, kirjoittaa, kehotus, kirjoitus. Joskus se näyttää hyväksyvän
molemmat, mutta tällöin ne ovat kaksi eri sanaa: Aurinko helottaa
taivaalta. Seppä heloittaa puukkoa.

Sukija-versio hyväksyy yhdyssanoja vapaammin kuin Voikko-versio.

Sukija-versio hyväksyy vanhentuneita taivutusmuotoja, joita
Voikko-versio ei hyväksy, esim. matalata = matalaa.

Sukija-versio hyväksyy sivistyssanoista vanhentuneita muotoja kuten
esimerkiksi obligatio ja obligatsioni.


% Sukija"-versiossa sanat taipuvat Nykysuomen sanakirjan mukaan,
% Voikko"-versiossa Suomen kielen perussanakirjan mukaan. Tämä muutos on
% vasta tekeillä, ja suurin osa sanoista taipuu Voikko-versiossakin
% Nykysuomen sanakirjan mukaan.

% Sanojen taivutus on otettu taivutusluokittain eikä sanoittain.
% Esimerkiksi Nykysuomen sanakirja hyväksyy autio"-sanan yksikön osannot
% autiota ja autioa, mutta Suomen kielen perussanakirja vain muodon
% autiota. Olen jättänyt autioa"-muodon pois Voikko"-version
% taivutuskaavasta, mutta en ole tarkistanut, että sanat, jotka taipuvat
% Nykysuomen sanakirjassa kuten autio, taipuvat samalla tavalla myös
% Suomen kielen perussanakirjassa.

\end{document}