[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Vill einhver hjálpa til við að búa til alvöru íslenskt villuleiðréttingarkerfi fyrir Hunspell og OpenOffice.org?



Það má kannski bæta við þetta að fullkomnasti orðalistinn sem væri hægt að nota er frá Árnastofnun <http://bin.arnastofnun.is/opin_gogn/>, en það er vandamál að hann er með eitthvað skrýtið notkunarleyfi og er þar með ekki hægt að nota í stafsetningarviðbótina.

Björgvin er búinn að gera athugasemd við þetta fyrirkomulag; <http://groups.google.com/group/ordid_is/browse_thread/thread/e73ff371dd1391c6>.

Enn lokaðri er svo aðgangur að samheitaorðasafninu (Höfundarréttur þess er hjá Styrktarsjóði Þórbergs
Þórðarsonar og Margrétar Jónsdóttur, sem er í vörslu HÍ). Það er verið að skoða hvort leyfi fáist til að nota það.


Það væri frábært ef hægt væri að nota hvort tveggja; uppflettingu í orðaskrám og málfræðireglur hunspell, þetta seinna styttir listana allverulega og gerir væntanlega uppflettinguna hraðvirkari.

Bkv,

Sveinn í Felli

Þann mið 17.feb 2010 11:42, skrifaði Björgvin Ragnarsson:
Sæll Stefán,

Frábært að það eru fleiri sem hafa áhuga á Hunspell. Sjálfur setti ég
saman viðbót fyrir OpenOffice,
http://extensions.services.openoffice.org/project/dict-is sem er nú
sjálfgefin íslenska uppsetningarpakkanum sem má finna hér:
http://openoffice.is/files/. Ég er með verkefni í kringum þetta hér
http://launchpad.net/hunspell-is. Markmiðið að vinna
stafsetningarorðabók upp úr Wiki-orðabókinni, http://is.wiktionary.org
og nota orðalistann http://elias.rhi.hi.is/pub/is/ordalisti til að
fylla upp í eyðurnar.

Ég sé að þú ert farinn að skilgreina fallbeygingarreglur í .aff/.dic
skránum. Hjá is.wiktionary.org er búið að skilgreina nær allar
beyginarreglur í íslensku og næsta verk hjá mér er að búa til forrit
sem les þær inn í Hunspell form.

reynum að sameina krafta okkar og gera almennilega frjálsa íslenska
stafsetningarorðabók.

kv.

Björgvin Ragnarsson


2010/2/16 Stefán Vignir Skarphéðinsson<stebbiv ( at ) gmail ( dot ) com>:
Sælir nördar!

Mér leiddist eitthvað á sunnudagskvöldið og fór að lesa mig til um
hvernig menn gera villuleiðréttingarkerfi fyrir OpenOffice og byrjaði
að slá inn kóða eftir smá lestur. Þetta er núna orðið að verkefni á
Github og það væri gaman að fá fleiri hendur í þetta verk. Verkefnið
er hýst á http://github.com/stebbiv/OpenOffice-Spelling-is/.

Öll hjálp, spurningar og athugasemdir vel þegnar!

    ===Nördaskapur hefst===

Markmiðið er að búa til frjálsa orðabók sem virkar beint úr kassanum á
OpenOffice og öðrum kerfum sem nota Hunspell-kerfið fyrir
leiðréttingar en þar má m.a. nefna Firefox, Opera, Cocoa-forritin í OS
X (undir 10.5 og nýrra) ásamt heilum helling af forritum sem ganga á
Xorg. –Þannig kæmu öll önnur hugbúnaðarverkefni (bæði opin og lokuð)
til með að græða á verkefninu.

Planið er að byggja orðabókina upp á einföldum "grunnorðum"; s.s.
nafnorðum í eintölu nefnifalli, sagnorðum í 1. pers. et. sem kerfið
kemur svo til með að búa til samsett orð úr og finna út föll.
(Hunspell er t.d. ansi sniðugt að því leyti að það styður föll, greina
og samsett orð). Þannig þarf ekki að díla við heljarlangan orðalista
(http://elias.rhi.hi.is/pub/is/ordalisti) eins og flest frjáls
leiðréttingakerfi sem díla við íslensku (aspell/ispell) vinna með.
–Orðabókin er ekki stór eins og er, en það er bara til að auðvelda
þróunina á málfræðikerfinu sem keyrir á bakvið.

    ==Nördaskapur endar==

Málið er að þetta er örugglega ekki eins manns verk og kemur til með
að taka ansi langan tíma og mun valda ansi miklum höfuðverkjum fyrir
þá sem koma til með að taka þátt m.a. vegna þess að svona verk hefur
ekki verið unnið fyrir íslensku áður (fyrir utan Púka) og að það er
ekki beinlínis allt fljótandi í handbókum og hjálp á netinu um þessi
mál (opinberi póstlistinn fyrir Hunspell er t.d. dauður en
tungumálahópurinn hjá OpenOffice.org er sem betur fer lifandi.

Hvar mælir fólk með því að maður sæki um styrki og slíkt í svona verk?
Ég veit t.d. að Tungutæknisetur (http://www.tungutaekni.is/) er til
staðar þó þeir hafi ekki uppfært vefinn sinn í meir en ár og virðast
aðallega verið að hjálpa til með að þróa commercial hugbúnað.

(Ég reikna með því að flestir hér séu skráðir á openoffice.is listann
og aðra íslenska póstlista sem koma þessu við, en fólki er frjálst að
áframsenda þetta ef það vill.)

--
Stefán Vignir Skarphéðinsson
stebbiv ( at ) gmail ( dot ) com