Vēsturisko tekstu apstrādes rīks

LNB krājumos šobrīd ir ļoti liels daudzums vecās rakstības materiālu: gan periodika, gan grāmatas. Šie materiāli tiek skenēti un ievietoti arī digitālajā bibliotēkā, taču līdz šim bija dažādas tehniskas problēmas ar to apstrādi, sākot jau ar teksta atpazīšanas programmu nespēju strādāt ar latviešu gotikas fontiem. Šo problēmu LNB gan, šķiet, būs atrisinājusi, pasūtot ABBYY izstrādāt speciālu Finereader versiju tieši latviešu valodas gotikai. LNB saņems Finereader versiju, kas ar vismaz 85% precizitāti iegūs no skenētiem attēliem tekstuālu informāciju.

Tiesa, ar saburtošanu vēsturisko tekstu apstrāde nebeidzas, jo jācīnās ar tādām problēmām kā OCR kļūdas, novecojusi ortogrāfija un tekstos lietoti vecvārdi. Par visām šīm problēmām un cīņu pret tām var lasīt LNDB bloga ierakstā “Vecajai drukai – jauna elpa“.

Latvijas Universitātes Matemātikas un Informātikas institūts pēc LNB pasūtījuma izstrādājis latviešu gotikas apstrādes rīka arhitektūru. ” Gotikas analizators” apstrādās Finereader (vai jebkuras citas OCR programmas) iegūto rezultātu: novērsīs OCR kļūdas, cīnīsies ar novecojušo ortogrāfiju un vecvārdiem piemeklēs atbilstošos sinonīmus.

Piemēram, ja OCR programma tekstā būs atpazinusi vārdu “muschka”, Gotikas analizators mēģinās uzminēt, ka varbūt patiesībā tekstā bijis minēts vārds “wuschka”, kam mūsdienu ortogrāfijā atbilst vārds “vuška”, kam, savukārt, atbilst mūsdienu vārds: “aita”. Noindeksējot sākotnējo tekstu ar atpazīšanas rezultātā iegūtajiem vārdiem, tiks panākts efekts, ka tekstu varēs atrast pēc atslēgvārda “aita” pat tad, ja OCR programma tekstā būs atpazinusi vārdu “muschka”.

LU MII izstrādātā Gotikas analizatora demo programmu var apskatīt valoda.ailab.lv/gotika.

Gotikas analizatoru plānots integrēt projektā Periodika.lv un nākotnē arī vēsturisku grāmatu portālā, lai nodrošinātu meklēšanu vecos tekstos.

13 Responses to Vēsturisko tekstu apstrādes rīks

  1. OreMan says:

    Tur laikam nedaudz neprecīza referencei tai gotikas lapai.. Pirms `gotika` vajag slīpsvītru, nevis punktu, tāpat kā vizuāli redzamajā adresē.

  2. Artūrs Žogla says:

    OreMan, paldies par komentāru! Salaboju.

  3. Māra Jēkabsone says:

    Visu cieņu entuziastiem, bet nevajag jaukt nesajaucamas lietas. “Vuška” nav nekāds vecvāds, tas ir normāls latgaliešu vārds, ko nozīmē “aita” lieto vēl šobaltdien. Ja izvēlaties piemērus, lūdzu pirms tam pārbaudiet, citādi tas atstāj neprofesionālu iespaidu. Veiksmi darbā!

  4. Artūrs Žogla says:

    Starp citu, pameklējot vārdu “vuška” jau esošajā Periodika.lv krājumā, var atrast J. Endzelīna ievietotu paziņojumu (piemēram, “Students”, 1931. g. 3. decembra numura 8. lpp.), ka viņam izdevies noskaidrot vairāku latviešu valodas vārdu, tai skaitā “vuška” izrunu, nozīmi un vietu.

    Latgaliešu dialektā “vuška” noteikti varētu būt joprojām lietots vārds kaut gan vecmamma (100% latgaliete) tādu vārdu nelietoja. Kartupeļus par “buļbam” sauca, bet “vuškas” gan neatminos.

  5. Ainārs Zelčs says:

    Ar vecajiem vārdiem nevajadzētu “cīnīties”, tos likvidējot, veco tekstu izdodot par jaunu. Vajag tik vien kā paskaidrot vecā vārda nozīmi.
    Elektronisko gramatu izdevniecība patlaban digitālizē mūsu pirmā akadēmiski izglītotā vēsturnieka J.Krodznieka /1851 – 1924/ “Latvijas vēsturi”, neizmainot nevienu tā dēvēto veco vārdu. Mīlenbacha vārdnīcā un Latviešu Konversācijas vārdnīcā to visu nozīmes var atrast. Līdz otrās daļas pusei ir bijis tikai viens vārds, kuŗa nozimi nekādi navar saprast un tas laikam ir tāpēc, ka tajā vārdā varbūt ieviesusies drukas kļūda.
    Bez “vecajiem” vārdiem J. Krodznieka darbs vairs nebūs J. Krodznieka darbs.
    Bet par veco druku jāsaka,ka Fainrīders to pārceļ latīņu burtos ar milzum daudz kļūdām, un tas prasa ilgāku korrektūras darbu. Ja būs tāds Fainrīders, kas kļūdīsies tikai par 15 nosimtēm, tad labi gan, tas brangi palīdzēs strādāt.
    Tad tā “ķute degs labāk”!
    :)
    Augstcienībā,
    Erakstu Ainārs no http://www.eraksti.lv

    • Artūrs Žogla says:

      Principā tā arī plānojam darīt – saglabāsim oriģinālo tekstu nemainītu (ja neskaita neizbēgamās Finereader kļūdas). Gan jau ar laiku tiks izstrādāti arvien gudrāki tekstu apstrādes rīki, kas sākotnējo tekstu spēs pārveidot vēl pareizāk, tāpēc oriģinālais saburtojums vienmēr būs vajadzīgs. Saglabāsim pat acīmredzamās pārrakstīšanās kļūdas, ja tādas būs. Kas zin, varbūt no tā pat varēs iegūt interesantu statistiku: “Pareizrakstība šodien un pirms 100 gadiem”.

      Par Finereader atpazīšanas kvalitāti mums ir lielas cerības, jo sadarbojamies ar viņiem pie vecās drukas atpazīšanas uzlabošanas nākamajās Finereader versijās un esam paprasījuši diezgan augstus kvalitātes normatīvus (negribu sameloties, bet šķiet noruna bija 98% pareizi saburtoti burti un 85% pareizi saburtoti vārdi).

  6. Ainārs Zelčs says:

    Par vušku.
    Ielūkojos prof. Dr. phil. P. Stroda Rēzeknē, 1933. gadā iespiestajā “Pareizraksteibas võrdneicā”.
    Tur ir vuška(aita) un vuškeņa.
    Šos vārdus lieto Ziemeļlatgalē.
    (Pārējā Latgalē varbūt nelieto.)

  7. K.Suns says:

    Par “vušku”.
    Tāpat kā “vucens” (auns).
    Latgalē lieto šo vārdu joprojām. Un daudz. Tas ir PAMATNOSAUKUMS dzīvniekam, ko latviski pazīstam kā “aita”.
    Problēma it tajā faktā, ka arī latgaliešu valodai ir savi iekšējie dialekti – Ludzā ir virkne vārdu, ko nelieto jeb izrunā savādāk nekā Krāslavā un otrādi. Tā ka kaut kur Latgalē pilnīgi iespējams, ka pazīst vairs tikai “aitas” …

    “vuška” joprojām tiek izmantota ikdienā konkrēti Ludzas rajonā.

  8. r says:

    radaas jautaajums…
    vai shii te izstraadaataa programmatuura buus pieejama arii citiem interesentiem ?
    ja nee, tad man rodas iespaids, ka shii nauda nav gluzhi lietderiigi izmantota :)

  9. mrh says:

    Nu tad kā tur ir ? Var vai nē ??

  10. Ieva says:

    Noteikti, ka šādu programmu nav tik viegli bijis izveidot zinot sarežģītību, bet jājautā – vai tiešām strādā?

  11. B says:

    “vuška” lieto visā Latgalē

Atstāj atbildi

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Mainīt )

Twitter picture

You are commenting using your Twitter account. Log Out / Mainīt )

Facebook photo

You are commenting using your Facebook account. Log Out / Mainīt )

Connecting to %s

Follow

Get every new post delivered to your Inbox.