Vēsturisko tekstu apstrādes rīks

LNB krājumos šobrīd ir ļoti liels daudzums vecās rakstības materiālu: gan periodika, gan grāmatas. Šie materiāli tiek skenēti un ievietoti arī digitālajā bibliotēkā, taču līdz šim bija dažādas tehniskas problēmas ar to apstrādi, sākot jau ar teksta atpazīšanas programmu nespēju strādāt ar latviešu gotikas fontiem. Šo problēmu LNB gan, šķiet, būs atrisinājusi, pasūtot ABBYY izstrādāt speciālu Finereader versiju tieši latviešu valodas gotikai. LNB saņems Finereader versiju, kas ar vismaz 85% precizitāti iegūs no skenētiem attēliem tekstuālu informāciju.

Tiesa, ar saburtošanu vēsturisko tekstu apstrāde nebeidzas, jo jācīnās ar tādām problēmām kā OCR kļūdas, novecojusi ortogrāfija un tekstos lietoti vecvārdi. Par visām šīm problēmām un cīņu pret tām var lasīt LNDB bloga ierakstā “Vecajai drukai – jauna elpa“.

Latvijas Universitātes Matemātikas un Informātikas institūts pēc LNB pasūtījuma izstrādājis latviešu gotikas apstrādes rīka arhitektūru. ” Gotikas analizators” apstrādās Finereader (vai jebkuras citas OCR programmas) iegūto rezultātu: novērsīs OCR kļūdas, cīnīsies ar novecojušo ortogrāfiju un vecvārdiem piemeklēs atbilstošos sinonīmus.

Piemēram, ja OCR programma tekstā būs atpazinusi vārdu “muschka”, Gotikas analizators mēģinās uzminēt, ka varbūt patiesībā tekstā bijis minēts vārds “wuschka”, kam mūsdienu ortogrāfijā atbilst vārds “vuška”, kam, savukārt, atbilst mūsdienu vārds: “aita”. Noindeksējot sākotnējo tekstu ar atpazīšanas rezultātā iegūtajiem vārdiem, tiks panākts efekts, ka tekstu varēs atrast pēc atslēgvārda “aita” pat tad, ja OCR programma tekstā būs atpazinusi vārdu “muschka”.

LU MII izstrādātā Gotikas analizatora demo programmu var apskatīt valoda.ailab.lv/gotika.

Gotikas analizatoru plānots integrēt projektā Periodika.lv un nākotnē arī vēsturisku grāmatu portālā, lai nodrošinātu meklēšanu vecos tekstos.

15 domas par “Vēsturisko tekstu apstrādes rīks

  1. Visu cieņu entuziastiem, bet nevajag jaukt nesajaucamas lietas. “Vuška” nav nekāds vecvāds, tas ir normāls latgaliešu vārds, ko nozīmē “aita” lieto vēl šobaltdien. Ja izvēlaties piemērus, lūdzu pirms tam pārbaudiet, citādi tas atstāj neprofesionālu iespaidu. Veiksmi darbā!

  2. Starp citu, pameklējot vārdu “vuška” jau esošajā Periodika.lv krājumā, var atrast J. Endzelīna ievietotu paziņojumu (piemēram, “Students”, 1931. g. 3. decembra numura 8. lpp.), ka viņam izdevies noskaidrot vairāku latviešu valodas vārdu, tai skaitā “vuška” izrunu, nozīmi un vietu.

    Latgaliešu dialektā “vuška” noteikti varētu būt joprojām lietots vārds kaut gan vecmamma (100% latgaliete) tādu vārdu nelietoja. Kartupeļus par “buļbam” sauca, bet “vuškas” gan neatminos.

  3. Ar vecajiem vārdiem nevajadzētu “cīnīties”, tos likvidējot, veco tekstu izdodot par jaunu. Vajag tik vien kā paskaidrot vecā vārda nozīmi.
    Elektronisko gramatu izdevniecība patlaban digitālizē mūsu pirmā akadēmiski izglītotā vēsturnieka J.Krodznieka /1851 – 1924/ “Latvijas vēsturi”, neizmainot nevienu tā dēvēto veco vārdu. Mīlenbacha vārdnīcā un Latviešu Konversācijas vārdnīcā to visu nozīmes var atrast. Līdz otrās daļas pusei ir bijis tikai viens vārds, kuŗa nozimi nekādi navar saprast un tas laikam ir tāpēc, ka tajā vārdā varbūt ieviesusies drukas kļūda.
    Bez “vecajiem” vārdiem J. Krodznieka darbs vairs nebūs J. Krodznieka darbs.
    Bet par veco druku jāsaka,ka Fainrīders to pārceļ latīņu burtos ar milzum daudz kļūdām, un tas prasa ilgāku korrektūras darbu. Ja būs tāds Fainrīders, kas kļūdīsies tikai par 15 nosimtēm, tad labi gan, tas brangi palīdzēs strādāt.
    Tad tā “ķute degs labāk”!
    :)
    Augstcienībā,
    Erakstu Ainārs no http://www.eraksti.lv

    1. Principā tā arī plānojam darīt – saglabāsim oriģinālo tekstu nemainītu (ja neskaita neizbēgamās Finereader kļūdas). Gan jau ar laiku tiks izstrādāti arvien gudrāki tekstu apstrādes rīki, kas sākotnējo tekstu spēs pārveidot vēl pareizāk, tāpēc oriģinālais saburtojums vienmēr būs vajadzīgs. Saglabāsim pat acīmredzamās pārrakstīšanās kļūdas, ja tādas būs. Kas zin, varbūt no tā pat varēs iegūt interesantu statistiku: “Pareizrakstība šodien un pirms 100 gadiem”.

      Par Finereader atpazīšanas kvalitāti mums ir lielas cerības, jo sadarbojamies ar viņiem pie vecās drukas atpazīšanas uzlabošanas nākamajās Finereader versijās un esam paprasījuši diezgan augstus kvalitātes normatīvus (negribu sameloties, bet šķiet noruna bija 98% pareizi saburtoti burti un 85% pareizi saburtoti vārdi).

  4. Par vušku.
    Ielūkojos prof. Dr. phil. P. Stroda Rēzeknē, 1933. gadā iespiestajā “Pareizraksteibas võrdneicā”.
    Tur ir vuška(aita) un vuškeņa.
    Šos vārdus lieto Ziemeļlatgalē.
    (Pārējā Latgalē varbūt nelieto.)

  5. Par “vušku”.
    Tāpat kā “vucens” (auns).
    Latgalē lieto šo vārdu joprojām. Un daudz. Tas ir PAMATNOSAUKUMS dzīvniekam, ko latviski pazīstam kā “aita”.
    Problēma it tajā faktā, ka arī latgaliešu valodai ir savi iekšējie dialekti – Ludzā ir virkne vārdu, ko nelieto jeb izrunā savādāk nekā Krāslavā un otrādi. Tā ka kaut kur Latgalē pilnīgi iespējams, ka pazīst vairs tikai “aitas” …

    “vuška” joprojām tiek izmantota ikdienā konkrēti Ludzas rajonā.

  6. radaas jautaajums…
    vai shii te izstraadaataa programmatuura buus pieejama arii citiem interesentiem ?
    ja nee, tad man rodas iespaids, ka shii nauda nav gluzhi lietderiigi izmantota :)

  7. Labdien, Artūr!

    Mans komentārs nāk 10 gadus pēc pēdējām aktivitātēm, bet ceru, ka process ap ocr apstrādes rīkiem joprojām dzīvs. Pašlaik transkribēju no vecās drukas vairāku autoru slejas 20., 30. gadu latviešu avīzēs. Periodikā rodamais ocr rīks gan dod tik ķeburainu tekstu, ka ātrāk pašlaik ir visu pārrakstīt modernajā ortogrāfijā ar roku. Vairāk laika paiet, sarakstot metadatus.

    Tamdēļ vēlos vaicāt, vai gotikas analizators jau integrēts iekš periodika.lv? Rakstā dotā saite uz analizatora demo variantu tagad neaktīva.

    Otrs jautājums: vai vuškas/aitas problēmu nav iespējams atrisināt ar xml sintaksi, ļaujot atrast gan vienu, gan otru atslēgvārdu? (piemērs no manas transkripcijas, kur Jēkabs Poruks 30. g. rakstītajā slejā izmanto novecojušu formu mūzikas terminam ‘sarabanda’:
    Prelīdē,

    sarabandē
    sarabandā

    un tokātā Debisī paturējis
    senās stingrās formas)

    cieņā
    Dāvis Eņģelis

Atbildēt

Fill in your details below or click an icon to log in:

WordPress.com logotips

You are commenting using your WordPress.com account. Log Out /  Mainīt )

Google photo

You are commenting using your Google account. Log Out /  Mainīt )

Twitter picture

You are commenting using your Twitter account. Log Out /  Mainīt )

Facebook photo

You are commenting using your Facebook account. Log Out /  Mainīt )

Connecting to %s