Vecajai drukai – jauna elpa

Iespējams kāda mūsu lasītāja vecmāmiņas grāmatu plauktā vēl atrodamas vecas grāmatas, apdzeltējušām lapām, kas sarakstītas dīvainām rakstu zīmēm. Pie tam, atbildot uz jautājumu “kas tā par valodu?”, vecmāmiņa apgalvo, ka grāmata sarakstīta latviski. Ļoti iespējams jūsu vecmāmiņas īpašumā ir vecās rakstības (gotikas, fraktūras – kā nu kurā avotā pieņemts saukt) teksti. Piemēram, K. Herdera 1795. gadā izdotā “Ta pirma pawaru grahmata“:

Lai arī varbūt sākumā grūti pierast pie dīvainajām burtu formām, tomēr mazliet piešaujoties, tekstus var lasīt samērā raiti.

Šis , piemēram, ir burts “s”, bet šis  ir “ņ”.

Pāreja no vecās drukas uz jauno Latvijā notika diezgan ilgā laika periodā 20. gs. 20.-30. gados. Pie tam dažādi izdevumi tika galā ar jaunās drukas ieviešanu dažādos tempos. Piemēram, žurnāls “Ekonomists” jau 1923. gadā tika drukāts pilnībā jaunajā drukā:

kamēr laikraksts “Jaunākās ziņas” vēl 1930. gadā bija acīmredzamā pārejas procesā un tika iespiests joprojām dominējoši vecajā drukā:

Latvijas Nacionālās bibliotēkas (LNB) krājumos ir liels daudzums dažādu materiālu vecajā drukā: gan grāmatas, gan laikraksti un žurnāli. Daļa no vecās drukas materiāliem ir arī digitalizēti un pieejami Digitālajā bibliotēkā, taču tie nav apstrādāti tik detalizēti kā, piemēram, jaunās drukas avīzes, kas pieejamas atpazītā, segmentētā un meklējamā formātā “Periodikas” projekta lapā.

Tomēr LNB plāno rūpīgāk pievērsties arī vecās drukas materiālu apstrādei un tālāk – neliels apraksts par to, kā plānots apstrādāt gotikas tekstus un kādi iespējamie izaicinājumi sagaidāmi darba procesā.

1. Saburtošana

Tāpat kā jaunās drukas materiālu gadījumā, arī vecās drukas teksti vispirms tiks atpazīti ar kādas OCR programmas palīdzību. Gotikas tekstu atpazīšanu nodrošina gan ABBYY Finereader standartversijas, gan speciāli gotikas tekstu atpazīšanai veidotais ABBYY Finereader XIX.

Gotikas tekstu saburtošanas procesā teksts tiek atpazīts burtu pa burtam, nemēģinot uzminēt kāds varētu būt bijis kopējais vārds, respektīvi, netiek lietotas nekādas vārdnīcas, tāpēc, piemēram, no sekojoša teksta fragmenta:

tiktu iegūts šāds saburtojums:

Daudzās fabrikās strahdneeki paraduschi fabrikas administracijai un meistareem pasneegt dzimschanas, wahrda u. c. deenās dahwanas. Par scho jautajumu peeņemta sekoscha rezolucija: “Walde leek preekschā wiseem beedreem atteiktees no wisām tamlihdzigām dahwanu pasneegschanam administracijai. Tahda atteikschanās jaizdara caur rakztisku proteztu.”

Protams šāds te saburtojums tiktu iegūts tikai tad, ja atpazīšanas programmatūra darbotos absolūti nekļūdīgi, jo, piemēram, burtiem “s”, “z” un “f” atbilstošie simboli ir savstarpēji tik līdzīgi, ka pat nedaudz pabalējuša teksta gadījumā kļūdīties varētu arī speciāli apmācītas OCR programmas. Konkrētajā piemērā vārds , visticamāk, tiktu saburtots kā “peeņemia” vai pat “peeņemiu”, jo laika zobs to krietni pabojājis.

Papildus sarežģītību konkrēti latviešu valodas tekstu atpazīšanā rada tas fakts, ka mūsu gotikas simboli ir īpaši sarežģīti atšķirībā, piemēram, no vācu gotikas simboliem, ar kuriem ABBYY Finereader programmatūra tiek galā samērā labi. Tātad jau pirmajā gotikas tekstu apstrādes posmā – saburtošanā ir gaidāms liels kļūdu apjoms, ko ceram samazināt zem 20% robežas (arī nekas izcils, jo uz katriem 5 burtiem – 1 var būt atpazīts nepareizi).

Lai gūtu kaut kādu iespaidu par pašreizējo OCR kvalitāti, piedāvājam salīdzināt divus PDFus: oriģinālo teksta fragmentu un atpazīto rezultātu, kas iegūts ar ABBYY Finereader bez īpašas trenēšanas, norādot vien, ka tiek atpazīts gotikas teksts.

2. OCR kļūdu automatizēta labošana

Lai arī saburtošanas procesā noteikti radīsies OCR kļūdas, tomēr ir liela cerība daudzas no tām automatizēti salabot, ja izdosies izveidot tipiskos OCR kļūdu šablonus. Piemēram, latviešu valodas gotikas tekstos vārdu beigās konsekventi tiek lietots īpašs “s” burta apzīmējums, kas atšķiras no “s” apzīmējuma, ja tas atrodas vārda ietvaros.

OCR programmas mēdz kļūdīties un atpazīt augstāk redzamo vārdu kā “atteikschanāS”. Šajā gadījumā varētu automātiski vārda beigās samazināt burtu “S”. Citos gadījumos, iespējams, pēc nepareizas saburtošanas var iegūt rakstībā neeksistējošas burtu kombinācijas un aizstāt tās ar eksistējošām, piemēram, “kf” pārveidot par “kl”.

3. Ortogrāfijas translācijas likumu pielietošana

Kā noteikti jau esat pamanījuši, vārdi tekstā ir atpazīstami, taču praktiski neviens no tiem mūsdienās tā vairs netiek rakstīts. Zinātniski izsakoties, atšķiras jaunās drukas un vecās drukas tekstos lietotā ortogrāfija. Daži piemēri:

  • strahdneeki – strādnieki
  • paraduschi – paraduši
  • meistareem – meistariem
  • sekoscha – sekojoša

Ir situācijas, kad pielietojot īpašus ortogrāfijas translācijas likumus, vecās rakstības vārdu var pārveidot (vai vismaz tuvināt) jaunās ortogrāfijas formā.

Burtu kombinācijas “sch” vietā mūsdienās tiktu rakstīts “š”, bet burtu kombinācija “ah” vienmēr ir pārveidojama par burtu “ā”.

Diemžēl ne visi likumi izpildās ar garantiju. Piemēram, burtu kombinācija “ee” gandrīz vienmēr mūsdienās tiktu rakstīta kā “ie”, taču dažos gadījumos “ee” var nozīmēt arī “ē”. Īpaši amizanta šī situācija ir vārdā “meistareem“, kuru pat no teksta konteksta nevar viennozīmīgi atšifrēt, kas te oriģināli ir bijis domāts – “meistareem” tikpat labi varētu nozīmēt kā “meistariem”, tā “meistarēm”.

Pavisam skumīgi ir ar vārdu “sekoscha“, kas pēc ortogrāfijas translācijas likumu pielietošanas tiktu pārveidots par “sekoša”, kas ir diezgan tāls no mūsdienu rakstībā pareizā – “sekojoša”.

Šis ir kārtējais veco tekstu apstrādes posms, kur kļūdas diemžēl ir neizbēgamas.

4. Vārdnīcu pielietošana

Pat tad ja izdevies novērst visas OCR kļūdas un vārdam nevainojami pielietoti ortogrāfijas translācijas likumi, rezultātā tik un tā var iegūt vārdus, kādi mūsdienās netiek lietoti jeb, vienkārši izsakoties, vecvārdus.

Laika gaitā mainījušies gan amatu apzīmējumi (melderis, virēja, skroderis, u.c.), gan dažādi apzīmējumi (kamieši, avis, cunfte, u.c.), gan vietu apzīmējumi (Venden, Mittau, Konstantinopole, u.c.).

Vecvārdi rada divu tipu problēmas:

  1. Lasītājam, kas neorientējas vecvārdu nozīmēs, var būt grūtības uztvert vecos tekstus.
  2. Slikti darbosies atslēgvārdu meklēšana vecajos tekstos, jo, piemēram, meklējot atslēgvārdu “nieres” teksta fragments netiks atrasts kaut arī saturēs atbilstošo vecvārdu “īkstis”.

Vecvārdu un novecojušu vietvārdu radītās problēmas var risināt piesaistot vārdnīcas. Šeit gan nav pārāk plaša izvēle, jo praktiski vienīgā vārdnīca, kas ir pietiekami bagāta ar vecvārdiem, ir Mīlenbaha-Endzelīna vārdnīca. Par laimi, šī vārdnīca ir pieejama gan bibliotēkās, gan arī digitalizēta un apstrādāta LU Matemātikas un informātikas institūta (MII) Mākslīgā intelekta laboratorijā.

Šobrīd LNB sadarbojas ar LU MII, lai izstrādātu visas augstāk aprakstītās metodes vienotā rīkā.

Kāds no tā labums?

Gala lietotājam labums izpaudīsies pavisam vienkārši – varbūt kaut kad netālā nākotnē būs iespējams atrast teksta fragmentu pēc atslēgas vārda “tusiņš” pat tad, ja pašā tekstā būs minēta tikai .

Advertisements

24 thoughts on “Vecajai drukai – jauna elpa

  1. Cik esmu redzējis, periodikas lapā uz šo brīdi no vecās drukas laikrakstiem ir pārstāvēts viens vācu val. un viens krievu val., bet abi par stipri īstu laika periodu (turklāt krieviskajam ir tā pašvakāk ar meklēšanu vecās drukas īpatnējo burtu dēļ). Nez, vai kaut kad tuvāko mēnešu laikā var gaidīt vēl kādus periodikas lapas papildinājumus ar līdz šim nenosegtiem laikrakstiem/gadiem?

  2. Sveiki, vai Jums ir zināms kāds fonts, kurā ir realizēti burti tieši tā, kā vecajās latviešu grāmatās?

    http://alise.jzb.lv/bildes/Np/druka.html

    Ārzemju lapās atrodamie gotiskie fonti nav īsti tādi, kādus vajag.

    Par to s un f man ir liela mīkla. Esmu atradis tādu avīzi “Rīgas Avīze”, bet tur tas “s”, kas ir vārdā “Rīgas” ir gandrīz kā normāls “s”. Bet vārdā “Avīze” tas “z” ir kā tāds “f”. Un es tagad nesaprotu, ko man darīt (man jāatdarina vārds “avīze” vecajā drukā). Likt “f”, “z” vai parastu “s”?

  3. Jāzep, parasti par konkrētiem fontiem nav jāuztraucas, ja tiek lietota kāda OCR programmatūra, piemēram, tas pats ABBYY Finereader, kas pats uzmin vajadzīgo fontu. Diemžēl latviešu tekstiem īpaši fonti līdz šim nav bijuši un Finereader balstās uz vācu gotikas fontiem, kas ir vistuvākie latviešu tekstos lietotajiem. Latvijas Nacionālā bibliotēka ir pasūtījusi ABBYY īpašu Finereader versiju tieši latviešu gotikas atpazīšanai un šobrīd LNB jau notiek testa eksperimenti ar šo jaunāko versiju.

    “s” burts vārdu beigās gotikas rakstos tradicionāli tiek rakstīts ar simbolu, kas atgādina mūsdienu “s”. Vārda vidū gan tiek lietots simbols, kuru var sajaukt ar “f” un “z”. Vārdā “Avīze”, visticamāk, ir lietots tieši “z” burts (noteikti ne “f”).

  4. man gan liekas, ka tā pat ir tāda vajadzīga lieta. lai arī pati māku lasīt vecajā druka, tiesa arī ne tik ātri un ne tik raiti, bet māku, tomēr ir daudz pat tādu materiālu, ko varētu šeit atrast pirmo reizi. cienu to cilvēku darbu. kas ieliek savu laiku un spēkus mums un mūsu bērniem nepazustu šie materiāli un būtu atri un veigli uztverami. Paldies!

  5. vajadzīgs burtu atpazinējs, kas māk dažādus burtus: vecā druka dažreiz (piem., cara laikā) nereti bija krietni atšķirīga. Arī avīžu virsrakstiem ir visādi burtu fonti, t.sk. izskaistināti un sevišķi dekoratīvi.

    Otra lieta – vajadzīga ortogrāfijas vārdnīca, kas norāda vismaz iespējamo atslēgvārdu vecās ortogrāfijas.
    Vairumam cilvēku lasīt rakstus vecajā ortogrāfijā (t.i. bez ortogr. translācijas, bet ar mūsdienu burtiem) spēs samērā veikli un ar laiku prasme strauji pieaugs.

  6. Atpakaļ ziņojums: Goksel
  7. All the while Al Gore points the finger at the one
    low-tech, ESSENTIAL, product that he cannot exploit for a
    profit’ totally biologically safe, and non-global warming significant, STANDARD INCANDESCENT LIGHT BULBS (regular light bulbs) as an alleged highly significant cause of global warming.

    There are broadly three categories of bathroom lights.
    The lamp produces 50% less light every five years, to the point of becoming ineffective while still drawing the same amount of power it drew when
    it was new.

Komentēt

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Mainīt )

Twitter picture

You are commenting using your Twitter account. Log Out / Mainīt )

Facebook photo

You are commenting using your Facebook account. Log Out / Mainīt )

Google+ photo

You are commenting using your Google+ account. Log Out / Mainīt )

Connecting to %s