Periodikas digitalizēšana LNB

Šajās dienās LNB noslēdzas 3 gadu darbs pie jaunās portāla www.periodika.lv versijas. Jaunais periodikas portāls, viennozīmīgi, kļuvis par līdz šim apjomīgāko LNB digitalizācijas projektu. Projekta gaitā ar materiālu atlasi, skenēšanu, pēcapstrādi un portāla izveidi bijuši nodarbināti gandrīz 100 cilvēku: gan pašā LNB, gan piesaistītajās partner-organizācijās.

Līdz jūnija beigām/jūlija sākumam noslēgsies visu digitalizēto materiālu imports jaunajā portālā un tad tajā būs pieejami ~1 000 laikrakstu pilni komplekti un ~7 000 grāmatas.

Lai arī tradicionāli bibliotēkas lasītājiem asociējas ar grāmatām, nacionālo bibliotēku digitalizācijas projektu pamatmērķis un vienlaikus arī izaicinājums ir tieši periodisko izdevumu: avīžu un žurnālu digitalizācija. Šajā rakstā iepazīstināsim ar to, kā notiek laikrakstu digitalizācija LNB.

Visu periodisko izdevumu digitalizāciju var sadalīt četros soļos:

  1. Izdevumu atlase
  2. Skenēšana
  3. Segmentēšana
  4. Portāla izstrāde un izdevumu imports

Continue reading “Periodikas digitalizēšana LNB”

Advertisements

Digitālās bibliotēkas jaunumi turpmāk – LNB blogā

Nu jau apritējis gandrīz gads kopš pēdējā ieraksta LNDB blogā. Tas gan nenozīmē, ka šai laikā nav bijušas nekādas aktivitātes Digitālās bibliotēkas veidošanā. Taisni otrādi, pateicoties Eiropas Reģionālās attīstības fondu (ERAF) atbalstam, esam uzsākuši masveida digitalizācijas projektu un jau kopš šī gada sākuma notiek intensīvi LNB krājumos esošo grāmatu un periodikas skenēšanas darbi, ko veic Lattelecom BPO.

Tā kā ir krietni paplašinājies bibliotēkas blogā rakstošo darbinieku loks, tad par šiem un citiem digitālās bibliotēkas jaunumiem turpmāk lasiet LNB blogā, kurā ir pārcelta daļa arī no šī bloga ierakstiem.

Noteikti tuvākajā laikā LNB blogā pastāstīsim arī par digitālās bibliotēkas aktualitātēm, jo skenēšanas laikā jārisina gan dažādi interesanti tehniski jautājumi, gan arī digitalizējamais materiāls nereti sagādā mums pārsteigumus. Piemēram, digitalizējot 20. gs. 20-tajos, 30-tajos gados populāro žurnālu “Atpūta”, atklājās, ka tas patiesībā ir 13 gadus vecāks nekā līdz šim uzskatīts. Ja par “Atpūtas” dzimšanas gadu pieņemts uzskatīt 1924. gadu, tad LNB krājumos atradās “Atpūtas” numuri no 1911. un 1912. gadiem, kurus tad arī jau esam ieskenējuši.

Tāds, lūk, izskatījās 1911. gada 1. maijā izdotā “Atpūtas” 1. numura vāks.

Ceram, ka arī mūsu lasītājiem nākotnes digitālajā bibliotēkā būs gan patīkami pārsteigumi, gan negaidīti jaunatklājumi, jo digitalizēsim patiešām plašu izdevumu spektru: sākot no “zelta klasikas” līdz bibliogrāfiskiem retumiem.

Kā veidot digitalizēto tekstu saskarni?

Nu jau kādu laiku mūsu blogā ir izvietota aptauja par projekta Periodika.lv novērtējumu. 10-baļļu skalā nu jau ir saņemti visi iespējamie vērtējumi no 1 līdz 10 un lai arī mums liels prieks, ka lielākā daļa vērtējumu ir 8 un vairāk, tomēr labi apzināmies, ka projektam ir arī savi trūkumi, kuru dēļ varētu saņemt arī zemāku vērtējumu.

Viens no trūkumiem, ko paši apzināmies, ir meklēšanas mehānisma “ātrdarbība”, ko noteikti varētu uzlabot, bet kādus trūkumus jūs esat novērojuši, meklējot informāciju Periodika.lv lapā? Varbūt ir kāda papildus funkcionalitāte, kas jums noteikti noderētu?

Tuvākajos gados LNB plāno digitalizēt vairāk kā 1 milj. grāmatu lappušu un vairāk kā 2 milj. avīžu lappušu. Līdz ar to lasītājiem digitālā formā pieejamo tekstu apjoms pieaugs 10-kārtīgi. Ņemot vērā gan materiālu apjomu, gan daudzveidību vajadzēs izstrādāt īpašu saskarni digitalizēto tekstu arhīvam. Šobrīd esam izpētes fāzē, noskaidrojot labo praksi lielapjoma teksta arhīvu veidošanā, formātu izvēlē, saskarņu veidošanā. Tā kā galamērķis ir radīt lasītājiem ērtāko iespējamo rīku darbam ar liela apjoma tekstu arhīvu, tad mūs ļoti interesē lasītāju vēlmes.

Pagaidām lielākie digitalizēto tekstu arhīvi internetā (tādi, kuru apjoms ir mērāms vismaz miljonos lappušu) ir:

Lai arī katrs ir pa savam labs, tomēr neviens nav arī perfekts. Piemēram, varētu vēlēties izsmalcinātu tekstu komentēšanas iespēju, iezīmējot daļu no teksta un pievienojot tam savu komentāru. Šādu iespēju varētu izmantot gan skolu, augstskolu pasniedzēji, komentējot mācību literatūras saturu, gan vēstures pētnieki, skaidrojot mūsdienu lasītājiem vēsturisku tekstu interpretācijas, utml.

Bet kādas ir jūsu domas, ieteikumi, komentāri?

Uzdod jautājumu par digitālo bibliotēku!

Digitālās bibliotēkas blogā šad tad uzrakstām par tēmām, kas konkrētajā brīdī šķiet aktuālas un interesantas, bet kādi jautājumi interesē mūsu lasītājus, kolēģus, IT ekspertus?

Piedāvājam uzdot jautājumus par Latvijas Nacionālo digitālo bibliotēku: par stratēģiju, projektiem, saturu, tehniskām niansēm, formātiem, ikdienas darbu, juridiskiem apsvērumiem un citām tēmām!

Jautājumi un atbildes šeit – komentāros.

Vēsturisko tekstu apstrādes rīks

LNB krājumos šobrīd ir ļoti liels daudzums vecās rakstības materiālu: gan periodika, gan grāmatas. Šie materiāli tiek skenēti un ievietoti arī digitālajā bibliotēkā, taču līdz šim bija dažādas tehniskas problēmas ar to apstrādi, sākot jau ar teksta atpazīšanas programmu nespēju strādāt ar latviešu gotikas fontiem. Šo problēmu LNB gan, šķiet, būs atrisinājusi, pasūtot ABBYY izstrādāt speciālu Finereader versiju tieši latviešu valodas gotikai. LNB saņems Finereader versiju, kas ar vismaz 85% precizitāti iegūs no skenētiem attēliem tekstuālu informāciju.

Tiesa, ar saburtošanu vēsturisko tekstu apstrāde nebeidzas, jo jācīnās ar tādām problēmām kā OCR kļūdas, novecojusi ortogrāfija un tekstos lietoti vecvārdi. Par visām šīm problēmām un cīņu pret tām var lasīt LNDB bloga ierakstā “Vecajai drukai – jauna elpa“.

Latvijas Universitātes Matemātikas un Informātikas institūts pēc LNB pasūtījuma izstrādājis latviešu gotikas apstrādes rīka arhitektūru. ” Gotikas analizators” apstrādās Finereader (vai jebkuras citas OCR programmas) iegūto rezultātu: novērsīs OCR kļūdas, cīnīsies ar novecojušo ortogrāfiju un vecvārdiem piemeklēs atbilstošos sinonīmus.

Piemēram, ja OCR programma tekstā būs atpazinusi vārdu “muschka”, Gotikas analizators mēģinās uzminēt, ka varbūt patiesībā tekstā bijis minēts vārds “wuschka”, kam mūsdienu ortogrāfijā atbilst vārds “vuška”, kam, savukārt, atbilst mūsdienu vārds: “aita”. Noindeksējot sākotnējo tekstu ar atpazīšanas rezultātā iegūtajiem vārdiem, tiks panākts efekts, ka tekstu varēs atrast pēc atslēgvārda “aita” pat tad, ja OCR programma tekstā būs atpazinusi vārdu “muschka”.

LU MII izstrādātā Gotikas analizatora demo programmu var apskatīt valoda.ailab.lv/gotika.

Gotikas analizatoru plānots integrēt projektā Periodika.lv un nākotnē arī vēsturisku grāmatu portālā, lai nodrošinātu meklēšanu vecos tekstos.