Periodikas digitalizēšana LNB

Šajās dienās LNB noslēdzas 3 gadu darbs pie jaunās portāla www.periodika.lv versijas. Jaunais periodikas portāls, viennozīmīgi, kļuvis par līdz šim apjomīgāko LNB digitalizācijas projektu. Projekta gaitā ar materiālu atlasi, skenēšanu, pēcapstrādi un portāla izveidi bijuši nodarbināti gandrīz 100 cilvēku: gan pašā LNB, gan piesaistītajās partner-organizācijās.

Līdz jūnija beigām/jūlija sākumam noslēgsies visu digitalizēto materiālu imports jaunajā portālā un tad tajā būs pieejami ~1 000 laikrakstu pilni komplekti un ~7 000 grāmatas.

Lai arī tradicionāli bibliotēkas lasītājiem asociējas ar grāmatām, nacionālo bibliotēku digitalizācijas projektu pamatmērķis un vienlaikus arī izaicinājums ir tieši periodisko izdevumu: avīžu un žurnālu digitalizācija. Šajā rakstā iepazīstināsim ar to, kā notiek laikrakstu digitalizācija LNB.

Visu periodisko izdevumu digitalizāciju var sadalīt četros soļos:

  1. Izdevumu atlase
  2. Skenēšana
  3. Segmentēšana
  4. Portāla izstrāde un izdevumu imports

Turpināt lasīšanu “Periodikas digitalizēšana LNB”

Digitālās bibliotēkas jaunumi turpmāk – LNB blogā

Nu jau apritējis gandrīz gads kopš pēdējā ieraksta LNDB blogā. Tas gan nenozīmē, ka šai laikā nav bijušas nekādas aktivitātes Digitālās bibliotēkas veidošanā. Taisni otrādi, pateicoties Eiropas Reģionālās attīstības fondu (ERAF) atbalstam, esam uzsākuši masveida digitalizācijas projektu un jau kopš šī gada sākuma notiek intensīvi LNB krājumos esošo grāmatu un periodikas skenēšanas darbi, ko veic Lattelecom BPO.

Tā kā ir krietni paplašinājies bibliotēkas blogā rakstošo darbinieku loks, tad par šiem un citiem digitālās bibliotēkas jaunumiem turpmāk lasiet LNB blogā, kurā ir pārcelta daļa arī no šī bloga ierakstiem.

Noteikti tuvākajā laikā LNB blogā pastāstīsim arī par digitālās bibliotēkas aktualitātēm, jo skenēšanas laikā jārisina gan dažādi interesanti tehniski jautājumi, gan arī digitalizējamais materiāls nereti sagādā mums pārsteigumus. Piemēram, digitalizējot 20. gs. 20-tajos, 30-tajos gados populāro žurnālu “Atpūta”, atklājās, ka tas patiesībā ir 13 gadus vecāks nekā līdz šim uzskatīts. Ja par “Atpūtas” dzimšanas gadu pieņemts uzskatīt 1924. gadu, tad LNB krājumos atradās “Atpūtas” numuri no 1911. un 1912. gadiem, kurus tad arī jau esam ieskenējuši.

Tāds, lūk, izskatījās 1911. gada 1. maijā izdotā “Atpūtas” 1. numura vāks.

Ceram, ka arī mūsu lasītājiem nākotnes digitālajā bibliotēkā būs gan patīkami pārsteigumi, gan negaidīti jaunatklājumi, jo digitalizēsim patiešām plašu izdevumu spektru: sākot no “zelta klasikas” līdz bibliogrāfiskiem retumiem.

Kā veidot digitalizēto tekstu saskarni?

Nu jau kādu laiku mūsu blogā ir izvietota aptauja par projekta Periodika.lv novērtējumu. 10-baļļu skalā nu jau ir saņemti visi iespējamie vērtējumi no 1 līdz 10 un lai arī mums liels prieks, ka lielākā daļa vērtējumu ir 8 un vairāk, tomēr labi apzināmies, ka projektam ir arī savi trūkumi, kuru dēļ varētu saņemt arī zemāku vērtējumu.

Viens no trūkumiem, ko paši apzināmies, ir meklēšanas mehānisma “ātrdarbība”, ko noteikti varētu uzlabot, bet kādus trūkumus jūs esat novērojuši, meklējot informāciju Periodika.lv lapā? Varbūt ir kāda papildus funkcionalitāte, kas jums noteikti noderētu?

Tuvākajos gados LNB plāno digitalizēt vairāk kā 1 milj. grāmatu lappušu un vairāk kā 2 milj. avīžu lappušu. Līdz ar to lasītājiem digitālā formā pieejamo tekstu apjoms pieaugs 10-kārtīgi. Ņemot vērā gan materiālu apjomu, gan daudzveidību vajadzēs izstrādāt īpašu saskarni digitalizēto tekstu arhīvam. Šobrīd esam izpētes fāzē, noskaidrojot labo praksi lielapjoma teksta arhīvu veidošanā, formātu izvēlē, saskarņu veidošanā. Tā kā galamērķis ir radīt lasītājiem ērtāko iespējamo rīku darbam ar liela apjoma tekstu arhīvu, tad mūs ļoti interesē lasītāju vēlmes.

Pagaidām lielākie digitalizēto tekstu arhīvi internetā (tādi, kuru apjoms ir mērāms vismaz miljonos lappušu) ir:

Lai arī katrs ir pa savam labs, tomēr neviens nav arī perfekts. Piemēram, varētu vēlēties izsmalcinātu tekstu komentēšanas iespēju, iezīmējot daļu no teksta un pievienojot tam savu komentāru. Šādu iespēju varētu izmantot gan skolu, augstskolu pasniedzēji, komentējot mācību literatūras saturu, gan vēstures pētnieki, skaidrojot mūsdienu lasītājiem vēsturisku tekstu interpretācijas, utml.

Bet kādas ir jūsu domas, ieteikumi, komentāri?

Uzdod jautājumu par digitālo bibliotēku!

Digitālās bibliotēkas blogā šad tad uzrakstām par tēmām, kas konkrētajā brīdī šķiet aktuālas un interesantas, bet kādi jautājumi interesē mūsu lasītājus, kolēģus, IT ekspertus?

Piedāvājam uzdot jautājumus par Latvijas Nacionālo digitālo bibliotēku: par stratēģiju, projektiem, saturu, tehniskām niansēm, formātiem, ikdienas darbu, juridiskiem apsvērumiem un citām tēmām!

Jautājumi un atbildes šeit – komentāros.

Vēsturisko tekstu apstrādes rīks

LNB krājumos šobrīd ir ļoti liels daudzums vecās rakstības materiālu: gan periodika, gan grāmatas. Šie materiāli tiek skenēti un ievietoti arī digitālajā bibliotēkā, taču līdz šim bija dažādas tehniskas problēmas ar to apstrādi, sākot jau ar teksta atpazīšanas programmu nespēju strādāt ar latviešu gotikas fontiem. Šo problēmu LNB gan, šķiet, būs atrisinājusi, pasūtot ABBYY izstrādāt speciālu Finereader versiju tieši latviešu valodas gotikai. LNB saņems Finereader versiju, kas ar vismaz 85% precizitāti iegūs no skenētiem attēliem tekstuālu informāciju.

Tiesa, ar saburtošanu vēsturisko tekstu apstrāde nebeidzas, jo jācīnās ar tādām problēmām kā OCR kļūdas, novecojusi ortogrāfija un tekstos lietoti vecvārdi. Par visām šīm problēmām un cīņu pret tām var lasīt LNDB bloga ierakstā “Vecajai drukai – jauna elpa“.

Latvijas Universitātes Matemātikas un Informātikas institūts pēc LNB pasūtījuma izstrādājis latviešu gotikas apstrādes rīka arhitektūru. ” Gotikas analizators” apstrādās Finereader (vai jebkuras citas OCR programmas) iegūto rezultātu: novērsīs OCR kļūdas, cīnīsies ar novecojušo ortogrāfiju un vecvārdiem piemeklēs atbilstošos sinonīmus.

Piemēram, ja OCR programma tekstā būs atpazinusi vārdu “muschka”, Gotikas analizators mēģinās uzminēt, ka varbūt patiesībā tekstā bijis minēts vārds “wuschka”, kam mūsdienu ortogrāfijā atbilst vārds “vuška”, kam, savukārt, atbilst mūsdienu vārds: “aita”. Noindeksējot sākotnējo tekstu ar atpazīšanas rezultātā iegūtajiem vārdiem, tiks panākts efekts, ka tekstu varēs atrast pēc atslēgvārda “aita” pat tad, ja OCR programma tekstā būs atpazinusi vārdu “muschka”.

LU MII izstrādātā Gotikas analizatora demo programmu var apskatīt valoda.ailab.lv/gotika.

Gotikas analizatoru plānots integrēt projektā Periodika.lv un nākotnē arī vēsturisku grāmatu portālā, lai nodrošinātu meklēšanu vecos tekstos.

Vizuālā noformējuma nozīme

Grāmatu, periodikas un citu tekstu saturošu materiālu digitalizācijā, viens no posmiem ir teksta atpazīšana jeb OCR. Rezultātā viss grāmatas teksts tiek iegūts tālāk ērti apstrādājamā XML formātā. Tam var pielietot XSLT transformācijas un citas apstrādes metodes, rezultātā iegūstot glīti noformētu grāmatas tekstu, tikai… vairs ne oriģinālā izskatā.

Piemēram, oriģinālā lapa.

gramatas_lapa

Pēc apstrādes šīs lapas virsraksts nonāktu atsevišķā XML tagā, bet pamatteksts – citā. Pēc tam šo grāmatas tekstu varētu attēlot tīmekļa lapā, veidojot hipersaišu satura rādītājus uz atsevišķām nodaļām, ļaujot samazināt/palielināt tekstu. Ļaujot ērti kopēt interesējošos fragmentus. Vienvārdsakot, ļaujot darīt visu, ko jau nu ar segmentētu tekstu var darīt.

XML dokumentu attēlošanas priekšrocība ir arī relatīvi ekonomiskais izmērs. 100 lappušu biezai grāmatai atbilstošais tekstu saturošais XML dokuments aizņem aptuveni 0.5Mb, kamēr pati grāmata PDF formātā – aptuveni 20Mb.

Bet.. varbūt grāmatas oriģinālajam vizuālajam izpildījumam tomēr ir pietiekami liela nozīme, lai tas atsvērtu aptuveni 40x lielāko datņu izmēru un pārējās neērtības. Cik nozīmīgs jūsu lasīšanas pieredzē ir grāmatas vizuālais noformējums vai jums svarīgāka ir tīrā informācija?

13. janvāra grautiņā cieš arī LNB ēka

13. janvāra demonstrācijai Doma laukumā sekojošo grautiņu laikā tika nodarīti nopietni postījumi Latvijas Nacionālās bibliotēkas (LNB) ēkai Vecrīgā, Jēkaba ielā 6/8.

Cietusī LNB ēka Jēkaba 6/8

Militārās policijas automašīnu veidotā barjera atradās tieši pie LNB ēkas durvīm. Satrakotais pūlis laužoties cauri barjerai un apmētājot automašīnas ar bruģakmeņiem un ķieģeļiem, izsita LNB darba telpu un lasītavu logus, sabojāja mēbeles un datorus. Zaudējumi mērāmi vairākos tūkstošos latu.

Vairāk attēlu par cietušo LNB ēku atrodami šeit.