Digitālās bibliotēkas rozīnītes [4]

Tā kā ne pirmo reizi Latviju skārusi pasaules ekonomiskā krīze, tad varam mācīties no pagātnes pieredzes cīņā ar nebaltām dienām.

Lūk, piemēram, piedāvājums audzēt raženos hibrīdkāļus.

Hibrīdkālis

Par piedāvāto plakātu jāpateicas LNB Sīkiespieddarbu un attēlizdevumu nodaļas kolektīvam.

Vēsturisko tekstu apstrādes rīks

LNB krājumos šobrīd ir ļoti liels daudzums vecās rakstības materiālu: gan periodika, gan grāmatas. Šie materiāli tiek skenēti un ievietoti arī digitālajā bibliotēkā, taču līdz šim bija dažādas tehniskas problēmas ar to apstrādi, sākot jau ar teksta atpazīšanas programmu nespēju strādāt ar latviešu gotikas fontiem. Šo problēmu LNB gan, šķiet, būs atrisinājusi, pasūtot ABBYY izstrādāt speciālu Finereader versiju tieši latviešu valodas gotikai. LNB saņems Finereader versiju, kas ar vismaz 85% precizitāti iegūs no skenētiem attēliem tekstuālu informāciju.

Tiesa, ar saburtošanu vēsturisko tekstu apstrāde nebeidzas, jo jācīnās ar tādām problēmām kā OCR kļūdas, novecojusi ortogrāfija un tekstos lietoti vecvārdi. Par visām šīm problēmām un cīņu pret tām var lasīt LNDB bloga ierakstā “Vecajai drukai – jauna elpa“.

Latvijas Universitātes Matemātikas un Informātikas institūts pēc LNB pasūtījuma izstrādājis latviešu gotikas apstrādes rīka arhitektūru. ” Gotikas analizators” apstrādās Finereader (vai jebkuras citas OCR programmas) iegūto rezultātu: novērsīs OCR kļūdas, cīnīsies ar novecojušo ortogrāfiju un vecvārdiem piemeklēs atbilstošos sinonīmus.

Piemēram, ja OCR programma tekstā būs atpazinusi vārdu “muschka”, Gotikas analizators mēģinās uzminēt, ka varbūt patiesībā tekstā bijis minēts vārds “wuschka”, kam mūsdienu ortogrāfijā atbilst vārds “vuška”, kam, savukārt, atbilst mūsdienu vārds: “aita”. Noindeksējot sākotnējo tekstu ar atpazīšanas rezultātā iegūtajiem vārdiem, tiks panākts efekts, ka tekstu varēs atrast pēc atslēgvārda “aita” pat tad, ja OCR programma tekstā būs atpazinusi vārdu “muschka”.

LU MII izstrādātā Gotikas analizatora demo programmu var apskatīt valoda.ailab.lv/gotika.

Gotikas analizatoru plānots integrēt projektā Periodika.lv un nākotnē arī vēsturisku grāmatu portālā, lai nodrošinātu meklēšanu vecos tekstos.

Vizuālā noformējuma nozīme

Grāmatu, periodikas un citu tekstu saturošu materiālu digitalizācijā, viens no posmiem ir teksta atpazīšana jeb OCR. Rezultātā viss grāmatas teksts tiek iegūts tālāk ērti apstrādājamā XML formātā. Tam var pielietot XSLT transformācijas un citas apstrādes metodes, rezultātā iegūstot glīti noformētu grāmatas tekstu, tikai… vairs ne oriģinālā izskatā.

Piemēram, oriģinālā lapa.

gramatas_lapa

Pēc apstrādes šīs lapas virsraksts nonāktu atsevišķā XML tagā, bet pamatteksts – citā. Pēc tam šo grāmatas tekstu varētu attēlot tīmekļa lapā, veidojot hipersaišu satura rādītājus uz atsevišķām nodaļām, ļaujot samazināt/palielināt tekstu. Ļaujot ērti kopēt interesējošos fragmentus. Vienvārdsakot, ļaujot darīt visu, ko jau nu ar segmentētu tekstu var darīt.

XML dokumentu attēlošanas priekšrocība ir arī relatīvi ekonomiskais izmērs. 100 lappušu biezai grāmatai atbilstošais tekstu saturošais XML dokuments aizņem aptuveni 0.5Mb, kamēr pati grāmata PDF formātā – aptuveni 20Mb.

Bet.. varbūt grāmatas oriģinālajam vizuālajam izpildījumam tomēr ir pietiekami liela nozīme, lai tas atsvērtu aptuveni 40x lielāko datņu izmēru un pārējās neērtības. Cik nozīmīgs jūsu lasīšanas pieredzē ir grāmatas vizuālais noformējums vai jums svarīgāka ir tīrā informācija?

13. janvāra grautiņā cieš arī LNB ēka

13. janvāra demonstrācijai Doma laukumā sekojošo grautiņu laikā tika nodarīti nopietni postījumi Latvijas Nacionālās bibliotēkas (LNB) ēkai Vecrīgā, Jēkaba ielā 6/8.

Cietusī LNB ēka Jēkaba 6/8

Militārās policijas automašīnu veidotā barjera atradās tieši pie LNB ēkas durvīm. Satrakotais pūlis laužoties cauri barjerai un apmētājot automašīnas ar bruģakmeņiem un ķieģeļiem, izsita LNB darba telpu un lasītavu logus, sabojāja mēbeles un datorus. Zaudējumi mērāmi vairākos tūkstošos latu.

Vairāk attēlu par cietušo LNB ēku atrodami šeit.

Latviešu literatūras zelta klasika internetā

SIA “Tilde” portālā www.letonika.lv uzsākusi latviešu literatūras zelta fondu publicēšanu. Šobrīd jau pieejami tādu autoru kā R. Blaumaņa, brāļu Kaudzīšu, Raiņa un citu Latvijas rakstnieku un dramaturgu darbi. Portālā pārstāvēti 16 latviešu klasiķi, bet “Tilde” solās darbu turpināt un iekļaut arvien jaunu daiļliteratūru.

Latviešu literatūras darbi

Arī Latvijas Nacionālā bibliotēka nākamajos gados plāno digitalizēt vairākus miljonus avīžu un grāmatu lappušu, vairāk gan koncentrējoties uz zinātnisko, populārzinātnisko un kultūras literatūru nekā uz daiļliteratūru.

Vairāk par LNB nākotnes plāniem digitālās bibliotēkas veidošanā var lasīt šeit:

Audio digitalizācija LNB I

Lai arī digitālās bibliotēkas parasti asociējas ar ieskenētām grāmatām vai attēliem, patiesībā šis termins ir daudz plašāks un digitālajās bibliotēkās tiek iekļauti arī digitalizēti audio ieraksti. LNB Fonotēkas nodaļā glabājas ap 25 000 dažādu šellaka un vinila plašu gan no Latvijas, gan ārvalstu mūzikas zelta fondiem. Nākotnē plānots digitalizēt vismaz 1500 plašu, digitalizējot tieši Latvijas mūzikas krājumus.

Līdz nesenai pagātnei plašu digitalizēšana notika izmantojot tradicionālās – “adatas iekārtas”, taču pagājušā gada rudenī LNB savā īpašumā ieguva Japānā ražotu plašu digitalizēšanas lāzeriekārtu ELP Laser Turntable, kur adatu aizstājis plati daudz saudzējošākais lāzera stars.

ELP Laser Turntable

Lāzera stara izmantošanai digitalizēšanas procesā ir būtiskas priekšrocības, piemēram, tas spēj piekļūt tādām plates celiņa daļām, kuras adata, savu fizisko ierobežojumu dēļ, nekad neskar. Līdz ar to iegūtais skanējums var būt vēl dziļāks un melodiski bagātāks nekā atskaņojot to tradicionāli.

Tāpat, lāzera stars, atšķirībā no adatas neķeras plates celiņu skrāpējumos, nepārlec un nerada skaņas kropļojumus plates nolietojuma vai bojājumu dēļ.

Piedāvājam salīdzinājumam noklausīties Jāzepa Vītola “Mirdzas dziesmas” digitalizēšanas laikā iegūtos rezultātus un atfiltrēto trokšņu paraugus.

1. Rezultāts, ko iegūst digitalizējot plati ar tradicionālo (adatas) iekārtu.

2. Rezultāts, digitalizējot plati ar Laser Turntable iekārtu (bez programmātiskas pēcapstrādes).

3. Rezultāts, digitalizējot plati ar Laser Turntable iekārtu (ar programmātisku pēcapstrādi).

4. Trokšņi, ko atfiltrē DeScratch filtrs.

5. Trokšņi, ko atfiltrē DeCrackle filtrs.

6. Trokšņi, ko atfiltrē DeNoise filtrs. Ieklausoties var dzirdēt, ka šis filtrs paķer līdzi arī daļu no paša audio ieraksta, tāpēc DeNoise filtrs praktiski netiek lietots.

LNB audio digitalizētāji cīnās ar vēl kādu izaicinājumu – plašu centrēšanas problēmu. Izrādās daudzām platēm caurumiņš plates novietošanai uz atskaņotāja neatrodas precīzi plates centrā, līdz ar to rodas “peldošs” skanējums, it īpaši atskaņojot ārējo celiņu ierakstus. Sadarbojoties augstāk minētās lāzeriekārtas izstrādātājiem un LNB speciālistiem, japāņi speciāli LNB ir izveidojuši iekārtu, kas kompensē slikti centrētas plates neregulāro kustību. Šobrīd LNB notiek eksperimenti ar plašu centrēšanas iekārtu un iespējams jau drīzumā varēsim šeit nodemonstrēt dažus paraugus arī par centrētu plašu skanējumu.

Tuvākajā laikā plānojam sagatavot arī nelielu reportāžu no audio digitalizēšanas nodaļas, lai pastāstītu (un parādītu), kā LNB notiek plašu digitalizācija. Sekojiet līdz!