Tekstu digitalizācija Latvijas Nacionālajā bibliotēkā

2017. gada augustā Latvijas Nacionālā bibliotēka (LNB) ar Eiropas Reģionālās attīstības fonda (ERAF) atbalstu uzsāka lielapjoma tekstu digitalizācijas projektu. Projektā līdz ar LNB ir iesaistījušās Latvijas Universitātes Akadēmiskā bibliotēka, Latvijas Universitātes bibliotēka, Rīgas Tehniskās Universitātes bibliotēka un Valsts kultūras pieminekļu aizsardzības inspekcija (VKAPI). Līdz 2019. gada sākumam projekta ietvaros paredzēts digitalizēt:

  • Periodiku – 1 888 240 lpp.
  • Grāmatas – 594 000 lpp.
  • Notis – 200 000 lpp.
  • Valsts kultūras pieminekļu lietas – 340 000 lpp.

Šobrīd ir aizvadīta projekta pirmā trešdaļa un drīzumā digitalizētie materiāli kļūs pieejami LNB digitālās bibliotēkas portālos un periodika.lv.

Digitalizācijas apjomi ir netipiski lieli pat Latvijas Nacionālajai bibliotēkai un ir nepieciešams īpašs process, lai relatīvi īsā laikā digitalizētu un apstrādātu vairākus miljonus teksta materiālu lappušu. Masveida digitalizācija sastāv no četriem soļiem: a.) materiālu atlases; b.) skenēšanas; c.) segmentēšanas; d.) kvalitātes kontroles. Pirmo soli veic pašas iestādes, kurās materiāli atrodas. Savukārt, skenēšanu un segmentēšanu esam nodevuši ārpakalpojumā.

Materiālu atlase

Digitalizējamais apjoms ir pārāk liels, lai to nosūtītu skenētājiem vienā piegājienā, tāpēc izdevumi tiek atlasīti porcijās jeb Sūtījumos pa 50-70 tūkst. lappusēm. Šādi Sūtījumi skenētājiem tiek nogādāti vidēji reizi divās nedēļās un apstrādāto materiālu saņemam atpakaļ aptuveni 6 nedēļu laikā.

Lai arī materiālu atlase varētu šķist vienkāršs uzdevums, patiesībā tas ir viens no darbietilpīgākajiem posmiem visā digitalizācijas procesā. Tikai LNB vien materiālu atlasē ir iesaistīti vairāk nekā 20 darbinieki. Veicot materiālu atlasi, lappusi pa lappusei tiek izšķirstīti visi izdevumu iesējumi, lai pārliecinātos, vai tajos netrūkst konkrētas lappuses vai avīžu numuri, kuriem tad tiek meklēti aizstājēji no citiem eksemplāriem (vai pat no citām bibliotēkām). Tādas šķirstīšanas mērķis ir vismaz virtuālā vidē nodrošināt pilnus laikrakstu un citu izdevumu komplektus.

Laikrakstu gadījumā pamatā tiek digitalizēti tie izdevumu eksmeplāri, kas tiek izsniegti lasītājiem, taču gadās, ka tie ir tik nobružāti, saplēsti vai ar iztrūkumiem, ka nākas digitalizēt tā saukto Arhīva eksemplāru. Par katru saņemto laikrakstu LNB vienu eksmeplāru ievieto Arhīvā un tas nav paredzēts izsniegšanai lasītājiem, tāpēc parasti tie saglabājas pilnīgi neskarti. Taču tā kā Arhīva eksemplāri ir īpaši aizsargājami, tad tos nevar izdot ārpus LNB telpām un šī iemesla dēļ viena skenēšanas darba vieta ir iekārtota pašā LNB.

Katra Sūtījuma fiziskais apjoms ir ļoti atkarīgs no materiālu veida. Grāmatu gadījumā 50 000 lappuses satilpst 3-4 A2 formāta kastēs. Savukārt, tāda paša apjoma kultūras pieminekļu lietām bija nepieciešamas jau vairāk nekā 30 kastes.

Skenēšana

Skenēšanu projektā veic AS “Fitek”. Digitalizācijai tiek izmantota profesionāla līmeņa aparatūra, kas ļauj ieskenēt līdz A1 formāta teksta izdevumus (tātad ir iespējams digitalizēt A2 formāta laikrakstu atvērumus). Lielākais darba apjoms tiek paveikts ar Bookeye 4 skeneri, kura komplektācijā ir arī stikls atvērumu piespiešanai un izlīdzināšanai.

Būtiskākais lēmums, kas bija jāpieņem, uzsākot teksta izdevumu skenēšanu, bija par to, kādu datņu formātu izvēlēties digitalizācijas procesā iegūtajām datnēm. Klasiski par “pareizo” gan tekstiem, gan attēliem tiek uzskatīts TIFF formāts, taču diska vietas ekonomijas apsvērumu dēļ izvēlējāmies JPEG2000, kas lai arī ir komerciāls, toties ļauj iegūt būtiski mazāku datņu izmēru. Visa projekta laikā pēc mūsu aprēķiniem tiks iegūti aptuveni 80 TB ar digitalizētiem teksta materiāliem.

Segmentēšana

Segmentēšanu projektā veic LETA. Segmentēšana, savā ziņā, ir maketēšanai pretējs process, kurā uz lapas izvietotais saturs tiek “sagriezts” pa elementiem: rakstiem, virsrakstiem, attēliem, tabulām, u. tml. Segmentēšana tiek veikta ar īpašas programmatūras (docWorks) palīdzību, kas daļu darba veic automatizēti un līdzīgi tekstu atpazīšanai (OCR – Optical Character Recognition) veic arī maketējuma atpazīšanu (OLR – Optical Layout Recognition). Tiesa, ne vienmēr programmai tas izdodas precīzi, tāpēc joprojām nepieciešams apjomīgs manuāls pēcapstrādes darbs. Segmentēšanas procesā ir iesaistīti līdz pat 10x vairāk darbinieku nekā skenēšanā un eksistē viedoklis, ka pilna apjoma segmentēšana ir pārāk ekskluzīvs process (piemēram, dažās pasaules bibliotēkas iztiek tikai ar teksta atpazīšanu), taču pilna segmentēšana ļauj nodrošināt daudz precīzāku informācijas meklēšanu – atsevišķu rakstu līmenī.

Informācija par digitalizētās teksta lappuses saturu tiek pierakstīta METS un ALTO formāta datnēs un, piemēram, par vienas 4-lappušu avīzes “Cēsu stars” numuru digitalizācijas rezultātā mēs saņemam sekojošu datņu komplektu.

Šis datņu komplekts tālāk tiek importēts LNB digitālās bibliotēkas pārvaldības sistēmā un kļūs pieejams arī periodika.lv.

Bez laikrakstiem, kas ir būtiskākā projekta satura daļa, pirmo reizi lielā apjomā tiek digitalizētas arī valsts kultūras pieminekļu lietas, kurās ir iekļauti gan dokumenti, gan kartes un attēli. Tas solās būt unikāls materiāls gan pētniekiem, gan arī plašākai sabiedrībai. Lūk, piemēram, daži kadri no Sv. Pētera baznīcas restaurācijas darbu fotofiksācijas lietas (1973. g.).

Par periodika.lv pieejamību skolu bibliotēkās

5. decembrī LNB bija uzaicināta piedalīties Saeimas Valstiskās audzināšanas un jaunatnes lietu apakškomisijas sēdē. Izskatāmais jautājums – pieejas nodrošināšana periodika.lv pilnam saturam izglītības iestādēs. Tā nu sanācis, ka saskaņā ar šī brīža likumdošanu, periodika.lv saturs ir brīvi pieejams visās Latvijas publiskajās bibliotēkās, bet, piemēram, skolu bibliotēkas formāli nav publiskas bibliotēkas un tāpēc tur, tāpat kā no publisku lietotāju datoriem ir pieejami tikai tie laikraksti, kas izdoti līdz 1946. gadam (nākamgad kļūs pieejams arī 1947. gads).

Devāmies uz komisijas sēdi ar sajūtu, ka ātri visu izrunāsim, pieņemsim pozitīvu lēmumu un tālāk jau tiks virzītas konkrētas izmaiņas likumdošanā, lai periodika.lv saturs būtu pieejams arī no skolu bibliotēkām. Jo kas gan varētu iebilst pret to, ka no skolas bibliotēkas datora kāds lauku bērns paskatās kādu vecu avīzi…? Cik ļoti gan mēs bijām maldījušies!

Sēdē piedalīties bija uzaicināti pārstāvji no Latvijas Nacionālās bibliotēkas, Kultūras Ministrijas, Izglītības un Zinātnes Ministrijas un autortiesību aģentūra AKKA/LAA. Jau no paša sēdes sākuma kļuva skaidrs, ka AKKA/LAA nevis vienkārši iebilst pret periodika.lv pieejamību skolu bibliotēkās, bet kategoriski iebilst! Taču žoklis atkārās nevis no paša fakta, ka iebilst, bet par to, kādi argumenti tika minēti par labu piekļuves periodika.lv ierobežošanai. Atbildot uz manu jautājumu, kāds gan autortiesību pārkāpums notiktu, ja bērns no skolas bibliotēkas datora apskatītu 1970. gadu “Cīņu” vai “Padomju Jaunatni”, AKKA/LAA vadītājas Ineses Paklones argumenti bija:

  • Paralēli ziņām tika publicēti arī literāri darbi. Konkrēti tika minēts piemērs, ka bērns blakus visādām ziņām (kuras autortiesības neaizsargā!) var ieraudzīt un izlasīt (nez kāpēc tieši) Andra Vējāna dzejoli, kas joprojām ir aizsargāts ar autortiesībām. Te ir vieta nelielai tehniskai atkāpei. Jautājumu par periodika.lv pieejamību rosināja Vēstures skolotāju biedrība. Arī mums LNB ir bijusi sadarbība ar šo biedrību un esam apmācījuši vairākas vēstures skolotāju grupas par iespējām izmantot periodika.lv saturu mācību procesā. Un tā mēs šo resursu izglītības kontekstā vienmēr esam uztvēruši – primāri kā palīglīdzekli tieši vēstures apgūšanai. Un tagad iztēlojamies situāciju, vēstures skolotājs gatavo skolēnu vēstures olimpiādei un kā praktisku uzdevumu uzdod sameklēt rakstus presē par Staburaga appludināšanu pirms Pļaviņu HES būvniecības. Skolēns dodas uz skolas bibliotēku, bet tur viņam paziņo, ka šiem rakstiem nav piekļuves, jo, redz, viņš, lasot rakstus par Staburagu, var nejauši pamanīt A. Vējāņa dzejoli un, nedod Dievs, vēl izlasīt. Un tas nekas, ka tas pats skolēns, to pašu A. Vējāņa dzejoli var jau pavisam atbilstoši likumam lasīt no sava pagasta bibliotēkas.
  • Nevar garantēt, ka pie skolas bibliotēkas datora sēdēs tieši skolēns, nevis, piemēram, skolēna mamma. Es nejokoju! Tāds arguments tiešām tika minēts. Man ir liecinieki. Jo ko gan skolēnu mammas dara darba laikā? Pareizi! Sēž skolu bibliotēkās! Un tas nekas, ka ja tā skolēna mamma tiešām gribētu, viņai viss periodika.lv saturs tāpat ir pavisam atbilstoši likumam pieejams sava pagasta vai pilsētas bibliotēkā.
  • Autoriem raksti presē ir ilgtermiņa peļņas avots. Tā kā arī es pats esmu publicējies žurnālos, tad zinu, ka tradicionāli par to pienākas vienreizējs honorārs vai autoratlīdzība. Dažreiz man tāds honorārs pat ir bijis negaidīts pārsteigums, jo esmu bijis ieinteresēts, lai raksts tiktu nopublicēts un varbūt pat pats būtu piemaksājis. Bet pat vistrakākajās fantāzijās man nav ienākusi prātā doma, ka man par kaut kādu rakstu žurnālā tiks maksātas autoratlīdzības visu atlikušo mūžu (un vēl 70 gadus pēc manas nāves – maniem pēcnācējiem).

Vienā brīdī pretargumenti periodika.lv pieejamībai kļuva pat klaji neloģiski. Piemēram, “Tās vecās avīzes jau tāpat neviens bērns nelasīs?” Nu lieliski! Ja jau nelasīs, tad arī autoriem nekāds finansiāls kaitējums netiks nodarīts!

Izskanēja viedoklis, ka valsts varētu rast iespēju maksāt licenču maksu par, tā saukto, patapinājumu (izsniegumiem) digitālā vidē. Taču pat ja tāda nauda atrastos, viss nebūtu tik vienkārši – jo praktiski nebūtu iespējas tehnoloģiski nodrošināties pret viltus patapinājumiem. Piemēram, savulaik esmu kaut ko uzrakstījis žurnālā “Bibliotēku Pasaule”. Manu rakstu ir izlasījuši varbūt 10-12 cilvēki, taču nākamajā dienā pēc tam kad tiktu nodrošināta samaksa par patapinājumiem interneta vidē, kas man liegtu parūpēties, lai mans raksts kļūtu par pašu patapinātāko rakstu civilizācijas vēsturē? To būtu izlasījuši vairāk cilvēku kā Hariju Poteru. Un tad es, protams, gribētu man pienākošos miljonus.

Tā kā, kamēr daudzi lasītāji pārmet padomju laiku preses nepieejamību periodika.lv no mājas datoriem, reālā situācija ir daudz skarbāka – AKKA/LAA-prāt šos laikrakstus nedrīkst skatīt arī bērniņš Viļakas pamatskolas bibliotēkā.

Par digitālo kolekciju “Zudusī Latvija”

Latvijas bibliotēkās pirmās digitalizācijas aktivitātes 2000. gadu sākumā bija samērā individuālas. Katra iestāde rūpējās tieši par sava satura atspoguļošanu. Bija atsevišķi mēģinājumi veidot starpinstitūciju digitālās kolekcijas, bet reti kad tur bija pārstāvētas vairāk par divām kultūras atmiņas iestādēm. Latvijas Nacionālajai bibliotēkai (LNB) bija sadarbības pieredze vien ar Liepājas Centrālo zinātnisko bibliotēku, digitalizējot laikrakstu “Kurzemes Vārds” un ar Latvijas Nacionālo arhīvu, veidojot personu portretu digitālo kolekciju. 2007. gadā Latvijas Nacionālajā bibliotēkā tika pieņemts lēmums veidot jaunu digitālo kolekciju, kuras tapšanā varētu iesaistīties kultūras iestādes un privātkolekcionāri no visas Latvijas. Par kolekcijas tematiku tika izvēlēti attēli par Latvijas zudušajām vērtībām, kas laika gaitā vai nu gājušas bojā vai būtiski mainījušas savu izskatu, kā klasisku piemēru minot Staburagu, kuru jaunāko paaudžu pārstāvjiem ir bijusi iespēja skatīt vairs tikai attēlos.

Digitālajai kolekcijai tika dots pagaidu, darba apzīmējums “Zudusī Latvija”, pieņemot, ka līdz atvēršanas brīdim būs izdomāts jau oficiālais gala nosaukums. Taču līdz kolekcijas publiskajai atklāšanai 2011. gadā projekta partneru vidū darba apzīmējums bija jau tik ļoti iegājies, ka tāds ir palicis līdz šai dienai.

Desmit gadus pēc kolekcijas idejas tapšanas – 2017. gada decembrī Zudušās Latvijas satura veidošanā bija iesaistījušās 37 bibliotēkas, 19 muzeji, 18 kultūras mantojuma iestādes, 6 skolas un 440 privātpersonas. Kolekcijā nupat ir ievadīts 40 000-ais objekts, kuru iesniedzis viens no aktīvākajiem attēlu privātkolekcionāriem – Jānis Prauliņš (iesniegti >2 700 attēli).

Digitālajā kolekcijā “Zudusī Latvija” ievietotais 40 000-ais attēls. Ievietojis: Jānis Prauliņš

Laika gaitā mainījies uzstādījums digitālajā kolekcijā iekļaut attēlus tikai par “zudušiem” objektiem. Patiesībā, šāds ierobežojums nebija spēkā jau kolekcijas atklāšanas brīdī, kad kolekcijā bija ievietoti vismaz 3 000 mūsdienu attēli ar Latvijas kultūrvēsturiski nozīmīgām ēkām, kas turklāt vēl bija tapuši jau ar digitālo fotoaparātu. Un pirmais kolekcijā ievietotais attēls bija tieši tāds – ar digitālo fotoaparātu 2009. gadā uzņemts, kādas Latvijā kultūrvēsturiski nozīmīgas ēkas foto. Vai varat atšifrēt, kas ir šī ēka?

Picture_079
Pirmais Zudušajā Latvijā ievietotais attēls. Vai varat atšifrēt, kas ir šī ēka?

Šobrīd Zudusī Latvija, faktiski, ir uzskatāma par visaptverošu novadpētniecības attēlu datubāzi, kaut gan priekšroka joprojām tiek dota tieši vēsturiskajiem (oriģināli – analogajiem) attēliem.

Attēlu ievietošanas process

Zudušajai Latvijai ir divas darba vides. Viena – kolekcijas redaktoriem, otra – publiskajiem lietotājiem. Kolekcijas redaktori un īpaši reģistrēti lietotāji (pamatā – LNB darbinieki) attēlus pievieno redaktora darba vidē ar detalizētām attēlu aprakstīšanas iespējām. Publiskajiem lietotājiem, savukārt, ir pieejama vienkāršota attēlu augšupielādes forma, kur par katru attēlu jāaizpilda minimāls datu lauku komplekts un ir iespēja norādīt arī attēlā redzamo vietu koordinātes Google Maps rīkā. Raksta tapšanas brīdī nedaudz vairāk kā ceturto daļu visu Zudušās Latvijas attēlu jeb ~11 000 foto ir pievienojuši tieši publiskie lietotāji.

Par obligāti aizpildāmiem datu laukiem šobrīd tiek uzskatīti: Attēla nosaukums, Attēla radīšanas datums (kas var tikt norādīts arī tikai aptuveni), Attēla īpašnieks un Attēla radīšanas vieta. Par pēdējo gan jāatzīst – ne vienmēr vieta ir precīzi zināma, tāpēc mēs ik pa laikam saņemam attēlus, kuriem piezīmēs norādīts, piemēram: “Vietu nezinu, tāpēc rakstu – Valmiera”.

Pēc attēlu ievietošanas, tie automātiski netiek publicēti, bet gan iziet moderācijas procesu, kur tos pārskata un labo/papildina kolekcijas redaktori. Redaktori, apstrādājot katru attēlu, veic sekojošus labojumus:

  • Labo gramatikas/pareizrakstības kļūdas. Ne ar profesionālu korektoru piegājienu, bet acīmredzamās kļūdas tomēr tiek salabotas.
  • Vienādo attēlu nosaukumus. Tieši attēlu nosaukumos var novērot visplašākās lietotāju radošās izpausmes. Tai pat laikā ir jānodrošina meklēšanas konsekvence, tāpēc attēla nosaukumu “Skaistas meitenes sauļojas upes krastā” kolekcijas redaktori aizstās ar daudz sausāko “Neatpazītu sieviešu portrets” vai labākajā gadījumā – “Neatpazītu sieviešu portrets atpūtas brīdī”. Šī iemesla dēļ daudzu privātkolekcionāru humors paliek zināms vien Zudušās Latvijas redaktoriem.
  • Pievieno attēla tēmas (bibliotekārajā terminoloģijā – priekšmetus). Tēmas redaktori izvēlas no kontrolētas vārdnīcas, arī tā nodrošinot konsekventu attēlu pārlūkošanu, ļaujot atrast visus attēlus, kur redzami, piemēram, kamīni. Pat tad, ja šis vārds nav parādījies attēla nosaukumā vai aprakstā.
  • Pievieno attēlu anotācijas. Attēla anotāciju var būt uzrakstījis jau pats attēla ievietotājs, taču redaktori, sevišķi – kultūrvēsturiski nozīmīgajiem objektiem attēla anotāciju papildina ar anotāciju no cita, jau gatava šī paša objekta apraksta.
  • Pārbauda attēla atbilstību kolekcijas mērķim. Uz digitālo kolekciju “Zudusī Latvija” ir attiecināmi kultūrvēsturiski nozīmīgi, ar Latviju saistīti attēli. Jo vēsturiskāki – jo labāk. Primāri: vietu, ēku, un dabas objektu attēli, taču tiek akceptēti arī vēsturiski portreti. Izņēmuma gadījumos tiek akceptēti arī pēc 2000. gada tapuši attēli, ja tajos, piemēram, redzama mūsdienās jau nojaukta ēka vai kultūrvēsturiski nozīmīgs objekts, par kuru kolekcijā jau ir vēsturiskie attēli. Tāpat redaktors novērtē arī pašu digitālo attēlu un tā kvalitāti. Viena no tipiskām kļūdām, ko redaktoriem nākas labot, ir attēlu apgriešana līdz attēla malām, jo reizēm tiek iesūtīti A4 formāta attēli, kur pati bilde aizņem vien klasiskos 10×15 cm un pārējā daļa ir tukšs, balts laukums.

Un tā – katram attēlam!

Var, protams, šo procesu vienkāršot un padarīt vairāk uz kvantitāti orientētu, piemēram, ļaujot augšupielādēt veselu mapi ar attēliem uzreiz, taču arī kvalitātes uzturēšana ir svarīga. Savulaik Eiropas digitālā kolekcija Europeana izvirzīja par mērķi līdz 2015. gadam sasniegt 33 miljonu objektu robežu. Tas arī vajadzīgajā termiņā tika izdarīts, taču nācās secināt, ka par daudziem objektiem vienīgā ievadītā informācija bija Nosaukumā norādītā vērtība: “Attēls”.

Kvalitātes uzturēšanai ļoti noder arī lietotāju komentāri, kas Zudušās Latvijas gadījumā ir praktiski ar 100% pievienoto vērtību. Ikviens komentārs ir vērsts uz attēlu aprakstu uzlabošanu. Vai nu atpazīta kāda vieta, persona, notikuma datums vai papildināts attēlu apraksts ar kādu jaunu faktu.

Nākotnes plāni

Zudusī Latvija līdz ar periodika.lv ir divas visvairāk izmantotās LNB digitālās kolekcijas, tāpēc to attīstībai arī pievērsta vislielākā uzmanība. Zudušo Latviju nākotnē plānots uzlabot gan funckionāli, gan saturiski. Funkcionālā ziņā būtisks uzlabojums varētu būt iespēja aplūkot attēlus pilnekrāna režīmā ar pietuvināšanas iespējām, jo lai arī ne visos gadījumos, tomēr lielai daļai attēlu ir pieejami augstas izšķirtspējas oriģināli.

Satura ziņā Zudusī Latvija tiek papildināta pastāvīgi. Attēlus turpina pievienot gan LNB, gan publiskie lietotāji. Tomēr varētu sagaidīt ne tikai atsevišķu bilžu, bet arī lielāka apjoma attēlu kolekciju pievienošanu:

  • “Dienas” foto arhīvs. Izdevniecība “Diena” ir nodevusi LNB savu fotonegatīvu arhīvu par laika periodu no 1996. gada ar atļauju tos digitalizēt un publicēt. Aptuveni aplēstais apjoms – 400 000 kadri. No tiem LNB 2018. gadā plāno digitalizēt pirmos ~26 000 kadrus. Liela daļa no tiem varētu būt attiecināmi arī uz Zudušo Latviju.
Makss van der Stūls tiekas ar Alfrēdu Čepāni, Rīgā, 1997. gadā. No “Dienas” fotonegatīvu arhīva.
  • LATINFORM/LETA foto arhīvs. Aptuveni 4 500 kadrus par 1990. gadu pirmo pusi 2018. gadā plāno digitalizēt Latvijas Nacionālais arhīvs.
  • Firmas “Zemesprojekts” aerofotogrāfijas. Latvijas Nacionālais arhīvs 2018. gadā iecerējis digitalizēt arī ~15 000 aerofotogrāfiju negatīvu kadrus par Latvijas teritoriju, ko 1960./1970. gados uzņēma Latvijas Valsts zemes ierīcības firma “Zemesprojekts”. Visticamāk, ne visi šie kadri tiešā veidā atbilst Zudušās Latvijas mērķiem, bet par lielākajām apdzīvotajām vietām gan.
  • Valsts kultūras pieminekļu foto arhīvs. Valsts kultūras pieminekļu aizsardzības inspekcija (VKPAI) 2018. gadā ieplānojusi digitalizēt ~20 000 uz valsts kultūras pieminekļiem attiecināmus fotonegatīvus.

Vēl jau 2018. gadā digitalizēsim arī 5 000 kartes, 2 000 afišas, 18 000 kultūras pieminekļu uzmērījumus un citus attēlus, kas varbūt arī nenonāks Zudušajā Latvijā, taču šaurākā vai plašākā apjomā būs pieejami citās digitālajās kolekcijās.

Par autortiesībām periodika.lv

Pēc diskusijām Tviterī par manu, jāatzīst, ne pārāk precīzi formulēto tvītu, kur frāzi “liegt pilnu piekļuvi” daudzi, acīmredzot, izlasīja kā “pilnībā liegt piekļuvi”, sniedzu nelielu skaidrojumu.

Mums lasītāji bieži jautā: “Es atvainojos, bet kāda vēl autortiesību aizsardzība 1970. gados izdotajai padomju presei?” Un viņus var saprast. Ņemsim par piemēru 1975. gada 7. septembra “Cīņu”.

Latvijas Komunistiskās partijas Centrālās komitejas izdevums. Pilns ar dažādiem Komunistiskās partijas ziņojumiem, lēmumiem, runu atreferējumiem, u. tml. Arī šeit 1. lappusē Latvijas PSR oficiālās ziņu aģentūras LATINFORM ziņojums. Neiedziļinoties Autortiesību likumā, visam šim saturam (tāpat kā oficiālai statistikai, laika ziņām, likumu publikācijām) nav autortiesību aizsardzības un līdz ar to, mēs šo izdevumu droši varētu padarīt publiski pieejamu. Bet, tavu nelaimi! Šī paša laikraksta numura 4. lappusē ievietots Ojāra Vācieša dzejolis “Šūpuļdziesma”, Valda Luksa dzejolis “Sardzē” un vairāki citi autorraksti, kuri, jādomā, nav Komunistiskās partijas īpašums un kurus visus autortiesības joprojām aizsargā. Ojāra Vācieša darbus līdz pat 2053. gadam, Valda Luksa darbus – līdz 2055. gadam.

Tā triviāli padarot visu “Cīņu” publiski pieejamu, mēs neviļus padarītu pieejamus arī, piemēram, O. Vācieša dzejoļus pabieza dzejas krājuma apjomā, romānus turpinājumos, u. tml. Mums ir tehniskas iespējas “izravēt” visus autortiesību aizsargātos rakstus un parādīt avīzi, kur redzama tikai publiski pieejamā informācija un pārējās daļas aizklātas ar necaurspīdīgiem laukumiem, bet… runa ir par vairākiem miljoniem digitalizētu rakstu, kuros visos, vismaz uz dažām sekundēm jāiedziļinās, lai saprastu, vai konkrētais raksts ir publiska informācija. Un tad jāturpina pastāvīgi sekot, kurā brīdī kurš “aizklātais raksts” jau ir kļuvis pieejams.

Par iespējām publiskot Latvijas PSR laikrakstus mēs savulaik esam lūguši vairāku autortiesību juristu konsultācijas, bet, diemžēl, konkrēta risinājuma nav, jo nav skaidrs Latvijas PSR centrālo izdevumu īpašumtiesību statuss. Tāpēc mums atliek tikai pieņemt, ka autortiesības joprojām pieder rakstu autoriem. Tātad vēl 70 gadus pēc autora nāves.

Šogad LNB uzsāk kārtējo lielapjoma digitalizācijas projektu, kura ietvaros paredzēts digitalizēt visu Latvijas rajonu centrālos laikrakstus tieši par Latvijas PSR periodu. Un šeit situācija ir nedaudz cerīgāka, jo daudzos gadījumos ir iespējams atrast šo laikrakstu izdevējus un arī šī brīža rajonu laikrakstu izdevējus varētu uzskatīt par Latvijas PSR laika izdevumu mantiniekiem, kas var sniegt rakstisku atļauju padarīt viņu laikrakstus pieejamus. To arī centīsimies panākt!

Par attēlu izšķirtspēju

Skenējot attēlus, vienmēr jānorāda trīs galvenie attēla parametri: formāts, krāsu skala un izšķirtspēja.

Digitalizācijas projektos par tradicionālo formātu jau vairākus gadu desmitus tiek uzskatīts TIFF – bezzudumu formāts, kuru “saprot” praktiski visas grafiskās apstrādes programmas, sākot ar MS Paint un beidzot ar Photoshop. Lai arī pēdējos gados paralēli TIFF tiek izmantots arī datņu apjoma ziņā efektīvākais JPEG 2000, TIFF joprojām viennozīmīgi ir pirmā izvēle. Arī krāsu skala attēliem vienmēr tiek izvēlēta viena – krāsu jeb RGB. Pat melnbaltiem attēliem. Kāpēc tā – šoreiz mēģiniet uzminēt paši.

Atliek trešais attēlu parametrs – izšķirtspēja. Izšķirtspēja raksturo informācijas blīvumu attēlā un tiek mērīta DPI mērvienībās. Jo lielāks attēla DPI, jo vairāk informācijas tas satur, jo lielāks attēla pietuvinājums (zoom) būs iespējams pirms sāksies attēla pikselizācija. Dažādu veidu attēliem tiek lietota dažāda izšķirtspēja. PSRS un vēlāku laiku fotogrāfijām, plakātiem, teksta materiāliem – 400 dpi. Starpkaru fotogrāfijām un topogrāfiskajām kartēm – 600 dpi. Smalkiem grafikas darbiem – 1200 dpi. Foto negatīviem – 2400 dpi. Šādi parametri ir plaši akceptēti kultūras satura digitalizācijas projektos. Ir tikai viena problēma… DPI nav attēlu izšķirtspējas mērvienība.

Turpināt lasīšanu “Par attēlu izšķirtspēju”

Personalizēti laikrakstu komplekti periodika.lv

Vēsturisko laikrakstu portālā periodika.lv praktiski visa funkcionalitāte ir pieejama anonīmā lietotāja režīmā. Reģistrējoties lietotājs papildus iegūst iespēju atzīmēt iecienītos rakstus, veidot privātās rakstu kolekcijas, pievienot rakstiem komentārus un veikt tajos OCR (automātiski atpazītā teksta) labojumus.

Diemžēl pat reģistrējoties, lietotājs no sava mājas datora nevar piekļūt ar autortiesībām aizsargātajiem darbiem. Tie joprojām pieejami tikai no publisko bibliotēku datoriem.

Šobrīd vairāk kā 90% lietotāju portālā periodika.lv darbojas anonīmi, taču, iespējams, tagad ir viens papildus iemesls pierakstīties portālam ar reģistrētu lietotāju. Portālā periodika.lv ieviesta iespēja veidot personalizētus laikrakstu komplektus, kurus pēc tam var izmantot, filtrējot meklēšanas rezultātus.

Turpināt lasīšanu “Personalizēti laikrakstu komplekti periodika.lv”

Vai 1900. bija īsais vai garais gads?

Ir tāda vispārzināma formula, pēc kuras aprēķina, vai konkrētais gads ir garais vai īsais gads. Respektīvi, ir vai nav konkrētajā gadā 29. februāris.

Saskaņā ar šo formulu, katrs ceturtais gads ir garais. Izņēmumi ir gaduskaitļi, kas dalās ar 100, kas ir īsie gadi. Visbeidzot, gaduskaitļi, kas dalās ar 400, tomēr ir garie gadi.

Tādejādi, piemēram, 1980., 1996. un 2000. bija garie gadi, bet 1900. un 2100. sanāk īsie gadi.

Taču, apskatot vēsturiskos laikrakstus, mūs sagaida neliels pārsteigums. Latvijā, kādā 1900. gada otrdienā iznāca laikraksti, kas bija datēti ar… 29. februāri.

Libausche Zeitung (29.02.1900.)

lib_zeitung_19000229

Düna Zeitung (29.02.1900.)

dun_zeitung_19000229

Bet kāds gan 29. februāris, ja 1900. gads pēc formulas ir īsais gads? Varbūt laikrakstu izdevējiem gadījusies kāda kolektīvā neuzmanības kļūda? Taču, apskatot, 1900. gadā izdotos kalendārus, var secināt, ka arī saskaņā ar tiem – 1900. gada februārī bija 29 dienas.

Saimnieču un Zelteņu kalendārs 1900

kalendars_1900

Un viss āķis tajā, ka Latvijas (toreizējās Krievijas) teritorijā pārēja no Jūlija uz Gregora kalendāriem notika tikai 1918. gadā, kad stājās spēkā arī precizētā garo gadu aprēķināšanas formula, saskaņā ar kuru 1900. gadam būtu vajadzējis būt īsajam gadam. Ar atpakaļejošu datumu nekādas izmaiņas 1900. gada februāra dienu skaitā, protams, netika izdarītas un tāpēc Latvijas teritorijā 1900. gads bija garais gads.

periodika.lv tagad publiski pieejami arī 1942. gada laikraksti

Līdz ar jauno, 2013. gadu ir iespējams pārskatīt autortiesību statusus vēsturiskajiem izdevumiem un tā, periodika.lv tagad publiski pieejami arī visi 1942. gada laikraksti.

Latvijas vēsturē tas ir Otrā pasaules kara laiks, vācu okupācijas gads, periods, kad Latvija bija daļa no Ostlandes teritorijas. Līdz ar to, vairāki no tagad pieejamajiem laikrakstiem ir vācu valodā, tomēr liela daļa – arī latviski.

"Laikmets", Nr. 46, 13.11.1942.
“Laikmets”, Nr. 46, 13.11.1942.

No vienas puses, viena gada izdevumi, varbūt nešķiet pārāk daudz, taču, no otras puses, tie ir vairāki desmiti laikrakstu un vairāk nekā 100 000 rakstu.

Lasiet un izglītojieties!

Informācijas pirmavoti

Katra nopietna publikācija, zinātnisks raksts vai grāmata satur izmantotās literatūras avotu sarakstu, kam vajadzētu liecināt gan par to, cik nopietni autors iedziļinājies pētāmajā tēmā, gan arī par to, cik pats darbs ir faktos balstīts.

Līdz 20. gs. 90-to gadu sākumam literatūras avotu saraksti pilnībā sastāvēja no papīrā publicētiem izdevumiem, bet 90-to gadu otrajā pusē starp atsaucēm sāka parādīties arī pirmās norādes uz tīmekļa vietnēm. Sākotnēji, sevišķi akadēmiskā vidē, tīmekļa vietnes literatūras avotu sarakstā tika uztvertas ar izteiktu skepsi. Zinātnisku darbu recenzenti prātā svītroja no literatūras saraksta visas tīmekļa vietnes un par pilnu ņēma tikai “īstas” publikācijas. Tāda skepse arī bija saprotama, jo tolaik tīmekļa vietnes veidoja individuāli entuziasti un nevarēja būt nekādas pārliecības par viņu lapās publicētās informācijas autentiskumu un uzticamību.

Vēl 21. gs. sākumā augstskolu diplomdarbu izskatīšanas sēdēs komisijas locekļu smaidu izsauca jebkura recenzenta norāde, ka students savā darbā atsaucies uz Wikipedia, kā uz informācijas avotu. Kopš tā laika daudz kas mainījies un šobrīd atsauces uz tīmekļa vietnēm ir ne tikai leģitīmi literatūras avoti, bet ir pat izstrādāti standarti, kā pareizi noformēt šādas atsauces. Piemēram, tradicionāla tīmekļa vietnes atsauces sastāvdaļa ir norāde “[apskatīts <tādā-un-tādā datumā>]”.

Tīmekļa vietnēm literatūras avotu sarakstā, protams, ir lielas priekšrocības pār tradicionālajām publikācijām. Atšķirībā no dažādiem konferenču materiāliem, kas lasītājam darba lasīšanas brīdī, visticamāk, nebūs pieejami, tīmekļa vietni var apmeklēt jebkurā brīdī. Vajadzīgs tikai dators ar interneta pieslēgumu. Recenzentiem, tātad, vieglāk pārliecināties par publikācijā iekļautajiem faktiem no citur publicētas informācijas.

Tomēr tīmekļa vietnēm kā informācijas pirmavotam ir arī kāds būtisks trūkums. Potenciāli, ļoti īsais mūžs. Ja papīra publikācijas un sevišķi grāmatas bez īpašām problēmām ir pieejamas vairākus gadu desmitus pēc to izdošanas un pie labas attieksmes – arī vairākus gadu simtus, tad tīmekļa vietnēm sirms vecums iestājas aptuveni 5-10 gadu laikā. Tīmekļa vietnes, kas pieejamas vēl 10 gadus pēc to publicēšanas jau var uzskatīt par nopietnām ilgdzīvotājām. Un te kļūst svarīgs jautājums, kādas sekas uz zinātnisku darbu atstāj tīmekļa vietņu pazušana?

Illustrations for Google

Iztēlosimies, ka no bibliotēkas plaukta esam izcēluši 2001. gadā publicētu grāmatu ar 100 atsaucēm literatūras avotu sarakstā, starp kurām ir 20 atsauces uz tīmekļa vietnēm. Kāds varētu būt šo tīmekļa vietņu liktens un kādas sekas to nepieejamība varētu atstāt uz pašu izdevumu?

Vai pastāv zinātniska darba “dzīve” pēc literatūras avota “nāves”?

Tīmekļa vietnes literatūras avotu sarakstā, teorētiski, var pildīt divas saturiskās funkcijas:

  1. Tīmekļa lapā pieejamā informācija nav fundamentāli svarīga un tajā tikai izskaidrots kāds termins (Wikipedia šķirklis).
  2. Tīmekļa vietnē publicētā informācija ir fundamentāli svarīga un būtiskas darba atziņas tiek balstītas tieši uz šajā tīmekļa vietnē publicēto informāciju.

Tīmekļa vietnei pēc pazušanas, savukārt, atkal var būt divu veidu sekas:

  1. Tīmekļa vietne nav unikāla un tajā esošo informāciju var viegli restaurēt no citām vietnēm vai literatūras avotiem.
  2. Tīmekļa vietne ir unikāla. Respektīvi, vienīgais zināmais avots, kur bijusi publicēta konkrētā informācija ir tieši pazudusī vietne.

Savstarpēji kombinējot visas šīs iespējas, iegūstam četras dažāda smaguma situācijas, ko var izraisīt kādas tīmekļa vietnes pazušana.

Vienkāršākajā gadījumā, vairs nav pieejama tīmekļa vietne ar termina “elektromotors” definīciju. Pirmkārt, šādas informācijas pazušana diez vai sagrautu kāda darba argumentāciju. Otrkārt, pazūdot vienai lapai ar “elektromotora” definīciju, paliek vēl tūkstots citas, kur šo informāciju joprojām var iegūt.

Sliktākajā gadījumā, pazūd tīmekļa vietne ar kāda dokumenta vienīgo eksemplāru, uz kuru savukārt ir balstīts viss grāmatā iekļautais pētījums. Pie tam, dokuments nav pieejams ne kādā citā tīmekļa vietnē, ne oriģinālā izskatā. Šādā gadījumā ir apdraudēta arī visa grāmatā publicētās informācijas uzticamība.

Atsauces uz LNB resursiem

Jāņem vērā, ka par sava veida tīmekļa vietnes pazušanu var uzskatīt arī jaunas vietnes versijas ieviešanu kā rezultātā mainās lapu URL struktūra un parasti pārstāj strādāt visas iepriekšējās versijas lapu adreses. Pat tad, ja pati informācija kā tāda ir saglabājusies arī jaunajā vietnes versijā.

Šī gada maijā LNB publiskoja portāla www.periodika.lv jaunāko versiju, kas ir nevis vienkārši iepriekšējās vietnes uzlabojums, bet pilnīgi jauna, neatkarīga sistēma. Līdz ar to, nomainījusies arī visa objektu URL adrešu sistēma.

Pagaidām joprojām pieejama arī iepriekšējā portāla versija, taču nopietni apsveram domu to izslēgt, lai nebūtu lieki jādarbina divi serveri, uz kuriem šobrīd izvietota “vecā periodika”. Iepriekšējās versijas portāla saturs ir pārnests uz jauno periodika.lv, taču skaidrs, ka līdz ar vecās versijas portāla izslēgšanu, pārstās darboties visas atsauces uz šo resursu, lai kur nu arī tās būtu ievietotas.

Portāla periodika.lv migrācijas izraisītās sekas pēc augstākminētās klasifikācijas, visticamāk, ir kategorizējamas kā vidēja smaguma scenārijs:

informācija ir svarīga/tīmekļa vietne nav unikāla.

Respektīvi, ja pētnieks savā darbā iekļāvis atsauci uz kādu periodika.lv publicētu darbu, tad parasti tas ir uz kādu laikrakstā minētu faktu, kas var būt svarīgs arī pašam pētījumam. Tomēr, ja pārstāj darboties URL adrese uz “vecās” periodika.lv resursu, tas vai nu būs atrodams jaunajā periodika.lv versijā, vai sliktākajā gadījumā, bibliotēkā joprojām glabājas oriģinālais laikraksts.

Pagaidām plānojam, ka jaunā periodika.lv ar pašreizējo URL adrešu sistēmu būs ilglaicīgs risinājums, kaut gan IT nozarē kaut ko prognozēt tālāk kā 5 gadus uz priekšu, protams, ir grūti.

Katrā ziņā, ievietojot savā darbā atsauces uz tīmekļa vietnēm, ir vērts uzdot sev jautājumu – kādas sekas uz darbu atstās šīs konkrētas vietnes nepieejamība?

Skenēšanas eksperiments “5Ls”

Veicot dokumentu, grāmatu, attēlu, karšu un citu materiālu skenēšanu, viens no svarīgākajiem digitalizēšanas kvalitātes parametriem ir skenēšanas optiskā izšķirtspēja, kas tiek mērīta punktos uz collu jeb dpi (dots per inch).

Skenējuma izšķirtspēja ietekmē ne tikai to, cik smalkas detaļas būs iespējams saskatīt iegūtajā attēlā, bet arī to, cik kvalitatīvi varēs veikt tālāku attēla apstrādi, piemēram, automātisko teksta atpazīšanu (OCR). Bibliotēku vidē, kā tradicionālas skenējumu izšķirtspējas jau ir nostabilizējušās 400 dpi tekstuāliem materiāliem un 600 dpi – attēliem. Šādas skenējuma izšķirtspēju vērtības ir atzītas kā optimālas gan teksta atpazīšanai, gan attēlu ar sīkām detaļām digitalizēšanai. Bet ko patiesībā nozīmē skenējuma izšķirtspēja un kādu efektu tā dod iegūtajos attēlos?

Eksperiments

Nolēmām veikt nelielu eksperimentu ar 5 Ls banknoti. Ieskenēt to dažādās izšķirtspējas (sākot no 72 dpi līdz 1200 dpi) un paskatīties, kas sanāk.

Naudas banknotes ir īpaši pateicīgas šādiem eksperimentiem, jo satur gan tekstuālu informāciju, gan attēlus, gan rokrakstus, gan ūdenszīmes. Uz banknotēm ir arī vieni no mazākā izmēra burtiem, kas vispār jebkur praksē tiek lietoti. Eksistē leģenda, ka lai varētu veikt automātisko teksta atpazīšanu mazākā izmēra uz banknotēm esošajiem burtiem, tās nepieciešams skenēt vismaz 600 dpi izšķirtspējā.

Skenēt attēlu 72 dpi izšķirtspējā, vienkāršoti izsakoties, nozīmē, ka skeneris uz katru attēla collu jeb uz katriem 2,54cm iegūs informāciju par 72 punktiem. Viegli izrēķināt, ka tādejādi attēls tiks sadalīts 0.35 x 0.35 mm lielos pikseļos un katrs tāds pikselis būs vienā krāsā. Lai arī 0.35 mm pirmajā brīdī varētu šķist gana mazs izmērs, tomēr izrādās, ka cilvēka acs darbojas ar relatīvi augstu izšķirtspēju un attēli ar 0.35 x 0.35 mm lieliem pikseļiem izskatās nepārprotami graudaini.

Lūk kā izskatās “5 Ls” banknote, kas skenēta 72 dpi izšķirtspējā.

Patiesībā, protams, jāņem vērā arī attālums no kāda šāds attēls tiek aplūkots. Atrodoties 3 metru attālumā no ekrāna, droši vien, pat 72 dpi kvalitātē ieskenēts attēls izskatīsies nevainojami. Slikto skenējuma kvalitāti tā pa īstam var novērtēt tikai digitāli pietuvinot attēlu un aplūkojot detaļas.

Tātad tā pati banknote, 72 dpi izšķirtspējā.

Skatoties uz šo konkrēto attēlu, droši vien grūti iztēloties, ka zem lielā cipara “5” uz zaļā fona patiesībā ir teksts (kāds tieši, skatīt zemāk).

Attēla izšķirtspēja – 72 dpi tiek uzskatīta par nepieklājīgi mazu pat tīri informatīvai izvietošanai internetā. Tiesa, viena priekšrocība tik mazai skenējuma izšķirtspējai tomēr ir – iegūtais fails sanāk ļoti maza izmēra. Piemēram, 5Ls banknotes attēls pavisam “netaupīgajā”, bezzudumu TIFF formātā aizņem vien ~264 KB.

Skenējot 5 Ls banknoti 150dpi, tā izskatās jau “asāka”.

Taču teksts zem cipara “5” joprojām nav salasāms.

Lielai daļai parasto biroja jeb mājas skeneru augstākā pieejamā optiskā izšķirtspēja ir 300 dpi. Tālāk jau sākas, nosacīti, profesionālās izšķirtspējas. Tātad ar mājas skeneri 5Ls var cerēt noskenēt aptuveni šādā kvalitātē (pilns izmērs pieejams, klikšķinot uz attēla).

Šai izšķirtspējā beidzot zem cipara “5” ir saskatāms arī pats teksts, lai arī joprojām – samērā neskaidrs.

Un tagad daži piemēri, kā izskatās teksts zem cipara “5”, skenējot banknoti profesionālajās izšķirtspējās.

400 dpi

600 dpi

800 dpi

1200 dpi

Var uzskatīt, ka jau sākot no izšķirtspējas 600 dpi, skeneris faktiski sāk darboties kā palielināmais stikls vai mikroskops, jo spēj attēlā saskatīt tādas detaļas, ko vidēji labi redzošs cilvēks ar neapbruņotu aci vairs neredz.

Varētu rasties jautājums, kāpēc gan visu neskenēt maksimāli augstākajā izšķirtspējā, kādu skeneris vispār atbalsta? Atbilde ir ļoti vienkārša. Pieaugot izšķirtspējai, strauji pieaug arī failu izmēri. Piemēram, 1200 dpi skenēta 5Ls banknote TIFF formātā aizņem jau 65.8 MB, kas tik neliela izmēra objektam ir ļoti daudz. Bibliotēka tradicionāli šādu attēlu skenētu 600 dpi izšķirtspējā un šai gadījumā iegūtā TIFF faila izmērs ir 16.4 MB.

Teksta atpazīšana

Viens no galvenajiem eksperimenta mērķiem bija pārbaudīt leģendu par mazo burtu atpazīšanu, kam it kā esot nepieciešama vismaz 600 dpi izšķirtspēja.

Realitāte izrādījās daudz skarbāka. Izmantojot jaunāko ABBYY Finereader programmas versiju, tekstu “LATVIJASBANKALATVIJAS BANKA…” neizdevās atpazīt pat uz attēla 1200 dpi izšķirtspējā. Patiesībā tikai pie šīs super-augstās izšķirtspējas Finereader pirmoreiz “noticēja”, ka zīmes zem cipara “5” vispār ir teksts. Lai arī atpazīt pašu tekstu tik un tā nespēja.

Iespējams, šoreiz gan problēma bija visai eksotiskajā situācijā, ka bija nepieciešams atpazīt zaļu tekstu uz balta fona.

P.S.

Kā interesantu blakusefektu šai eksperimentā konstatējām, ka vismaz ar tradicionālajām skenēšanas metodēm netiek ieskenēta un attēlā nesaglabājas tautumeitas ūdenszīme, ko var redzēt banknoti turot pret gaismu. Tātad sknējuma kvalitāti reizēm nosaka ne tikai skenēšanas tehniskie parametri, bet arī skenēšanas metodes.