Tekstu digitalizācija Latvijas Nacionālajā bibliotēkā

2017. gada augustā Latvijas Nacionālā bibliotēka (LNB) ar Eiropas Reģionālās attīstības fonda (ERAF) atbalstu uzsāka lielapjoma tekstu digitalizācijas projektu. Projektā līdz ar LNB ir iesaistījušās Latvijas Universitātes Akadēmiskā bibliotēka, Latvijas Universitātes bibliotēka, Rīgas Tehniskās Universitātes bibliotēka un Valsts kultūras pieminekļu aizsardzības inspekcija (VKAPI). Līdz 2019. gada sākumam projekta ietvaros paredzēts digitalizēt:

  • Periodiku – 1 888 240 lpp.
  • Grāmatas – 594 000 lpp.
  • Notis – 200 000 lpp.
  • Valsts kultūras pieminekļu lietas – 340 000 lpp.

Šobrīd ir aizvadīta projekta pirmā trešdaļa un drīzumā digitalizētie materiāli kļūs pieejami LNB digitālās bibliotēkas portālos un periodika.lv.

Digitalizācijas apjomi ir netipiski lieli pat Latvijas Nacionālajai bibliotēkai un ir nepieciešams īpašs process, lai relatīvi īsā laikā digitalizētu un apstrādātu vairākus miljonus teksta materiālu lappušu. Masveida digitalizācija sastāv no četriem soļiem: a.) materiālu atlases; b.) skenēšanas; c.) segmentēšanas; d.) kvalitātes kontroles. Pirmo soli veic pašas iestādes, kurās materiāli atrodas. Savukārt, skenēšanu un segmentēšanu esam nodevuši ārpakalpojumā.

Materiālu atlase

Digitalizējamais apjoms ir pārāk liels, lai to nosūtītu skenētājiem vienā piegājienā, tāpēc izdevumi tiek atlasīti porcijās jeb Sūtījumos pa 50-70 tūkst. lappusēm. Šādi Sūtījumi skenētājiem tiek nogādāti vidēji reizi divās nedēļās un apstrādāto materiālu saņemam atpakaļ aptuveni 6 nedēļu laikā.

Lai arī materiālu atlase varētu šķist vienkāršs uzdevums, patiesībā tas ir viens no darbietilpīgākajiem posmiem visā digitalizācijas procesā. Tikai LNB vien materiālu atlasē ir iesaistīti vairāk nekā 20 darbinieki. Veicot materiālu atlasi, lappusi pa lappusei tiek izšķirstīti visi izdevumu iesējumi, lai pārliecinātos, vai tajos netrūkst konkrētas lappuses vai avīžu numuri, kuriem tad tiek meklēti aizstājēji no citiem eksemplāriem (vai pat no citām bibliotēkām). Tādas šķirstīšanas mērķis ir vismaz virtuālā vidē nodrošināt pilnus laikrakstu un citu izdevumu komplektus.

Laikrakstu gadījumā pamatā tiek digitalizēti tie izdevumu eksmeplāri, kas tiek izsniegti lasītājiem, taču gadās, ka tie ir tik nobružāti, saplēsti vai ar iztrūkumiem, ka nākas digitalizēt tā saukto Arhīva eksemplāru. Par katru saņemto laikrakstu LNB vienu eksmeplāru ievieto Arhīvā un tas nav paredzēts izsniegšanai lasītājiem, tāpēc parasti tie saglabājas pilnīgi neskarti. Taču tā kā Arhīva eksemplāri ir īpaši aizsargājami, tad tos nevar izdot ārpus LNB telpām un šī iemesla dēļ viena skenēšanas darba vieta ir iekārtota pašā LNB.

Katra Sūtījuma fiziskais apjoms ir ļoti atkarīgs no materiālu veida. Grāmatu gadījumā 50 000 lappuses satilpst 3-4 A2 formāta kastēs. Savukārt, tāda paša apjoma kultūras pieminekļu lietām bija nepieciešamas jau vairāk nekā 30 kastes.

Skenēšana

Skenēšanu projektā veic AS “Fitek”. Digitalizācijai tiek izmantota profesionāla līmeņa aparatūra, kas ļauj ieskenēt līdz A1 formāta teksta izdevumus (tātad ir iespējams digitalizēt A2 formāta laikrakstu atvērumus). Lielākais darba apjoms tiek paveikts ar Bookeye 4 skeneri, kura komplektācijā ir arī stikls atvērumu piespiešanai un izlīdzināšanai.

Būtiskākais lēmums, kas bija jāpieņem, uzsākot teksta izdevumu skenēšanu, bija par to, kādu datņu formātu izvēlēties digitalizācijas procesā iegūtajām datnēm. Klasiski par “pareizo” gan tekstiem, gan attēliem tiek uzskatīts TIFF formāts, taču diska vietas ekonomijas apsvērumu dēļ izvēlējāmies JPEG2000, kas lai arī ir komerciāls, toties ļauj iegūt būtiski mazāku datņu izmēru. Visa projekta laikā pēc mūsu aprēķiniem tiks iegūti aptuveni 80 TB ar digitalizētiem teksta materiāliem.

Segmentēšana

Segmentēšanu projektā veic LETA. Segmentēšana, savā ziņā, ir maketēšanai pretējs process, kurā uz lapas izvietotais saturs tiek “sagriezts” pa elementiem: rakstiem, virsrakstiem, attēliem, tabulām, u. tml. Segmentēšana tiek veikta ar īpašas programmatūras (docWorks) palīdzību, kas daļu darba veic automatizēti un līdzīgi tekstu atpazīšanai (OCR – Optical Character Recognition) veic arī maketējuma atpazīšanu (OLR – Optical Layout Recognition). Tiesa, ne vienmēr programmai tas izdodas precīzi, tāpēc joprojām nepieciešams apjomīgs manuāls pēcapstrādes darbs. Segmentēšanas procesā ir iesaistīti līdz pat 10x vairāk darbinieku nekā skenēšanā un eksistē viedoklis, ka pilna apjoma segmentēšana ir pārāk ekskluzīvs process (piemēram, dažās pasaules bibliotēkas iztiek tikai ar teksta atpazīšanu), taču pilna segmentēšana ļauj nodrošināt daudz precīzāku informācijas meklēšanu – atsevišķu rakstu līmenī.

Informācija par digitalizētās teksta lappuses saturu tiek pierakstīta METS un ALTO formāta datnēs un, piemēram, par vienas 4-lappušu avīzes “Cēsu stars” numuru digitalizācijas rezultātā mēs saņemam sekojošu datņu komplektu.

Šis datņu komplekts tālāk tiek importēts LNB digitālās bibliotēkas pārvaldības sistēmā un kļūs pieejams arī periodika.lv.

Bez laikrakstiem, kas ir būtiskākā projekta satura daļa, pirmo reizi lielā apjomā tiek digitalizētas arī valsts kultūras pieminekļu lietas, kurās ir iekļauti gan dokumenti, gan kartes un attēli. Tas solās būt unikāls materiāls gan pētniekiem, gan arī plašākai sabiedrībai. Lūk, piemēram, daži kadri no Sv. Pētera baznīcas restaurācijas darbu fotofiksācijas lietas (1973. g.).

Advertisements

Par periodika.lv pieejamību skolu bibliotēkās

5. decembrī LNB bija uzaicināta piedalīties Saeimas Valstiskās audzināšanas un jaunatnes lietu apakškomisijas sēdē. Izskatāmais jautājums – pieejas nodrošināšana periodika.lv pilnam saturam izglītības iestādēs. Tā nu sanācis, ka saskaņā ar šī brīža likumdošanu, periodika.lv saturs ir brīvi pieejams visās Latvijas publiskajās bibliotēkās, bet, piemēram, skolu bibliotēkas formāli nav publiskas bibliotēkas un tāpēc tur, tāpat kā no publisku lietotāju datoriem ir pieejami tikai tie laikraksti, kas izdoti līdz 1946. gadam (nākamgad kļūs pieejams arī 1947. gads).

Devāmies uz komisijas sēdi ar sajūtu, ka ātri visu izrunāsim, pieņemsim pozitīvu lēmumu un tālāk jau tiks virzītas konkrētas izmaiņas likumdošanā, lai periodika.lv saturs būtu pieejams arī no skolu bibliotēkām. Jo kas gan varētu iebilst pret to, ka no skolas bibliotēkas datora kāds lauku bērns paskatās kādu vecu avīzi…? Cik ļoti gan mēs bijām maldījušies!

Sēdē piedalīties bija uzaicināti pārstāvji no Latvijas Nacionālās bibliotēkas, Kultūras Ministrijas, Izglītības un Zinātnes Ministrijas un autortiesību aģentūra AKKA/LAA. Jau no paša sēdes sākuma kļuva skaidrs, ka AKKA/LAA nevis vienkārši iebilst pret periodika.lv pieejamību skolu bibliotēkās, bet kategoriski iebilst! Taču žoklis atkārās nevis no paša fakta, ka iebilst, bet par to, kādi argumenti tika minēti par labu piekļuves periodika.lv ierobežošanai. Atbildot uz manu jautājumu, kāds gan autortiesību pārkāpums notiktu, ja bērns no skolas bibliotēkas datora apskatītu 1970. gadu “Cīņu” vai “Padomju Jaunatni”, AKKA/LAA vadītājas Ineses Paklones argumenti bija:

  • Paralēli ziņām tika publicēti arī literāri darbi. Konkrēti tika minēts piemērs, ka bērns blakus visādām ziņām (kuras autortiesības neaizsargā!) var ieraudzīt un izlasīt (nez kāpēc tieši) Andra Vējāna dzejoli, kas joprojām ir aizsargāts ar autortiesībām. Te ir vieta nelielai tehniskai atkāpei. Jautājumu par periodika.lv pieejamību rosināja Vēstures skolotāju biedrība. Arī mums LNB ir bijusi sadarbība ar šo biedrību un esam apmācījuši vairākas vēstures skolotāju grupas par iespējām izmantot periodika.lv saturu mācību procesā. Un tā mēs šo resursu izglītības kontekstā vienmēr esam uztvēruši – primāri kā palīglīdzekli tieši vēstures apgūšanai. Un tagad iztēlojamies situāciju, vēstures skolotājs gatavo skolēnu vēstures olimpiādei un kā praktisku uzdevumu uzdod sameklēt rakstus presē par Staburaga appludināšanu pirms Pļaviņu HES būvniecības. Skolēns dodas uz skolas bibliotēku, bet tur viņam paziņo, ka šiem rakstiem nav piekļuves, jo, redz, viņš, lasot rakstus par Staburagu, var nejauši pamanīt A. Vējāņa dzejoli un, nedod Dievs, vēl izlasīt. Un tas nekas, ka tas pats skolēns, to pašu A. Vējāņa dzejoli var jau pavisam atbilstoši likumam lasīt no sava pagasta bibliotēkas.
  • Nevar garantēt, ka pie skolas bibliotēkas datora sēdēs tieši skolēns, nevis, piemēram, skolēna mamma. Es nejokoju! Tāds arguments tiešām tika minēts. Man ir liecinieki. Jo ko gan skolēnu mammas dara darba laikā? Pareizi! Sēž skolu bibliotēkās! Un tas nekas, ka ja tā skolēna mamma tiešām gribētu, viņai viss periodika.lv saturs tāpat ir pavisam atbilstoši likumam pieejams sava pagasta vai pilsētas bibliotēkā.
  • Autoriem raksti presē ir ilgtermiņa peļņas avots. Tā kā arī es pats esmu publicējies žurnālos, tad zinu, ka tradicionāli par to pienākas vienreizējs honorārs vai autoratlīdzība. Dažreiz man tāds honorārs pat ir bijis negaidīts pārsteigums, jo esmu bijis ieinteresēts, lai raksts tiktu nopublicēts un varbūt pat pats būtu piemaksājis. Bet pat vistrakākajās fantāzijās man nav ienākusi prātā doma, ka man par kaut kādu rakstu žurnālā tiks maksātas autoratlīdzības visu atlikušo mūžu (un vēl 70 gadus pēc manas nāves – maniem pēcnācējiem).

Vienā brīdī pretargumenti periodika.lv pieejamībai kļuva pat klaji neloģiski. Piemēram, “Tās vecās avīzes jau tāpat neviens bērns nelasīs?” Nu lieliski! Ja jau nelasīs, tad arī autoriem nekāds finansiāls kaitējums netiks nodarīts!

Izskanēja viedoklis, ka valsts varētu rast iespēju maksāt licenču maksu par, tā saukto, patapinājumu (izsniegumiem) digitālā vidē. Taču pat ja tāda nauda atrastos, viss nebūtu tik vienkārši – jo praktiski nebūtu iespējas tehnoloģiski nodrošināties pret viltus patapinājumiem. Piemēram, savulaik esmu kaut ko uzrakstījis žurnālā “Bibliotēku Pasaule”. Manu rakstu ir izlasījuši varbūt 10-12 cilvēki, taču nākamajā dienā pēc tam kad tiktu nodrošināta samaksa par patapinājumiem interneta vidē, kas man liegtu parūpēties, lai mans raksts kļūtu par pašu patapinātāko rakstu civilizācijas vēsturē? To būtu izlasījuši vairāk cilvēku kā Hariju Poteru. Un tad es, protams, gribētu man pienākošos miljonus.

Tā kā, kamēr daudzi lasītāji pārmet padomju laiku preses nepieejamību periodika.lv no mājas datoriem, reālā situācija ir daudz skarbāka – AKKA/LAA-prāt šos laikrakstus nedrīkst skatīt arī bērniņš Viļakas pamatskolas bibliotēkā.

Par digitālo kolekciju “Zudusī Latvija”

Latvijas bibliotēkās pirmās digitalizācijas aktivitātes 2000. gadu sākumā bija samērā individuālas. Katra iestāde rūpējās tieši par sava satura atspoguļošanu. Bija atsevišķi mēģinājumi veidot starpinstitūciju digitālās kolekcijas, bet reti kad tur bija pārstāvētas vairāk par divām kultūras atmiņas iestādēm. Latvijas Nacionālajai bibliotēkai (LNB) bija sadarbības pieredze vien ar Liepājas Centrālo zinātnisko bibliotēku, digitalizējot laikrakstu “Kurzemes Vārds” un ar Latvijas Nacionālo arhīvu, veidojot personu portretu digitālo kolekciju. 2007. gadā Latvijas Nacionālajā bibliotēkā tika pieņemts lēmums veidot jaunu digitālo kolekciju, kuras tapšanā varētu iesaistīties kultūras iestādes un privātkolekcionāri no visas Latvijas. Par kolekcijas tematiku tika izvēlēti attēli par Latvijas zudušajām vērtībām, kas laika gaitā vai nu gājušas bojā vai būtiski mainījušas savu izskatu, kā klasisku piemēru minot Staburagu, kuru jaunāko paaudžu pārstāvjiem ir bijusi iespēja skatīt vairs tikai attēlos.

Digitālajai kolekcijai tika dots pagaidu, darba apzīmējums “Zudusī Latvija”, pieņemot, ka līdz atvēršanas brīdim būs izdomāts jau oficiālais gala nosaukums. Taču līdz kolekcijas publiskajai atklāšanai 2011. gadā projekta partneru vidū darba apzīmējums bija jau tik ļoti iegājies, ka tāds ir palicis līdz šai dienai.

Desmit gadus pēc kolekcijas idejas tapšanas – 2017. gada decembrī Zudušās Latvijas satura veidošanā bija iesaistījušās 37 bibliotēkas, 19 muzeji, 18 kultūras mantojuma iestādes, 6 skolas un 440 privātpersonas. Kolekcijā nupat ir ievadīts 40 000-ais objekts, kuru iesniedzis viens no aktīvākajiem attēlu privātkolekcionāriem – Jānis Prauliņš (iesniegti >2 700 attēli).

Digitālajā kolekcijā “Zudusī Latvija” ievietotais 40 000-ais attēls. Ievietojis: Jānis Prauliņš

Laika gaitā mainījies uzstādījums digitālajā kolekcijā iekļaut attēlus tikai par “zudušiem” objektiem. Patiesībā, šāds ierobežojums nebija spēkā jau kolekcijas atklāšanas brīdī, kad kolekcijā bija ievietoti vismaz 3 000 mūsdienu attēli ar Latvijas kultūrvēsturiski nozīmīgām ēkām, kas turklāt vēl bija tapuši jau ar digitālo fotoaparātu. Un pirmais kolekcijā ievietotais attēls bija tieši tāds – ar digitālo fotoaparātu 2009. gadā uzņemts, kādas Latvijā kultūrvēsturiski nozīmīgas ēkas foto. Vai varat atšifrēt, kas ir šī ēka?

Picture_079
Pirmais Zudušajā Latvijā ievietotais attēls. Vai varat atšifrēt, kas ir šī ēka?

Šobrīd Zudusī Latvija, faktiski, ir uzskatāma par visaptverošu novadpētniecības attēlu datubāzi, kaut gan priekšroka joprojām tiek dota tieši vēsturiskajiem (oriģināli – analogajiem) attēliem.

Attēlu ievietošanas process

Zudušajai Latvijai ir divas darba vides. Viena – kolekcijas redaktoriem, otra – publiskajiem lietotājiem. Kolekcijas redaktori un īpaši reģistrēti lietotāji (pamatā – LNB darbinieki) attēlus pievieno redaktora darba vidē ar detalizētām attēlu aprakstīšanas iespējām. Publiskajiem lietotājiem, savukārt, ir pieejama vienkāršota attēlu augšupielādes forma, kur par katru attēlu jāaizpilda minimāls datu lauku komplekts un ir iespēja norādīt arī attēlā redzamo vietu koordinātes Google Maps rīkā. Raksta tapšanas brīdī nedaudz vairāk kā ceturto daļu visu Zudušās Latvijas attēlu jeb ~11 000 foto ir pievienojuši tieši publiskie lietotāji.

Par obligāti aizpildāmiem datu laukiem šobrīd tiek uzskatīti: Attēla nosaukums, Attēla radīšanas datums (kas var tikt norādīts arī tikai aptuveni), Attēla īpašnieks un Attēla radīšanas vieta. Par pēdējo gan jāatzīst – ne vienmēr vieta ir precīzi zināma, tāpēc mēs ik pa laikam saņemam attēlus, kuriem piezīmēs norādīts, piemēram: “Vietu nezinu, tāpēc rakstu – Valmiera”.

Pēc attēlu ievietošanas, tie automātiski netiek publicēti, bet gan iziet moderācijas procesu, kur tos pārskata un labo/papildina kolekcijas redaktori. Redaktori, apstrādājot katru attēlu, veic sekojošus labojumus:

  • Labo gramatikas/pareizrakstības kļūdas. Ne ar profesionālu korektoru piegājienu, bet acīmredzamās kļūdas tomēr tiek salabotas.
  • Vienādo attēlu nosaukumus. Tieši attēlu nosaukumos var novērot visplašākās lietotāju radošās izpausmes. Tai pat laikā ir jānodrošina meklēšanas konsekvence, tāpēc attēla nosaukumu “Skaistas meitenes sauļojas upes krastā” kolekcijas redaktori aizstās ar daudz sausāko “Neatpazītu sieviešu portrets” vai labākajā gadījumā – “Neatpazītu sieviešu portrets atpūtas brīdī”. Šī iemesla dēļ daudzu privātkolekcionāru humors paliek zināms vien Zudušās Latvijas redaktoriem.
  • Pievieno attēla tēmas (bibliotekārajā terminoloģijā – priekšmetus). Tēmas redaktori izvēlas no kontrolētas vārdnīcas, arī tā nodrošinot konsekventu attēlu pārlūkošanu, ļaujot atrast visus attēlus, kur redzami, piemēram, kamīni. Pat tad, ja šis vārds nav parādījies attēla nosaukumā vai aprakstā.
  • Pievieno attēlu anotācijas. Attēla anotāciju var būt uzrakstījis jau pats attēla ievietotājs, taču redaktori, sevišķi – kultūrvēsturiski nozīmīgajiem objektiem attēla anotāciju papildina ar anotāciju no cita, jau gatava šī paša objekta apraksta.
  • Pārbauda attēla atbilstību kolekcijas mērķim. Uz digitālo kolekciju “Zudusī Latvija” ir attiecināmi kultūrvēsturiski nozīmīgi, ar Latviju saistīti attēli. Jo vēsturiskāki – jo labāk. Primāri: vietu, ēku, un dabas objektu attēli, taču tiek akceptēti arī vēsturiski portreti. Izņēmuma gadījumos tiek akceptēti arī pēc 2000. gada tapuši attēli, ja tajos, piemēram, redzama mūsdienās jau nojaukta ēka vai kultūrvēsturiski nozīmīgs objekts, par kuru kolekcijā jau ir vēsturiskie attēli. Tāpat redaktors novērtē arī pašu digitālo attēlu un tā kvalitāti. Viena no tipiskām kļūdām, ko redaktoriem nākas labot, ir attēlu apgriešana līdz attēla malām, jo reizēm tiek iesūtīti A4 formāta attēli, kur pati bilde aizņem vien klasiskos 10×15 cm un pārējā daļa ir tukšs, balts laukums.

Un tā – katram attēlam!

Var, protams, šo procesu vienkāršot un padarīt vairāk uz kvantitāti orientētu, piemēram, ļaujot augšupielādēt veselu mapi ar attēliem uzreiz, taču arī kvalitātes uzturēšana ir svarīga. Savulaik Eiropas digitālā kolekcija Europeana izvirzīja par mērķi līdz 2015. gadam sasniegt 33 miljonu objektu robežu. Tas arī vajadzīgajā termiņā tika izdarīts, taču nācās secināt, ka par daudziem objektiem vienīgā ievadītā informācija bija Nosaukumā norādītā vērtība: “Attēls”.

Kvalitātes uzturēšanai ļoti noder arī lietotāju komentāri, kas Zudušās Latvijas gadījumā ir praktiski ar 100% pievienoto vērtību. Ikviens komentārs ir vērsts uz attēlu aprakstu uzlabošanu. Vai nu atpazīta kāda vieta, persona, notikuma datums vai papildināts attēlu apraksts ar kādu jaunu faktu.

Nākotnes plāni

Zudusī Latvija līdz ar periodika.lv ir divas visvairāk izmantotās LNB digitālās kolekcijas, tāpēc to attīstībai arī pievērsta vislielākā uzmanība. Zudušo Latviju nākotnē plānots uzlabot gan funckionāli, gan saturiski. Funkcionālā ziņā būtisks uzlabojums varētu būt iespēja aplūkot attēlus pilnekrāna režīmā ar pietuvināšanas iespējām, jo lai arī ne visos gadījumos, tomēr lielai daļai attēlu ir pieejami augstas izšķirtspējas oriģināli.

Satura ziņā Zudusī Latvija tiek papildināta pastāvīgi. Attēlus turpina pievienot gan LNB, gan publiskie lietotāji. Tomēr varētu sagaidīt ne tikai atsevišķu bilžu, bet arī lielāka apjoma attēlu kolekciju pievienošanu:

  • “Dienas” foto arhīvs. Izdevniecība “Diena” ir nodevusi LNB savu fotonegatīvu arhīvu par laika periodu no 1996. gada ar atļauju tos digitalizēt un publicēt. Aptuveni aplēstais apjoms – 400 000 kadri. No tiem LNB 2018. gadā plāno digitalizēt pirmos ~26 000 kadrus. Liela daļa no tiem varētu būt attiecināmi arī uz Zudušo Latviju.
Makss van der Stūls tiekas ar Alfrēdu Čepāni, Rīgā, 1997. gadā. No “Dienas” fotonegatīvu arhīva.
  • LATINFORM/LETA foto arhīvs. Aptuveni 4 500 kadrus par 1990. gadu pirmo pusi 2018. gadā plāno digitalizēt Latvijas Nacionālais arhīvs.
  • Firmas “Zemesprojekts” aerofotogrāfijas. Latvijas Nacionālais arhīvs 2018. gadā iecerējis digitalizēt arī ~15 000 aerofotogrāfiju negatīvu kadrus par Latvijas teritoriju, ko 1960./1970. gados uzņēma Latvijas Valsts zemes ierīcības firma “Zemesprojekts”. Visticamāk, ne visi šie kadri tiešā veidā atbilst Zudušās Latvijas mērķiem, bet par lielākajām apdzīvotajām vietām gan.
  • Valsts kultūras pieminekļu foto arhīvs. Valsts kultūras pieminekļu aizsardzības inspekcija (VKPAI) 2018. gadā ieplānojusi digitalizēt ~20 000 uz valsts kultūras pieminekļiem attiecināmus fotonegatīvus.

Vēl jau 2018. gadā digitalizēsim arī 5 000 kartes, 2 000 afišas, 18 000 kultūras pieminekļu uzmērījumus un citus attēlus, kas varbūt arī nenonāks Zudušajā Latvijā, taču šaurākā vai plašākā apjomā būs pieejami citās digitālajās kolekcijās.

Par autortiesībām periodika.lv

Pēc diskusijām Tviterī par manu, jāatzīst, ne pārāk precīzi formulēto tvītu, kur frāzi “liegt pilnu piekļuvi” daudzi, acīmredzot, izlasīja kā “pilnībā liegt piekļuvi”, sniedzu nelielu skaidrojumu.

Mums lasītāji bieži jautā: “Es atvainojos, bet kāda vēl autortiesību aizsardzība 1970. gados izdotajai padomju presei?” Un viņus var saprast. Ņemsim par piemēru 1975. gada 7. septembra “Cīņu”.

Latvijas Komunistiskās partijas Centrālās komitejas izdevums. Pilns ar dažādiem Komunistiskās partijas ziņojumiem, lēmumiem, runu atreferējumiem, u. tml. Arī šeit 1. lappusē Latvijas PSR oficiālās ziņu aģentūras LATINFORM ziņojums. Neiedziļinoties Autortiesību likumā, visam šim saturam (tāpat kā oficiālai statistikai, laika ziņām, likumu publikācijām) nav autortiesību aizsardzības un līdz ar to, mēs šo izdevumu droši varētu padarīt publiski pieejamu. Bet, tavu nelaimi! Šī paša laikraksta numura 4. lappusē ievietots Ojāra Vācieša dzejolis “Šūpuļdziesma”, Valda Luksa dzejolis “Sardzē” un vairāki citi autorraksti, kuri, jādomā, nav Komunistiskās partijas īpašums un kurus visus autortiesības joprojām aizsargā. Ojāra Vācieša darbus līdz pat 2053. gadam, Valda Luksa darbus – līdz 2055. gadam.

Tā triviāli padarot visu “Cīņu” publiski pieejamu, mēs neviļus padarītu pieejamus arī, piemēram, O. Vācieša dzejoļus pabieza dzejas krājuma apjomā, romānus turpinājumos, u. tml. Mums ir tehniskas iespējas “izravēt” visus autortiesību aizsargātos rakstus un parādīt avīzi, kur redzama tikai publiski pieejamā informācija un pārējās daļas aizklātas ar necaurspīdīgiem laukumiem, bet… runa ir par vairākiem miljoniem digitalizētu rakstu, kuros visos, vismaz uz dažām sekundēm jāiedziļinās, lai saprastu, vai konkrētais raksts ir publiska informācija. Un tad jāturpina pastāvīgi sekot, kurā brīdī kurš “aizklātais raksts” jau ir kļuvis pieejams.

Par iespējām publiskot Latvijas PSR laikrakstus mēs savulaik esam lūguši vairāku autortiesību juristu konsultācijas, bet, diemžēl, konkrēta risinājuma nav, jo nav skaidrs Latvijas PSR centrālo izdevumu īpašumtiesību statuss. Tāpēc mums atliek tikai pieņemt, ka autortiesības joprojām pieder rakstu autoriem. Tātad vēl 70 gadus pēc autora nāves.

Šogad LNB uzsāk kārtējo lielapjoma digitalizācijas projektu, kura ietvaros paredzēts digitalizēt visu Latvijas rajonu centrālos laikrakstus tieši par Latvijas PSR periodu. Un šeit situācija ir nedaudz cerīgāka, jo daudzos gadījumos ir iespējams atrast šo laikrakstu izdevējus un arī šī brīža rajonu laikrakstu izdevējus varētu uzskatīt par Latvijas PSR laika izdevumu mantiniekiem, kas var sniegt rakstisku atļauju padarīt viņu laikrakstus pieejamus. To arī centīsimies panākt!

Par attēlu izšķirtspēju

Skenējot attēlus, vienmēr jānorāda trīs galvenie attēla parametri: formāts, krāsu skala un izšķirtspēja.

Digitalizācijas projektos par tradicionālo formātu jau vairākus gadu desmitus tiek uzskatīts TIFF – bezzudumu formāts, kuru “saprot” praktiski visas grafiskās apstrādes programmas, sākot ar MS Paint un beidzot ar Photoshop. Lai arī pēdējos gados paralēli TIFF tiek izmantots arī datņu apjoma ziņā efektīvākais JPEG 2000, TIFF joprojām viennozīmīgi ir pirmā izvēle. Arī krāsu skala attēliem vienmēr tiek izvēlēta viena – krāsu jeb RGB. Pat melnbaltiem attēliem. Kāpēc tā – šoreiz mēģiniet uzminēt paši.

Atliek trešais attēlu parametrs – izšķirtspēja. Izšķirtspēja raksturo informācijas blīvumu attēlā un tiek mērīta DPI mērvienībās. Jo lielāks attēla DPI, jo vairāk informācijas tas satur, jo lielāks attēla pietuvinājums (zoom) būs iespējams pirms sāksies attēla pikselizācija. Dažādu veidu attēliem tiek lietota dažāda izšķirtspēja. PSRS un vēlāku laiku fotogrāfijām, plakātiem, teksta materiāliem – 400 dpi. Starpkaru fotogrāfijām un topogrāfiskajām kartēm – 600 dpi. Smalkiem grafikas darbiem – 1200 dpi. Foto negatīviem – 2400 dpi. Šādi parametri ir plaši akceptēti kultūras satura digitalizācijas projektos. Ir tikai viena problēma… DPI nav attēlu izšķirtspējas mērvienība.

Continue reading “Par attēlu izšķirtspēju”

Personalizēti laikrakstu komplekti periodika.lv

Vēsturisko laikrakstu portālā periodika.lv praktiski visa funkcionalitāte ir pieejama anonīmā lietotāja režīmā. Reģistrējoties lietotājs papildus iegūst iespēju atzīmēt iecienītos rakstus, veidot privātās rakstu kolekcijas, pievienot rakstiem komentārus un veikt tajos OCR (automātiski atpazītā teksta) labojumus.

Diemžēl pat reģistrējoties, lietotājs no sava mājas datora nevar piekļūt ar autortiesībām aizsargātajiem darbiem. Tie joprojām pieejami tikai no publisko bibliotēku datoriem.

Šobrīd vairāk kā 90% lietotāju portālā periodika.lv darbojas anonīmi, taču, iespējams, tagad ir viens papildus iemesls pierakstīties portālam ar reģistrētu lietotāju. Portālā periodika.lv ieviesta iespēja veidot personalizētus laikrakstu komplektus, kurus pēc tam var izmantot, filtrējot meklēšanas rezultātus.

Continue reading “Personalizēti laikrakstu komplekti periodika.lv”

Vai 1900. bija īsais vai garais gads?

Ir tāda vispārzināma formula, pēc kuras aprēķina, vai konkrētais gads ir garais vai īsais gads. Respektīvi, ir vai nav konkrētajā gadā 29. februāris.

Saskaņā ar šo formulu, katrs ceturtais gads ir garais. Izņēmumi ir gaduskaitļi, kas dalās ar 100, kas ir īsie gadi. Visbeidzot, gaduskaitļi, kas dalās ar 400, tomēr ir garie gadi.

Tādejādi, piemēram, 1980., 1996. un 2000. bija garie gadi, bet 1900. un 2100. sanāk īsie gadi.

Taču, apskatot vēsturiskos laikrakstus, mūs sagaida neliels pārsteigums. Latvijā, kādā 1900. gada otrdienā iznāca laikraksti, kas bija datēti ar… 29. februāri.

Libausche Zeitung (29.02.1900.)

lib_zeitung_19000229

Düna Zeitung (29.02.1900.)

dun_zeitung_19000229

Bet kāds gan 29. februāris, ja 1900. gads pēc formulas ir īsais gads? Varbūt laikrakstu izdevējiem gadījusies kāda kolektīvā neuzmanības kļūda? Taču, apskatot, 1900. gadā izdotos kalendārus, var secināt, ka arī saskaņā ar tiem – 1900. gada februārī bija 29 dienas.

Saimnieču un Zelteņu kalendārs 1900

kalendars_1900

Un viss āķis tajā, ka Latvijas (toreizējās Krievijas) teritorijā pārēja no Jūlija uz Gregora kalendāriem notika tikai 1918. gadā, kad stājās spēkā arī precizētā garo gadu aprēķināšanas formula, saskaņā ar kuru 1900. gadam būtu vajadzējis būt īsajam gadam. Ar atpakaļejošu datumu nekādas izmaiņas 1900. gada februāra dienu skaitā, protams, netika izdarītas un tāpēc Latvijas teritorijā 1900. gads bija garais gads.