Par autortiesībām periodika.lv

Pēc diskusijām Tviterī par manu, jāatzīst, ne pārāk precīzi formulēto tvītu, kur frāzi “liegt pilnu piekļuvi” daudzi, acīmredzot, izlasīja kā “pilnībā liegt piekļuvi”, sniedzu nelielu skaidrojumu.

Mums lasītāji bieži jautā: “Es atvainojos, bet kāda vēl autortiesību aizsardzība 1970. gados izdotajai padomju presei?” Un viņus var saprast. Ņemsim par piemēru 1975. gada 7. septembra “Cīņu”.

Latvijas Komunistiskās partijas Centrālās komitejas izdevums. Pilns ar dažādiem Komunistiskās partijas ziņojumiem, lēmumiem, runu atreferējumiem, u. tml. Arī šeit 1. lappusē Latvijas PSR oficiālās ziņu aģentūras LATINFORM ziņojums. Neiedziļinoties Autortiesību likumā, visam šim saturam (tāpat kā oficiālai statistikai, laika ziņām, likumu publikācijām) nav autortiesību aizsardzības un līdz ar to, mēs šo izdevumu droši varētu padarīt publiski pieejamu. Bet, tavu nelaimi! Šī paša laikraksta numura 4. lappusē ievietots Ojāra Vācieša dzejolis “Šūpuļdziesma”, Valda Luksa dzejolis “Sardzē” un vairāki citi autorraksti, kuri, jādomā, nav Komunistiskās partijas īpašums un kurus visus autortiesības joprojām aizsargā. Ojāra Vācieša darbus līdz pat 2053. gadam, Valda Luksa darbus – līdz 2055. gadam.

Tā triviāli padarot visu “Cīņu” publiski pieejamu, mēs neviļus padarītu pieejamus arī, piemēram, O. Vācieša dzejoļus pabieza dzejas krājuma apjomā, romānus turpinājumos, u. tml. Mums ir tehniskas iespējas “izravēt” visus autortiesību aizsargātos rakstus un parādīt avīzi, kur redzama tikai publiski pieejamā informācija un pārējās daļas aizklātas ar necaurspīdīgiem laukumiem, bet… runa ir par vairākiem miljoniem digitalizētu rakstu, kuros visos, vismaz uz dažām sekundēm jāiedziļinās, lai saprastu, vai konkrētais raksts ir publiska informācija. Un tad jāturpina pastāvīgi sekot, kurā brīdī kurš “aizklātais raksts” jau ir kļuvis pieejams.

Par iespējām publiskot Latvijas PSR laikrakstus mēs savulaik esam lūguši vairāku autortiesību juristu konsultācijas, bet, diemžēl, konkrēta risinājuma nav, jo nav skaidrs Latvijas PSR centrālo izdevumu īpašumtiesību statuss. Tāpēc mums atliek tikai pieņemt, ka autortiesības joprojām pieder rakstu autoriem. Tātad vēl 70 gadus pēc autora nāves.

Šogad LNB uzsāk kārtējo lielapjoma digitalizācijas projektu, kura ietvaros paredzēts digitalizēt visu Latvijas rajonu centrālos laikrakstus tieši par Latvijas PSR periodu. Un šeit situācija ir nedaudz cerīgāka, jo daudzos gadījumos ir iespējams atrast šo laikrakstu izdevējus un arī šī brīža rajonu laikrakstu izdevējus varētu uzskatīt par Latvijas PSR laika izdevumu mantiniekiem, kas var sniegt rakstisku atļauju padarīt viņu laikrakstus pieejamus. To arī centīsimies panākt!

Advertisements

Par attēlu izšķirtspēju

Skenējot attēlus, vienmēr jānorāda trīs galvenie attēla parametri: formāts, krāsu skala un izšķirtspēja.

Digitalizācijas projektos par tradicionālo formātu jau vairākus gadu desmitus tiek uzskatīts TIFF – bezzudumu formāts, kuru “saprot” praktiski visas grafiskās apstrādes programmas, sākot ar MS Paint un beidzot ar Photoshop. Lai arī pēdējos gados paralēli TIFF tiek izmantots arī datņu apjoma ziņā efektīvākais JPEG 2000, TIFF joprojām viennozīmīgi ir pirmā izvēle. Arī krāsu skala attēliem vienmēr tiek izvēlēta viena – krāsu jeb RGB. Pat melnbaltiem attēliem. Kāpēc tā – šoreiz mēģiniet uzminēt paši.

Atliek trešais attēlu parametrs – izšķirtspēja. Izšķirtspēja raksturo informācijas blīvumu attēlā un tiek mērīta DPI mērvienībās. Jo lielāks attēla DPI, jo vairāk informācijas tas satur, jo lielāks attēla pietuvinājums (zoom) būs iespējams pirms sāksies attēla pikselizācija. Dažādu veidu attēliem tiek lietota dažāda izšķirtspēja. PSRS un vēlāku laiku fotogrāfijām, plakātiem, teksta materiāliem – 400 dpi. Starpkaru fotogrāfijām un topogrāfiskajām kartēm – 600 dpi. Smalkiem grafikas darbiem – 1200 dpi. Foto negatīviem – 2400 dpi. Šādi parametri ir plaši akceptēti kultūras satura digitalizācijas projektos. Ir tikai viena problēma… DPI nav attēlu izšķirtspējas mērvienība.

Continue reading “Par attēlu izšķirtspēju”

Personalizēti laikrakstu komplekti periodika.lv

Vēsturisko laikrakstu portālā periodika.lv praktiski visa funkcionalitāte ir pieejama anonīmā lietotāja režīmā. Reģistrējoties lietotājs papildus iegūst iespēju atzīmēt iecienītos rakstus, veidot privātās rakstu kolekcijas, pievienot rakstiem komentārus un veikt tajos OCR (automātiski atpazītā teksta) labojumus.

Diemžēl pat reģistrējoties, lietotājs no sava mājas datora nevar piekļūt ar autortiesībām aizsargātajiem darbiem. Tie joprojām pieejami tikai no publisko bibliotēku datoriem.

Šobrīd vairāk kā 90% lietotāju portālā periodika.lv darbojas anonīmi, taču, iespējams, tagad ir viens papildus iemesls pierakstīties portālam ar reģistrētu lietotāju. Portālā periodika.lv ieviesta iespēja veidot personalizētus laikrakstu komplektus, kurus pēc tam var izmantot, filtrējot meklēšanas rezultātus.

Continue reading “Personalizēti laikrakstu komplekti periodika.lv”

Vai 1900. bija īsais vai garais gads?

Ir tāda vispārzināma formula, pēc kuras aprēķina, vai konkrētais gads ir garais vai īsais gads. Respektīvi, ir vai nav konkrētajā gadā 29. februāris.

Saskaņā ar šo formulu, katrs ceturtais gads ir garais. Izņēmumi ir gaduskaitļi, kas dalās ar 100, kas ir īsie gadi. Visbeidzot, gaduskaitļi, kas dalās ar 400, tomēr ir garie gadi.

Tādejādi, piemēram, 1980., 1996. un 2000. bija garie gadi, bet 1900. un 2100. sanāk īsie gadi.

Taču, apskatot vēsturiskos laikrakstus, mūs sagaida neliels pārsteigums. Latvijā, kādā 1900. gada otrdienā iznāca laikraksti, kas bija datēti ar… 29. februāri.

Libausche Zeitung (29.02.1900.)

lib_zeitung_19000229

Düna Zeitung (29.02.1900.)

dun_zeitung_19000229

Bet kāds gan 29. februāris, ja 1900. gads pēc formulas ir īsais gads? Varbūt laikrakstu izdevējiem gadījusies kāda kolektīvā neuzmanības kļūda? Taču, apskatot, 1900. gadā izdotos kalendārus, var secināt, ka arī saskaņā ar tiem – 1900. gada februārī bija 29 dienas.

Saimnieču un Zelteņu kalendārs 1900

kalendars_1900

Un viss āķis tajā, ka Latvijas (toreizējās Krievijas) teritorijā pārēja no Jūlija uz Gregora kalendāriem notika tikai 1918. gadā, kad stājās spēkā arī precizētā garo gadu aprēķināšanas formula, saskaņā ar kuru 1900. gadam būtu vajadzējis būt īsajam gadam. Ar atpakaļejošu datumu nekādas izmaiņas 1900. gada februāra dienu skaitā, protams, netika izdarītas un tāpēc Latvijas teritorijā 1900. gads bija garais gads.

periodika.lv tagad publiski pieejami arī 1942. gada laikraksti

Līdz ar jauno, 2013. gadu ir iespējams pārskatīt autortiesību statusus vēsturiskajiem izdevumiem un tā, periodika.lv tagad publiski pieejami arī visi 1942. gada laikraksti.

Latvijas vēsturē tas ir Otrā pasaules kara laiks, vācu okupācijas gads, periods, kad Latvija bija daļa no Ostlandes teritorijas. Līdz ar to, vairāki no tagad pieejamajiem laikrakstiem ir vācu valodā, tomēr liela daļa – arī latviski.

"Laikmets", Nr. 46, 13.11.1942.
“Laikmets”, Nr. 46, 13.11.1942.

No vienas puses, viena gada izdevumi, varbūt nešķiet pārāk daudz, taču, no otras puses, tie ir vairāki desmiti laikrakstu un vairāk nekā 100 000 rakstu.

Lasiet un izglītojieties!

Informācijas pirmavoti

Katra nopietna publikācija, zinātnisks raksts vai grāmata satur izmantotās literatūras avotu sarakstu, kam vajadzētu liecināt gan par to, cik nopietni autors iedziļinājies pētāmajā tēmā, gan arī par to, cik pats darbs ir faktos balstīts.

Līdz 20. gs. 90-to gadu sākumam literatūras avotu saraksti pilnībā sastāvēja no papīrā publicētiem izdevumiem, bet 90-to gadu otrajā pusē starp atsaucēm sāka parādīties arī pirmās norādes uz tīmekļa vietnēm. Sākotnēji, sevišķi akadēmiskā vidē, tīmekļa vietnes literatūras avotu sarakstā tika uztvertas ar izteiktu skepsi. Zinātnisku darbu recenzenti prātā svītroja no literatūras saraksta visas tīmekļa vietnes un par pilnu ņēma tikai “īstas” publikācijas. Tāda skepse arī bija saprotama, jo tolaik tīmekļa vietnes veidoja individuāli entuziasti un nevarēja būt nekādas pārliecības par viņu lapās publicētās informācijas autentiskumu un uzticamību.

Vēl 21. gs. sākumā augstskolu diplomdarbu izskatīšanas sēdēs komisijas locekļu smaidu izsauca jebkura recenzenta norāde, ka students savā darbā atsaucies uz Wikipedia, kā uz informācijas avotu. Kopš tā laika daudz kas mainījies un šobrīd atsauces uz tīmekļa vietnēm ir ne tikai leģitīmi literatūras avoti, bet ir pat izstrādāti standarti, kā pareizi noformēt šādas atsauces. Piemēram, tradicionāla tīmekļa vietnes atsauces sastāvdaļa ir norāde “[apskatīts <tādā-un-tādā datumā>]”.

Tīmekļa vietnēm literatūras avotu sarakstā, protams, ir lielas priekšrocības pār tradicionālajām publikācijām. Atšķirībā no dažādiem konferenču materiāliem, kas lasītājam darba lasīšanas brīdī, visticamāk, nebūs pieejami, tīmekļa vietni var apmeklēt jebkurā brīdī. Vajadzīgs tikai dators ar interneta pieslēgumu. Recenzentiem, tātad, vieglāk pārliecināties par publikācijā iekļautajiem faktiem no citur publicētas informācijas.

Tomēr tīmekļa vietnēm kā informācijas pirmavotam ir arī kāds būtisks trūkums. Potenciāli, ļoti īsais mūžs. Ja papīra publikācijas un sevišķi grāmatas bez īpašām problēmām ir pieejamas vairākus gadu desmitus pēc to izdošanas un pie labas attieksmes – arī vairākus gadu simtus, tad tīmekļa vietnēm sirms vecums iestājas aptuveni 5-10 gadu laikā. Tīmekļa vietnes, kas pieejamas vēl 10 gadus pēc to publicēšanas jau var uzskatīt par nopietnām ilgdzīvotājām. Un te kļūst svarīgs jautājums, kādas sekas uz zinātnisku darbu atstāj tīmekļa vietņu pazušana?

Illustrations for Google

Iztēlosimies, ka no bibliotēkas plaukta esam izcēluši 2001. gadā publicētu grāmatu ar 100 atsaucēm literatūras avotu sarakstā, starp kurām ir 20 atsauces uz tīmekļa vietnēm. Kāds varētu būt šo tīmekļa vietņu liktens un kādas sekas to nepieejamība varētu atstāt uz pašu izdevumu?

Vai pastāv zinātniska darba “dzīve” pēc literatūras avota “nāves”?

Tīmekļa vietnes literatūras avotu sarakstā, teorētiski, var pildīt divas saturiskās funkcijas:

  1. Tīmekļa lapā pieejamā informācija nav fundamentāli svarīga un tajā tikai izskaidrots kāds termins (Wikipedia šķirklis).
  2. Tīmekļa vietnē publicētā informācija ir fundamentāli svarīga un būtiskas darba atziņas tiek balstītas tieši uz šajā tīmekļa vietnē publicēto informāciju.

Tīmekļa vietnei pēc pazušanas, savukārt, atkal var būt divu veidu sekas:

  1. Tīmekļa vietne nav unikāla un tajā esošo informāciju var viegli restaurēt no citām vietnēm vai literatūras avotiem.
  2. Tīmekļa vietne ir unikāla. Respektīvi, vienīgais zināmais avots, kur bijusi publicēta konkrētā informācija ir tieši pazudusī vietne.

Savstarpēji kombinējot visas šīs iespējas, iegūstam četras dažāda smaguma situācijas, ko var izraisīt kādas tīmekļa vietnes pazušana.

Vienkāršākajā gadījumā, vairs nav pieejama tīmekļa vietne ar termina “elektromotors” definīciju. Pirmkārt, šādas informācijas pazušana diez vai sagrautu kāda darba argumentāciju. Otrkārt, pazūdot vienai lapai ar “elektromotora” definīciju, paliek vēl tūkstots citas, kur šo informāciju joprojām var iegūt.

Sliktākajā gadījumā, pazūd tīmekļa vietne ar kāda dokumenta vienīgo eksemplāru, uz kuru savukārt ir balstīts viss grāmatā iekļautais pētījums. Pie tam, dokuments nav pieejams ne kādā citā tīmekļa vietnē, ne oriģinālā izskatā. Šādā gadījumā ir apdraudēta arī visa grāmatā publicētās informācijas uzticamība.

Atsauces uz LNB resursiem

Jāņem vērā, ka par sava veida tīmekļa vietnes pazušanu var uzskatīt arī jaunas vietnes versijas ieviešanu kā rezultātā mainās lapu URL struktūra un parasti pārstāj strādāt visas iepriekšējās versijas lapu adreses. Pat tad, ja pati informācija kā tāda ir saglabājusies arī jaunajā vietnes versijā.

Šī gada maijā LNB publiskoja portāla www.periodika.lv jaunāko versiju, kas ir nevis vienkārši iepriekšējās vietnes uzlabojums, bet pilnīgi jauna, neatkarīga sistēma. Līdz ar to, nomainījusies arī visa objektu URL adrešu sistēma.

Pagaidām joprojām pieejama arī iepriekšējā portāla versija, taču nopietni apsveram domu to izslēgt, lai nebūtu lieki jādarbina divi serveri, uz kuriem šobrīd izvietota “vecā periodika”. Iepriekšējās versijas portāla saturs ir pārnests uz jauno periodika.lv, taču skaidrs, ka līdz ar vecās versijas portāla izslēgšanu, pārstās darboties visas atsauces uz šo resursu, lai kur nu arī tās būtu ievietotas.

Portāla periodika.lv migrācijas izraisītās sekas pēc augstākminētās klasifikācijas, visticamāk, ir kategorizējamas kā vidēja smaguma scenārijs:

informācija ir svarīga/tīmekļa vietne nav unikāla.

Respektīvi, ja pētnieks savā darbā iekļāvis atsauci uz kādu periodika.lv publicētu darbu, tad parasti tas ir uz kādu laikrakstā minētu faktu, kas var būt svarīgs arī pašam pētījumam. Tomēr, ja pārstāj darboties URL adrese uz “vecās” periodika.lv resursu, tas vai nu būs atrodams jaunajā periodika.lv versijā, vai sliktākajā gadījumā, bibliotēkā joprojām glabājas oriģinālais laikraksts.

Pagaidām plānojam, ka jaunā periodika.lv ar pašreizējo URL adrešu sistēmu būs ilglaicīgs risinājums, kaut gan IT nozarē kaut ko prognozēt tālāk kā 5 gadus uz priekšu, protams, ir grūti.

Katrā ziņā, ievietojot savā darbā atsauces uz tīmekļa vietnēm, ir vērts uzdot sev jautājumu – kādas sekas uz darbu atstās šīs konkrētas vietnes nepieejamība?

Skenēšanas eksperiments “5Ls”

Veicot dokumentu, grāmatu, attēlu, karšu un citu materiālu skenēšanu, viens no svarīgākajiem digitalizēšanas kvalitātes parametriem ir skenēšanas optiskā izšķirtspēja, kas tiek mērīta punktos uz collu jeb dpi (dots per inch).

Skenējuma izšķirtspēja ietekmē ne tikai to, cik smalkas detaļas būs iespējams saskatīt iegūtajā attēlā, bet arī to, cik kvalitatīvi varēs veikt tālāku attēla apstrādi, piemēram, automātisko teksta atpazīšanu (OCR). Bibliotēku vidē, kā tradicionālas skenējumu izšķirtspējas jau ir nostabilizējušās 400 dpi tekstuāliem materiāliem un 600 dpi – attēliem. Šādas skenējuma izšķirtspēju vērtības ir atzītas kā optimālas gan teksta atpazīšanai, gan attēlu ar sīkām detaļām digitalizēšanai. Bet ko patiesībā nozīmē skenējuma izšķirtspēja un kādu efektu tā dod iegūtajos attēlos?

Eksperiments

Nolēmām veikt nelielu eksperimentu ar 5 Ls banknoti. Ieskenēt to dažādās izšķirtspējas (sākot no 72 dpi līdz 1200 dpi) un paskatīties, kas sanāk.

Naudas banknotes ir īpaši pateicīgas šādiem eksperimentiem, jo satur gan tekstuālu informāciju, gan attēlus, gan rokrakstus, gan ūdenszīmes. Uz banknotēm ir arī vieni no mazākā izmēra burtiem, kas vispār jebkur praksē tiek lietoti. Eksistē leģenda, ka lai varētu veikt automātisko teksta atpazīšanu mazākā izmēra uz banknotēm esošajiem burtiem, tās nepieciešams skenēt vismaz 600 dpi izšķirtspējā.

Skenēt attēlu 72 dpi izšķirtspējā, vienkāršoti izsakoties, nozīmē, ka skeneris uz katru attēla collu jeb uz katriem 2,54cm iegūs informāciju par 72 punktiem. Viegli izrēķināt, ka tādejādi attēls tiks sadalīts 0.35 x 0.35 mm lielos pikseļos un katrs tāds pikselis būs vienā krāsā. Lai arī 0.35 mm pirmajā brīdī varētu šķist gana mazs izmērs, tomēr izrādās, ka cilvēka acs darbojas ar relatīvi augstu izšķirtspēju un attēli ar 0.35 x 0.35 mm lieliem pikseļiem izskatās nepārprotami graudaini.

Lūk kā izskatās “5 Ls” banknote, kas skenēta 72 dpi izšķirtspējā.

Patiesībā, protams, jāņem vērā arī attālums no kāda šāds attēls tiek aplūkots. Atrodoties 3 metru attālumā no ekrāna, droši vien, pat 72 dpi kvalitātē ieskenēts attēls izskatīsies nevainojami. Slikto skenējuma kvalitāti tā pa īstam var novērtēt tikai digitāli pietuvinot attēlu un aplūkojot detaļas.

Tātad tā pati banknote, 72 dpi izšķirtspējā.

Skatoties uz šo konkrēto attēlu, droši vien grūti iztēloties, ka zem lielā cipara “5” uz zaļā fona patiesībā ir teksts (kāds tieši, skatīt zemāk).

Attēla izšķirtspēja – 72 dpi tiek uzskatīta par nepieklājīgi mazu pat tīri informatīvai izvietošanai internetā. Tiesa, viena priekšrocība tik mazai skenējuma izšķirtspējai tomēr ir – iegūtais fails sanāk ļoti maza izmēra. Piemēram, 5Ls banknotes attēls pavisam “netaupīgajā”, bezzudumu TIFF formātā aizņem vien ~264 KB.

Skenējot 5 Ls banknoti 150dpi, tā izskatās jau “asāka”.

Taču teksts zem cipara “5” joprojām nav salasāms.

Lielai daļai parasto biroja jeb mājas skeneru augstākā pieejamā optiskā izšķirtspēja ir 300 dpi. Tālāk jau sākas, nosacīti, profesionālās izšķirtspējas. Tātad ar mājas skeneri 5Ls var cerēt noskenēt aptuveni šādā kvalitātē (pilns izmērs pieejams, klikšķinot uz attēla).

Šai izšķirtspējā beidzot zem cipara “5” ir saskatāms arī pats teksts, lai arī joprojām – samērā neskaidrs.

Un tagad daži piemēri, kā izskatās teksts zem cipara “5”, skenējot banknoti profesionālajās izšķirtspējās.

400 dpi

600 dpi

800 dpi

1200 dpi

Var uzskatīt, ka jau sākot no izšķirtspējas 600 dpi, skeneris faktiski sāk darboties kā palielināmais stikls vai mikroskops, jo spēj attēlā saskatīt tādas detaļas, ko vidēji labi redzošs cilvēks ar neapbruņotu aci vairs neredz.

Varētu rasties jautājums, kāpēc gan visu neskenēt maksimāli augstākajā izšķirtspējā, kādu skeneris vispār atbalsta? Atbilde ir ļoti vienkārša. Pieaugot izšķirtspējai, strauji pieaug arī failu izmēri. Piemēram, 1200 dpi skenēta 5Ls banknote TIFF formātā aizņem jau 65.8 MB, kas tik neliela izmēra objektam ir ļoti daudz. Bibliotēka tradicionāli šādu attēlu skenētu 600 dpi izšķirtspējā un šai gadījumā iegūtā TIFF faila izmērs ir 16.4 MB.

Teksta atpazīšana

Viens no galvenajiem eksperimenta mērķiem bija pārbaudīt leģendu par mazo burtu atpazīšanu, kam it kā esot nepieciešama vismaz 600 dpi izšķirtspēja.

Realitāte izrādījās daudz skarbāka. Izmantojot jaunāko ABBYY Finereader programmas versiju, tekstu “LATVIJASBANKALATVIJAS BANKA…” neizdevās atpazīt pat uz attēla 1200 dpi izšķirtspējā. Patiesībā tikai pie šīs super-augstās izšķirtspējas Finereader pirmoreiz “noticēja”, ka zīmes zem cipara “5” vispār ir teksts. Lai arī atpazīt pašu tekstu tik un tā nespēja.

Iespējams, šoreiz gan problēma bija visai eksotiskajā situācijā, ka bija nepieciešams atpazīt zaļu tekstu uz balta fona.

P.S.

Kā interesantu blakusefektu šai eksperimentā konstatējām, ka vismaz ar tradicionālajām skenēšanas metodēm netiek ieskenēta un attēlā nesaglabājas tautumeitas ūdenszīme, ko var redzēt banknoti turot pret gaismu. Tātad sknējuma kvalitāti reizēm nosaka ne tikai skenēšanas tehniskie parametri, bet arī skenēšanas metodes.