Tekstu digitalizācija Latvijas Nacionālajā bibliotēkā

2017. gada augustā Latvijas Nacionālā bibliotēka (LNB) ar Eiropas Reģionālās attīstības fonda (ERAF) atbalstu uzsāka lielapjoma tekstu digitalizācijas projektu. Projektā līdz ar LNB ir iesaistījušās Latvijas Universitātes Akadēmiskā bibliotēka, Latvijas Universitātes bibliotēka, Rīgas Tehniskās Universitātes bibliotēka un Valsts kultūras pieminekļu aizsardzības inspekcija (VKAPI). Līdz 2019. gada sākumam projekta ietvaros paredzēts digitalizēt:

  • Periodiku – 1 888 240 lpp.
  • Grāmatas – 594 000 lpp.
  • Notis – 200 000 lpp.
  • Valsts kultūras pieminekļu lietas – 340 000 lpp.

Šobrīd ir aizvadīta projekta pirmā trešdaļa un drīzumā digitalizētie materiāli kļūs pieejami LNB digitālās bibliotēkas portālos un periodika.lv.

Digitalizācijas apjomi ir netipiski lieli pat Latvijas Nacionālajai bibliotēkai un ir nepieciešams īpašs process, lai relatīvi īsā laikā digitalizētu un apstrādātu vairākus miljonus teksta materiālu lappušu. Masveida digitalizācija sastāv no četriem soļiem: a.) materiālu atlases; b.) skenēšanas; c.) segmentēšanas; d.) kvalitātes kontroles. Pirmo soli veic pašas iestādes, kurās materiāli atrodas. Savukārt, skenēšanu un segmentēšanu esam nodevuši ārpakalpojumā.

Materiālu atlase

Digitalizējamais apjoms ir pārāk liels, lai to nosūtītu skenētājiem vienā piegājienā, tāpēc izdevumi tiek atlasīti porcijās jeb Sūtījumos pa 50-70 tūkst. lappusēm. Šādi Sūtījumi skenētājiem tiek nogādāti vidēji reizi divās nedēļās un apstrādāto materiālu saņemam atpakaļ aptuveni 6 nedēļu laikā.

Lai arī materiālu atlase varētu šķist vienkāršs uzdevums, patiesībā tas ir viens no darbietilpīgākajiem posmiem visā digitalizācijas procesā. Tikai LNB vien materiālu atlasē ir iesaistīti vairāk nekā 20 darbinieki. Veicot materiālu atlasi, lappusi pa lappusei tiek izšķirstīti visi izdevumu iesējumi, lai pārliecinātos, vai tajos netrūkst konkrētas lappuses vai avīžu numuri, kuriem tad tiek meklēti aizstājēji no citiem eksemplāriem (vai pat no citām bibliotēkām). Tādas šķirstīšanas mērķis ir vismaz virtuālā vidē nodrošināt pilnus laikrakstu un citu izdevumu komplektus.

Laikrakstu gadījumā pamatā tiek digitalizēti tie izdevumu eksmeplāri, kas tiek izsniegti lasītājiem, taču gadās, ka tie ir tik nobružāti, saplēsti vai ar iztrūkumiem, ka nākas digitalizēt tā saukto Arhīva eksemplāru. Par katru saņemto laikrakstu LNB vienu eksmeplāru ievieto Arhīvā un tas nav paredzēts izsniegšanai lasītājiem, tāpēc parasti tie saglabājas pilnīgi neskarti. Taču tā kā Arhīva eksemplāri ir īpaši aizsargājami, tad tos nevar izdot ārpus LNB telpām un šī iemesla dēļ viena skenēšanas darba vieta ir iekārtota pašā LNB.

Katra Sūtījuma fiziskais apjoms ir ļoti atkarīgs no materiālu veida. Grāmatu gadījumā 50 000 lappuses satilpst 3-4 A2 formāta kastēs. Savukārt, tāda paša apjoma kultūras pieminekļu lietām bija nepieciešamas jau vairāk nekā 30 kastes.

Skenēšana

Skenēšanu projektā veic AS “Fitek”. Digitalizācijai tiek izmantota profesionāla līmeņa aparatūra, kas ļauj ieskenēt līdz A1 formāta teksta izdevumus (tātad ir iespējams digitalizēt A2 formāta laikrakstu atvērumus). Lielākais darba apjoms tiek paveikts ar Bookeye 4 skeneri, kura komplektācijā ir arī stikls atvērumu piespiešanai un izlīdzināšanai.

Būtiskākais lēmums, kas bija jāpieņem, uzsākot teksta izdevumu skenēšanu, bija par to, kādu datņu formātu izvēlēties digitalizācijas procesā iegūtajām datnēm. Klasiski par “pareizo” gan tekstiem, gan attēliem tiek uzskatīts TIFF formāts, taču diska vietas ekonomijas apsvērumu dēļ izvēlējāmies JPEG2000, kas lai arī ir komerciāls, toties ļauj iegūt būtiski mazāku datņu izmēru. Visa projekta laikā pēc mūsu aprēķiniem tiks iegūti aptuveni 80 TB ar digitalizētiem teksta materiāliem.

Segmentēšana

Segmentēšanu projektā veic LETA. Segmentēšana, savā ziņā, ir maketēšanai pretējs process, kurā uz lapas izvietotais saturs tiek “sagriezts” pa elementiem: rakstiem, virsrakstiem, attēliem, tabulām, u. tml. Segmentēšana tiek veikta ar īpašas programmatūras (docWorks) palīdzību, kas daļu darba veic automatizēti un līdzīgi tekstu atpazīšanai (OCR – Optical Character Recognition) veic arī maketējuma atpazīšanu (OLR – Optical Layout Recognition). Tiesa, ne vienmēr programmai tas izdodas precīzi, tāpēc joprojām nepieciešams apjomīgs manuāls pēcapstrādes darbs. Segmentēšanas procesā ir iesaistīti līdz pat 10x vairāk darbinieku nekā skenēšanā un eksistē viedoklis, ka pilna apjoma segmentēšana ir pārāk ekskluzīvs process (piemēram, dažās pasaules bibliotēkas iztiek tikai ar teksta atpazīšanu), taču pilna segmentēšana ļauj nodrošināt daudz precīzāku informācijas meklēšanu – atsevišķu rakstu līmenī.

Informācija par digitalizētās teksta lappuses saturu tiek pierakstīta METS un ALTO formāta datnēs un, piemēram, par vienas 4-lappušu avīzes “Cēsu stars” numuru digitalizācijas rezultātā mēs saņemam sekojošu datņu komplektu.

Šis datņu komplekts tālāk tiek importēts LNB digitālās bibliotēkas pārvaldības sistēmā un kļūs pieejams arī periodika.lv.

Bez laikrakstiem, kas ir būtiskākā projekta satura daļa, pirmo reizi lielā apjomā tiek digitalizētas arī valsts kultūras pieminekļu lietas, kurās ir iekļauti gan dokumenti, gan kartes un attēli. Tas solās būt unikāls materiāls gan pētniekiem, gan arī plašākai sabiedrībai. Lūk, piemēram, daži kadri no Sv. Pētera baznīcas restaurācijas darbu fotofiksācijas lietas (1973. g.).

Advertisements

Komentēt

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Mainīt )

Google+ photo

You are commenting using your Google+ account. Log Out /  Mainīt )

Twitter picture

You are commenting using your Twitter account. Log Out /  Mainīt )

Facebook photo

You are commenting using your Facebook account. Log Out /  Mainīt )

Connecting to %s