Formāti

Kas ir Digitālā bibliotēka? “Liela elektronisko grāmatu un bildīšu krātuve”, tā atbildēs lielākā daļa potenciālo digitālās bibliotēkas lietotāju, bet patiesībā digitālajā bibliotēkā ir paredzēts saglabāt visdažādāko formātu un pielietojumu datnes. LNB digitālajās kolekcijās jau tagad var apskatīt attēlus, kartes, avīzes… paklausīties audio ierakstus un pat paskatīties video. Bet nākotnē tam visam varētu pievienoties 3D-objekti, hologrammas un, kas zin, ar laiku – arī smaržu un garšu fiksējošas datnes. Kā to visu pierakstīt? Kādos formātos saglabāt? LNDB darba grupa šobrīd jau ir izšķīrusies par vairāku formātu lietošanu Digitālajā bibliotēkā. Pie tam, jāņem vērā, ka gandrīz visiem objektiem tiks saglabātas divas versijas: arhīvdatnes – augstas izšķirtspējas izejmateriāli, kas būs paredzēti oriģināla reproducēšanai gadījumā, ja oriģināls ies bojā. Arhīvdatnes tāpat vien lietotājiem nebūs pieejamas. Tās, pirmkārt, būs paredzētas pašas bibliotēkas iekšējām vajadzībām, tad – izdevējiem un visbeidzot – pēc īpaša pieprasījuma arī Digitālās bibliotēkas lietotājiem. Otra saglabātā versija būs lietojumdatnes – “parastas” kvalitātes datnes, kas optimizētas ātrai lejuplādei digitālās bibliotēkas lietotājiem. Tātad, kādi formāti jau ir precizēti:

  • Attēli. Arhīvdatnes: TIFF (300 – 1200 dpi). Lietojumdatnes: JPEG (~96 dpi). No vienas puses te viss ir vienkārši, jo TIFF ir vispārpieņemts arhīvdatņu saglabāšanas standarts, bet JPEG – visiem pazīstams un visur attēlojams fotoattēlu standarts. Bet… TIFF-i ir lieli. Ļoti lieli! Ieskenējot lielformāta plakātu augstā kvalitātē, iegūtais TIFF bez īpašas piepūles sasniedz 700 MB. Skenētājs, savukārt, tipiskā darbadienā var ieskenēt ap 500 attēlu, tātad teorētiski: ~350 GB. Ir izskatīta tāda TIFF alternatīva kā JPEG 2000, taču pagaidām biedē JPEG 2000 komerciālais statuss un neskaidrā nākotne (TIFF tomēr ir nostabilizējies un starptautiski atzīts). Ar lietojumdatnēm ir vēl lielāks iespēju klāsts: GIF, PNG, tas pats JPEG 2000, u.c.
  • Audio. Arhīvdatnes: WAV. Lietojumdatnes: MP3 (128-192 Kbit/sec) vai WMA. Līdzīgi kā ar attēliem, arī audio gadījumā WAV noteikti ir tradīcijām visbagātākais standarts, bet nebūt ne vienīgais loss-less audio kodēšanas standarts. Ir vēl FLAC, MPEG-4 ALS, un citi… Skaidrs, ka šobrīd WAV ir visplašāk atbalstītais audio kodēšanas standarts, bet vai labākais? Vai optimālākais un efektīvākais no datņu izmēra viedokļa? Arī ar audio lietojumdatnēm situācija nav skaidra. MP3 noteikti ir visplašāk atbalstītais formāts, taču tikpat reāli ir arī WMA un citi audio kodēšanas standarti.
  • Daudzlapu dokumenti. Arhīvdatnes: TIFF (300 – 600 dpi). Lietojumdatnes: PDF. Tās pašas grāmatas ir tipisks daudzlapu dokumentu piemērs. Tā kā grāmatas tiek skenētas lapu pa lapai, tad gala rezultātā tiek iegūti 100.. 200.. 300 TIFF-i. Cik nu kurai grāmatai lapu. Pēc tam tas viss tiek konvertēts uz vienu daudzlapu dokumentu (ļoti biezu grāmatu gadījumā varētu ģenerēt atsevišķu PDF katrām N lapām). Šobrīd par daudzlapu lietojumdatņu formātu ir izvēlēts PDF, bet atkal… nebūt ne vienīgais formāts, kas piemērots tieši daudzlapu dokumentiem. Tikpat labi varētu izmantot arī DjVu formātu. Eksperimentējot ar PDF un DjVu dokumentiem ir pat izdevies konstatēt, ka DjVu ir daudz, daudz efektīvāks standarts (no iegūtās datnes izmēra viedokļa) par PDF. Atšķirība var sasniegt pat 10x (!) par labu DjVu. Taču… DjVu ir komerciāls formāts, kas no vienas puses prasa Digitālās bibliotēkas veidotājiem iegādāties DjVu dzinēja licences, bet lietotājiem – jāinstalē savās pārlūkprogrammās DjVu spraudnis (plug-in). Izvērtējot visus “par” un “pret” pagaidām vairāk “par” ir PDF formātam: gan atbalsta ziņā, gan papildus fīču ziņā. PDF, piemēram, bez problēmām ļauj paralēli uzglabāt gan attēla-tipa informāciju gan OCR-otu tekstu un līdz ar to nodrošina atslēgvārdu meklēšanu pilnā tekstā.
  • Kartes. Arhīvdatnes (300 – 1200 dpi). Lietojumdatnes: pagaidām JPEG (~96 dpi). Kartes jau tās pašas bildītes vien ir… Vismaz kamēr kartes uztver kā ilustratīvu materiālu. Ja ir vēlme kartes “iesiet koordinātēs” (kartogrāfu žargonā izsakoties), tad ar JPEG formātu diemžēl nepietiek. Ieskenējot karti, ir svarīgi ne tikai saglabāt visas iespējamās detaļas, bet arī norādīt – kādas ģeogrāfiskās koordinātas šī karte ietver. Iekļaujot ģeogrāfisko koordināšu informāciju, varēs, piemēram, sasaistīt Jelgavas un Mitau kartes, jo runa jau patiesībā par vienu un to pašu vietu. LNB kā ļoti reālu konkurentu JPEG formātam izskata MrSID formātu, kas ir paredzēts tieši Ģeogrāfisko informācijas sistēmu (ĢIS) datu kodēšanai. Lielākā, ar kartēm saistītā problēma ir tā, ka tikai 19. gs. beigās tika uzsākta daudz maz mūsdienīga kartogrāfija. Viss, kas ir tapis pirms tam… nu tā – puslīdz ar brīvu roku zīmēts (ja atceramies relatīvi nesenos Kristofora Kolumba laikus, tad toreiz pat nebija skaidrs vai Zeme ir apaļa un līdz ar to, izdosies avantūristam Kolumbam nonākt Rietumindijā vai ne… toreiz Zeme bija plakana un kontinentu/valstu kontūras ļoooti aptuvenas).
  • Video. Arhīvdatnes: AVI (?). Lietojumdatnes: ? (?). Tā kā ar video ir eksperimentēts vismazāk, tad tā digitalizācija šobrīd arī loģiski ir visvairāk miglā tīta. Ir izskatītas iespējas lietojumdatnes veidot kā MPEG, DivX, WMV HD, u.c. formāta datnes. Protams, no tehniskā atbalsta viedokļa visizdevīgākie būtu MPEG un DivX formāti, bet tikpat labi varētu ģenerēt arī kādu Flash formāta video, kā to dara, piemēram, YouTube. Tas noteikti būtu patīkami arī ne-Windows platformu lietotājiem.
Lai pierakstītu visas svarīgākās atziņas par digitalizācijas procesu, LNDB darba grupa strādā pie “Ciparotāja rokasgrāmatas“. Cita starpā, tur tiek aprakstīti arī formāti, kādos vajadzētu saglabāt dažāda pielietojuma digitālos objektus. Te apkopoti novērojumi, eksperimentu rezultāti, kolēģu ieteikumi, dažādas rekomendācijas, bet… Ciparotāja rokasgrāmata ir atvērta ieteikumiem un labojumiem no jebkura Digitālās bibliotēkas atbalstītāja, tāpēc gaidām arī jūsu ieteikumus!

9 domas par “Formāti

  1. Var paskatīties, kā citas bibliotēkas darās.
    Vēl arī, formātu izvēle nav briesmīgi kritiska, jo, ja kaut kādi apstākļi mainās, vēlāk vienmēr var pārkonvertēt.

  2. cu, citu bibliotēku pieredze tiek ņemta vērā. Protams, ka negribas kāpt uz tiem pašiem grābekļiem, uz kuriem citi jau veiksmīgi uzkāpuši un guvuši dzīves mācību. Ņemam vērā gan tādu starptautiski atzītu guru kā Kongresa bibliotēka (ASV) un Britu bibliotēka (UK) viedokļus, gan arī netālo zviedru, dāņu, čehu un citu pieredzi. Bet uzmanīgiem tik un tā jābūt. Kaut vai tās pašas pārkonvertēšanas dēļ. Pārkonvertēt simts un tūkstots bildītes ar mūsdienu jaudām protams ir nieks, bet ja kādā (ne)jaukā dienā nāksies pārkonvertēt 10 miljons TIFF-us uz SuperJPEG formātu, tad… heh… būs grūti tik un tā.

  3. Vismaz arhīvdatnēm pats galvenais ir tas, vai tās vēlāk varēs arī nolasīt. Tāpēc izvēlei noteikti jābūt par labu atvērtiem formātiem, kuŗiem brīvi pieejamas gan specifikācijas, gan izejas kods programmām, kas to spēj atpazīt. Tātad, piemēram, FLAC ir ļoti laba izvēle audioierakstiem — gan specifikācijas, gan izejas kods ir pilnīgi brīvi, un pat tad, ja kādā (ne)jaukā dienā mums būs vesela kaudze FLAC failu un neviena datora, uz kuŗa iet sākotnējā FLAC failu saspiešanas programma, mēs bez īpašas piepūles varēsim uzrakstīt jaunu tam datoram, kāds mums būs pieejams — to, kā formāts darbojas, mēs zināsim.
    Savukārt lietojumdatnēm vajadzētu ielāgot, ka cilvēki lieto visdažādākos datorus, un nebūtu taisnīgi lietot formātus, kas pieejami tikai vienas platformas lietotājiem (es te uz wma un wmv cenšos norādīt). Piemēram, wma audiofailiem būtu, piedodiet, ļoti nepārdomāts lēmums — kaut vai tāpēc, ka wma failus neņem pretī iPod. mp3 spēj atskaņot gandrīz viss, kas spēj atskaņot mūziku, turklāt kvalitāte ir ļoti laba. Nav nekāda iemesla tā vietā lietot wma.
    Un, lūdzami, ņemiet piemēru no Kongresa bibliotēkas, kas internetā piedāvā arī arhīvdatnes. Tas tāpēc, ka tās var izmantot ne tikai tādēļ, lai atjaunotu bojā gājušu oriģinālu, bet arī tāpēc, lai izgatavotu kopijas no oriģināla, kas ir sveiks un vesels. Ja darbam beigušās autortiesības, tad bibliotēkai vajadzētu tam nodrošināt brīvu pieeju — lai katrs, kas vēlas, varētu to izmantot tā, kā viņš vēlas, neprasot nevienam atļauju. Ja es tagad gribu, piemēram, pielikt pie sienas vecu plakātu, man daudz vieglāk pielikt amerikāņu, nevis latviešu plakātu. Kongresa bibliotēka man nodrošina brīvu pieeju augstas izšķirtspējas versijām. LNB man sniedz nelielu attēlu, ko var apskatīt monitorā, bet izdrukāt normālā kvalitātē nevar ne pastkartes lielumā. Kāpēc?

  4. nuclearstar, ar arhīvdatņu publicēšanu Internetā nesteidzamies kaut vai tāpēc, ka arhīvdatnes izmēra ziņā ir ļoti lielas un to publicēšana (un līdz ar to lejuplādēšana) var pārmērīgi noslogot digitālās bibliotēkas serverus un tīkla pieslēgumu. Arhīvdatnes tomēr nebūs arī nekāds “militārais noslēpums” un pēc īpaša pieprasījuma būs pieejamas jebkuram digitālās bibliotēkas lietotājam.
    Par lietojumdatņu (attēlu) izmēru pilnībā piekrītam – atsevišķām digitālajām kolekcijām varētu vēlēties lielāku izšķirtspēju. Kāda būtu ok?

  5. kaapeec visur tiek baazti sleegti komerciaali formaati? piemeeram, kaadeelj audio datiem nevar izmantot ogg?

    png kaa primaaraa aateelu lietojumdatne viennoziimiigi vajadziiga, ja njem veeraa mobilo iekaartu attiistiibu

  6. tikai ne WAVus. domājiet par Makintošu lietotājiem, kādu, ar gadiem, kļūs aizvien vairāk, līdz tie pārņems visu PC telpu ar atsevišķiem izņēmumiem muzejos un īpašos rezervātos…

  7. >Taču… DjVu ir komerciāls formāts, kas no vienas puses prasa Digitālās bibliotēkas veidotājiem iegādāties DjVu dzinēja licences, bet lietotājiem – jāinstalē savās pārlūkprogrammās DjVu spraudnis (plug-in).

    Nav tiesa. Eksistē arī attīstīti opensource vai freeware djvu encoderi (minidjvu un djvu solo 3.1), tāpat arī labākie djvu lasītāji ir opensource un ļoti nobrieduši.

    > PDF, piemēram, bez problēmām ļauj paralēli uzglabāt gan attēla-tipa informāciju gan OCR-otu tekstu un līdz ar to nodrošina atslēgvārdu meklēšanu pilnā tekstā.

    To pašu var arī djvu. Principā es nezinu nevienu iemeslu kāpēc _skenētiem_ dokumentiem būtu jālieto kas cits, nevis djvu.

  8. Principā visa modernā multimediju spiešana virzās tikai un vienīgi pretī waveletiem, tāpēc domāju, ka ir prātīgi izvēlēties standartus, kas balstās uz šo ideju.

    Tai skaitā – JPEG 2000, nevis TIFFus (jā, tur gan paliek neskaidrā komerciālā nākotne, tomēr http://en.wikipedia.org/wiki/JPEG_2000#Legal_issues ).

    Tāpat arī audio datnēm daudz progresīvāk ir lietot nevis 15 gadus vecu mp3 formātu, bet gan Ogg Vorbis. Arhīvdatnēm FLAC ir vispārpieņemts standarts. Es neredzu kāpēc ir nolemts baidīties no JPEG 2000 un djvu (kas abi ir diezgan brīvi formāti un kuriem ir autoru dotas garantijas par patentu neizmantošanu), bet nebaidīties no WMA.

    Par video – AVI nav kodeks, AVI ir containeris. Es varu ieteikt vien kā kodeku izmantot h264, kas ir mūsdienīgs un atvērts standarts, kas nodrošina augstu kvalitāti pie ļoti zemiem failu izmēriem. h264 tiek plaši lietots arī ārvalstīs un tam ir pieejams visu lielo OS atbalsts.

    Nedaudz paturpinot par djvu – djvu formāts arhivēšanai ir *vispārpieņemts*, to izmanto gan archive.org savā Million Book Project, gan piem. University of Georgia. Savukārt lai efektīvi iekodētu PDF skenētus dokumentus tiek izmantots tas pats JPEG 2000 formāts, kas teksta saspiešanai uzrāda vājākus rezultātus par djvu lietotajiem kodekiem. Savukārt lai atspiestu šādus PDFus ir nepieciešami plugini gan Adobe Acrobat, gan vairumam citu lasītāju (kas nav nekas labāks par djvu pluginu pārlūkam vai atsevišķu djvu lasītāju). Tā kā djvu un PDF piedāvātais “feature set” ir līdzvērtīgs, bet djvu formāts sniedz labākus rezultātus skenētiem dokumentiem un tiek praktiski lietots arhivēšanas praksē, kamēr PDF – daudz mazāk, es domāju, ka būtu jāizvēlas tas.

Atbildēt

Fill in your details below or click an icon to log in:

WordPress.com logotips

You are commenting using your WordPress.com account. Log Out /  Mainīt )

Twitter picture

You are commenting using your Twitter account. Log Out /  Mainīt )

Facebook photo

You are commenting using your Facebook account. Log Out /  Mainīt )

Connecting to %s