Par attēlu izšķirtspēju

Skenējot attēlus, vienmēr jānorāda trīs galvenie attēla parametri: formāts, krāsu skala un izšķirtspēja.

Digitalizācijas projektos par tradicionālo formātu jau vairākus gadu desmitus tiek uzskatīts TIFF – bezzudumu formāts, kuru “saprot” praktiski visas grafiskās apstrādes programmas, sākot ar MS Paint un beidzot ar Photoshop. Lai arī pēdējos gados paralēli TIFF tiek izmantots arī datņu apjoma ziņā efektīvākais JPEG 2000, TIFF joprojām viennozīmīgi ir pirmā izvēle. Arī krāsu skala attēliem vienmēr tiek izvēlēta viena – krāsu jeb RGB. Pat melnbaltiem attēliem. Kāpēc tā – šoreiz mēģiniet uzminēt paši.

Atliek trešais attēlu parametrs – izšķirtspēja. Izšķirtspēja raksturo informācijas blīvumu attēlā un tiek mērīta DPI mērvienībās. Jo lielāks attēla DPI, jo vairāk informācijas tas satur, jo lielāks attēla pietuvinājums (zoom) būs iespējams pirms sāksies attēla pikselizācija. Dažādu veidu attēliem tiek lietota dažāda izšķirtspēja. PSRS un vēlāku laiku fotogrāfijām, plakātiem, teksta materiāliem – 400 dpi. Starpkaru fotogrāfijām un topogrāfiskajām kartēm – 600 dpi. Smalkiem grafikas darbiem – 1200 dpi. Foto negatīviem – 2400 dpi. Šādi parametri ir plaši akceptēti kultūras satura digitalizācijas projektos. Ir tikai viena problēma… DPI nav attēlu izšķirtspējas mērvienība.

Turpināt lasīšanu “Par attēlu izšķirtspēju”

Personalizēti laikrakstu komplekti periodika.lv

Vēsturisko laikrakstu portālā periodika.lv praktiski visa funkcionalitāte ir pieejama anonīmā lietotāja režīmā. Reģistrējoties lietotājs papildus iegūst iespēju atzīmēt iecienītos rakstus, veidot privātās rakstu kolekcijas, pievienot rakstiem komentārus un veikt tajos OCR (automātiski atpazītā teksta) labojumus.

Diemžēl pat reģistrējoties, lietotājs no sava mājas datora nevar piekļūt ar autortiesībām aizsargātajiem darbiem. Tie joprojām pieejami tikai no publisko bibliotēku datoriem.

Šobrīd vairāk kā 90% lietotāju portālā periodika.lv darbojas anonīmi, taču, iespējams, tagad ir viens papildus iemesls pierakstīties portālam ar reģistrētu lietotāju. Portālā periodika.lv ieviesta iespēja veidot personalizētus laikrakstu komplektus, kurus pēc tam var izmantot, filtrējot meklēšanas rezultātus.

Turpināt lasīšanu “Personalizēti laikrakstu komplekti periodika.lv”

Informācijas pirmavoti

Katra nopietna publikācija, zinātnisks raksts vai grāmata satur izmantotās literatūras avotu sarakstu, kam vajadzētu liecināt gan par to, cik nopietni autors iedziļinājies pētāmajā tēmā, gan arī par to, cik pats darbs ir faktos balstīts.

Līdz 20. gs. 90-to gadu sākumam literatūras avotu saraksti pilnībā sastāvēja no papīrā publicētiem izdevumiem, bet 90-to gadu otrajā pusē starp atsaucēm sāka parādīties arī pirmās norādes uz tīmekļa vietnēm. Sākotnēji, sevišķi akadēmiskā vidē, tīmekļa vietnes literatūras avotu sarakstā tika uztvertas ar izteiktu skepsi. Zinātnisku darbu recenzenti prātā svītroja no literatūras saraksta visas tīmekļa vietnes un par pilnu ņēma tikai “īstas” publikācijas. Tāda skepse arī bija saprotama, jo tolaik tīmekļa vietnes veidoja individuāli entuziasti un nevarēja būt nekādas pārliecības par viņu lapās publicētās informācijas autentiskumu un uzticamību.

Vēl 21. gs. sākumā augstskolu diplomdarbu izskatīšanas sēdēs komisijas locekļu smaidu izsauca jebkura recenzenta norāde, ka students savā darbā atsaucies uz Wikipedia, kā uz informācijas avotu. Kopš tā laika daudz kas mainījies un šobrīd atsauces uz tīmekļa vietnēm ir ne tikai leģitīmi literatūras avoti, bet ir pat izstrādāti standarti, kā pareizi noformēt šādas atsauces. Piemēram, tradicionāla tīmekļa vietnes atsauces sastāvdaļa ir norāde “[apskatīts <tādā-un-tādā datumā>]”.

Tīmekļa vietnēm literatūras avotu sarakstā, protams, ir lielas priekšrocības pār tradicionālajām publikācijām. Atšķirībā no dažādiem konferenču materiāliem, kas lasītājam darba lasīšanas brīdī, visticamāk, nebūs pieejami, tīmekļa vietni var apmeklēt jebkurā brīdī. Vajadzīgs tikai dators ar interneta pieslēgumu. Recenzentiem, tātad, vieglāk pārliecināties par publikācijā iekļautajiem faktiem no citur publicētas informācijas.

Tomēr tīmekļa vietnēm kā informācijas pirmavotam ir arī kāds būtisks trūkums. Potenciāli, ļoti īsais mūžs. Ja papīra publikācijas un sevišķi grāmatas bez īpašām problēmām ir pieejamas vairākus gadu desmitus pēc to izdošanas un pie labas attieksmes – arī vairākus gadu simtus, tad tīmekļa vietnēm sirms vecums iestājas aptuveni 5-10 gadu laikā. Tīmekļa vietnes, kas pieejamas vēl 10 gadus pēc to publicēšanas jau var uzskatīt par nopietnām ilgdzīvotājām. Un te kļūst svarīgs jautājums, kādas sekas uz zinātnisku darbu atstāj tīmekļa vietņu pazušana?

Illustrations for Google

Iztēlosimies, ka no bibliotēkas plaukta esam izcēluši 2001. gadā publicētu grāmatu ar 100 atsaucēm literatūras avotu sarakstā, starp kurām ir 20 atsauces uz tīmekļa vietnēm. Kāds varētu būt šo tīmekļa vietņu liktens un kādas sekas to nepieejamība varētu atstāt uz pašu izdevumu?

Vai pastāv zinātniska darba “dzīve” pēc literatūras avota “nāves”?

Tīmekļa vietnes literatūras avotu sarakstā, teorētiski, var pildīt divas saturiskās funkcijas:

  1. Tīmekļa lapā pieejamā informācija nav fundamentāli svarīga un tajā tikai izskaidrots kāds termins (Wikipedia šķirklis).
  2. Tīmekļa vietnē publicētā informācija ir fundamentāli svarīga un būtiskas darba atziņas tiek balstītas tieši uz šajā tīmekļa vietnē publicēto informāciju.

Tīmekļa vietnei pēc pazušanas, savukārt, atkal var būt divu veidu sekas:

  1. Tīmekļa vietne nav unikāla un tajā esošo informāciju var viegli restaurēt no citām vietnēm vai literatūras avotiem.
  2. Tīmekļa vietne ir unikāla. Respektīvi, vienīgais zināmais avots, kur bijusi publicēta konkrētā informācija ir tieši pazudusī vietne.

Savstarpēji kombinējot visas šīs iespējas, iegūstam četras dažāda smaguma situācijas, ko var izraisīt kādas tīmekļa vietnes pazušana.

Vienkāršākajā gadījumā, vairs nav pieejama tīmekļa vietne ar termina “elektromotors” definīciju. Pirmkārt, šādas informācijas pazušana diez vai sagrautu kāda darba argumentāciju. Otrkārt, pazūdot vienai lapai ar “elektromotora” definīciju, paliek vēl tūkstots citas, kur šo informāciju joprojām var iegūt.

Sliktākajā gadījumā, pazūd tīmekļa vietne ar kāda dokumenta vienīgo eksemplāru, uz kuru savukārt ir balstīts viss grāmatā iekļautais pētījums. Pie tam, dokuments nav pieejams ne kādā citā tīmekļa vietnē, ne oriģinālā izskatā. Šādā gadījumā ir apdraudēta arī visa grāmatā publicētās informācijas uzticamība.

Atsauces uz LNB resursiem

Jāņem vērā, ka par sava veida tīmekļa vietnes pazušanu var uzskatīt arī jaunas vietnes versijas ieviešanu kā rezultātā mainās lapu URL struktūra un parasti pārstāj strādāt visas iepriekšējās versijas lapu adreses. Pat tad, ja pati informācija kā tāda ir saglabājusies arī jaunajā vietnes versijā.

Šī gada maijā LNB publiskoja portāla www.periodika.lv jaunāko versiju, kas ir nevis vienkārši iepriekšējās vietnes uzlabojums, bet pilnīgi jauna, neatkarīga sistēma. Līdz ar to, nomainījusies arī visa objektu URL adrešu sistēma.

Pagaidām joprojām pieejama arī iepriekšējā portāla versija, taču nopietni apsveram domu to izslēgt, lai nebūtu lieki jādarbina divi serveri, uz kuriem šobrīd izvietota “vecā periodika”. Iepriekšējās versijas portāla saturs ir pārnests uz jauno periodika.lv, taču skaidrs, ka līdz ar vecās versijas portāla izslēgšanu, pārstās darboties visas atsauces uz šo resursu, lai kur nu arī tās būtu ievietotas.

Portāla periodika.lv migrācijas izraisītās sekas pēc augstākminētās klasifikācijas, visticamāk, ir kategorizējamas kā vidēja smaguma scenārijs:

informācija ir svarīga/tīmekļa vietne nav unikāla.

Respektīvi, ja pētnieks savā darbā iekļāvis atsauci uz kādu periodika.lv publicētu darbu, tad parasti tas ir uz kādu laikrakstā minētu faktu, kas var būt svarīgs arī pašam pētījumam. Tomēr, ja pārstāj darboties URL adrese uz “vecās” periodika.lv resursu, tas vai nu būs atrodams jaunajā periodika.lv versijā, vai sliktākajā gadījumā, bibliotēkā joprojām glabājas oriģinālais laikraksts.

Pagaidām plānojam, ka jaunā periodika.lv ar pašreizējo URL adrešu sistēmu būs ilglaicīgs risinājums, kaut gan IT nozarē kaut ko prognozēt tālāk kā 5 gadus uz priekšu, protams, ir grūti.

Katrā ziņā, ievietojot savā darbā atsauces uz tīmekļa vietnēm, ir vērts uzdot sev jautājumu – kādas sekas uz darbu atstās šīs konkrētas vietnes nepieejamība?

Skenēšanas eksperiments “5Ls”

Veicot dokumentu, grāmatu, attēlu, karšu un citu materiālu skenēšanu, viens no svarīgākajiem digitalizēšanas kvalitātes parametriem ir skenēšanas optiskā izšķirtspēja, kas tiek mērīta punktos uz collu jeb dpi (dots per inch).

Skenējuma izšķirtspēja ietekmē ne tikai to, cik smalkas detaļas būs iespējams saskatīt iegūtajā attēlā, bet arī to, cik kvalitatīvi varēs veikt tālāku attēla apstrādi, piemēram, automātisko teksta atpazīšanu (OCR). Bibliotēku vidē, kā tradicionālas skenējumu izšķirtspējas jau ir nostabilizējušās 400 dpi tekstuāliem materiāliem un 600 dpi – attēliem. Šādas skenējuma izšķirtspēju vērtības ir atzītas kā optimālas gan teksta atpazīšanai, gan attēlu ar sīkām detaļām digitalizēšanai. Bet ko patiesībā nozīmē skenējuma izšķirtspēja un kādu efektu tā dod iegūtajos attēlos?

Eksperiments

Nolēmām veikt nelielu eksperimentu ar 5 Ls banknoti. Ieskenēt to dažādās izšķirtspējas (sākot no 72 dpi līdz 1200 dpi) un paskatīties, kas sanāk.

Naudas banknotes ir īpaši pateicīgas šādiem eksperimentiem, jo satur gan tekstuālu informāciju, gan attēlus, gan rokrakstus, gan ūdenszīmes. Uz banknotēm ir arī vieni no mazākā izmēra burtiem, kas vispār jebkur praksē tiek lietoti. Eksistē leģenda, ka lai varētu veikt automātisko teksta atpazīšanu mazākā izmēra uz banknotēm esošajiem burtiem, tās nepieciešams skenēt vismaz 600 dpi izšķirtspējā.

Skenēt attēlu 72 dpi izšķirtspējā, vienkāršoti izsakoties, nozīmē, ka skeneris uz katru attēla collu jeb uz katriem 2,54cm iegūs informāciju par 72 punktiem. Viegli izrēķināt, ka tādejādi attēls tiks sadalīts 0.35 x 0.35 mm lielos pikseļos un katrs tāds pikselis būs vienā krāsā. Lai arī 0.35 mm pirmajā brīdī varētu šķist gana mazs izmērs, tomēr izrādās, ka cilvēka acs darbojas ar relatīvi augstu izšķirtspēju un attēli ar 0.35 x 0.35 mm lieliem pikseļiem izskatās nepārprotami graudaini.

Lūk kā izskatās “5 Ls” banknote, kas skenēta 72 dpi izšķirtspējā.

Patiesībā, protams, jāņem vērā arī attālums no kāda šāds attēls tiek aplūkots. Atrodoties 3 metru attālumā no ekrāna, droši vien, pat 72 dpi kvalitātē ieskenēts attēls izskatīsies nevainojami. Slikto skenējuma kvalitāti tā pa īstam var novērtēt tikai digitāli pietuvinot attēlu un aplūkojot detaļas.

Tātad tā pati banknote, 72 dpi izšķirtspējā.

Skatoties uz šo konkrēto attēlu, droši vien grūti iztēloties, ka zem lielā cipara “5” uz zaļā fona patiesībā ir teksts (kāds tieši, skatīt zemāk).

Attēla izšķirtspēja – 72 dpi tiek uzskatīta par nepieklājīgi mazu pat tīri informatīvai izvietošanai internetā. Tiesa, viena priekšrocība tik mazai skenējuma izšķirtspējai tomēr ir – iegūtais fails sanāk ļoti maza izmēra. Piemēram, 5Ls banknotes attēls pavisam “netaupīgajā”, bezzudumu TIFF formātā aizņem vien ~264 KB.

Skenējot 5 Ls banknoti 150dpi, tā izskatās jau “asāka”.

Taču teksts zem cipara “5” joprojām nav salasāms.

Lielai daļai parasto biroja jeb mājas skeneru augstākā pieejamā optiskā izšķirtspēja ir 300 dpi. Tālāk jau sākas, nosacīti, profesionālās izšķirtspējas. Tātad ar mājas skeneri 5Ls var cerēt noskenēt aptuveni šādā kvalitātē (pilns izmērs pieejams, klikšķinot uz attēla).

Šai izšķirtspējā beidzot zem cipara “5” ir saskatāms arī pats teksts, lai arī joprojām – samērā neskaidrs.

Un tagad daži piemēri, kā izskatās teksts zem cipara “5”, skenējot banknoti profesionālajās izšķirtspējās.

400 dpi

600 dpi

800 dpi

1200 dpi

Var uzskatīt, ka jau sākot no izšķirtspējas 600 dpi, skeneris faktiski sāk darboties kā palielināmais stikls vai mikroskops, jo spēj attēlā saskatīt tādas detaļas, ko vidēji labi redzošs cilvēks ar neapbruņotu aci vairs neredz.

Varētu rasties jautājums, kāpēc gan visu neskenēt maksimāli augstākajā izšķirtspējā, kādu skeneris vispār atbalsta? Atbilde ir ļoti vienkārša. Pieaugot izšķirtspējai, strauji pieaug arī failu izmēri. Piemēram, 1200 dpi skenēta 5Ls banknote TIFF formātā aizņem jau 65.8 MB, kas tik neliela izmēra objektam ir ļoti daudz. Bibliotēka tradicionāli šādu attēlu skenētu 600 dpi izšķirtspējā un šai gadījumā iegūtā TIFF faila izmērs ir 16.4 MB.

Teksta atpazīšana

Viens no galvenajiem eksperimenta mērķiem bija pārbaudīt leģendu par mazo burtu atpazīšanu, kam it kā esot nepieciešama vismaz 600 dpi izšķirtspēja.

Realitāte izrādījās daudz skarbāka. Izmantojot jaunāko ABBYY Finereader programmas versiju, tekstu “LATVIJASBANKALATVIJAS BANKA…” neizdevās atpazīt pat uz attēla 1200 dpi izšķirtspējā. Patiesībā tikai pie šīs super-augstās izšķirtspējas Finereader pirmoreiz “noticēja”, ka zīmes zem cipara “5” vispār ir teksts. Lai arī atpazīt pašu tekstu tik un tā nespēja.

Iespējams, šoreiz gan problēma bija visai eksotiskajā situācijā, ka bija nepieciešams atpazīt zaļu tekstu uz balta fona.

P.S.

Kā interesantu blakusefektu šai eksperimentā konstatējām, ka vismaz ar tradicionālajām skenēšanas metodēm netiek ieskenēta un attēlā nesaglabājas tautumeitas ūdenszīme, ko var redzēt banknoti turot pret gaismu. Tātad sknējuma kvalitāti reizēm nosaka ne tikai skenēšanas tehniskie parametri, bet arī skenēšanas metodes.

Periodikas digitalizēšana LNB

Šajās dienās LNB noslēdzas 3 gadu darbs pie jaunās portāla www.periodika.lv versijas. Jaunais periodikas portāls, viennozīmīgi, kļuvis par līdz šim apjomīgāko LNB digitalizācijas projektu. Projekta gaitā ar materiālu atlasi, skenēšanu, pēcapstrādi un portāla izveidi bijuši nodarbināti gandrīz 100 cilvēku: gan pašā LNB, gan piesaistītajās partner-organizācijās.

Līdz jūnija beigām/jūlija sākumam noslēgsies visu digitalizēto materiālu imports jaunajā portālā un tad tajā būs pieejami ~1 000 laikrakstu pilni komplekti un ~7 000 grāmatas.

Lai arī tradicionāli bibliotēkas lasītājiem asociējas ar grāmatām, nacionālo bibliotēku digitalizācijas projektu pamatmērķis un vienlaikus arī izaicinājums ir tieši periodisko izdevumu: avīžu un žurnālu digitalizācija. Šajā rakstā iepazīstināsim ar to, kā notiek laikrakstu digitalizācija LNB.

Visu periodisko izdevumu digitalizāciju var sadalīt četros soļos:

  1. Izdevumu atlase
  2. Skenēšana
  3. Segmentēšana
  4. Portāla izstrāde un izdevumu imports

Turpināt lasīšanu “Periodikas digitalizēšana LNB”

Kā veidot digitalizēto tekstu saskarni?

Nu jau kādu laiku mūsu blogā ir izvietota aptauja par projekta Periodika.lv novērtējumu. 10-baļļu skalā nu jau ir saņemti visi iespējamie vērtējumi no 1 līdz 10 un lai arī mums liels prieks, ka lielākā daļa vērtējumu ir 8 un vairāk, tomēr labi apzināmies, ka projektam ir arī savi trūkumi, kuru dēļ varētu saņemt arī zemāku vērtējumu.

Viens no trūkumiem, ko paši apzināmies, ir meklēšanas mehānisma “ātrdarbība”, ko noteikti varētu uzlabot, bet kādus trūkumus jūs esat novērojuši, meklējot informāciju Periodika.lv lapā? Varbūt ir kāda papildus funkcionalitāte, kas jums noteikti noderētu?

Tuvākajos gados LNB plāno digitalizēt vairāk kā 1 milj. grāmatu lappušu un vairāk kā 2 milj. avīžu lappušu. Līdz ar to lasītājiem digitālā formā pieejamo tekstu apjoms pieaugs 10-kārtīgi. Ņemot vērā gan materiālu apjomu, gan daudzveidību vajadzēs izstrādāt īpašu saskarni digitalizēto tekstu arhīvam. Šobrīd esam izpētes fāzē, noskaidrojot labo praksi lielapjoma teksta arhīvu veidošanā, formātu izvēlē, saskarņu veidošanā. Tā kā galamērķis ir radīt lasītājiem ērtāko iespējamo rīku darbam ar liela apjoma tekstu arhīvu, tad mūs ļoti interesē lasītāju vēlmes.

Pagaidām lielākie digitalizēto tekstu arhīvi internetā (tādi, kuru apjoms ir mērāms vismaz miljonos lappušu) ir:

Lai arī katrs ir pa savam labs, tomēr neviens nav arī perfekts. Piemēram, varētu vēlēties izsmalcinātu tekstu komentēšanas iespēju, iezīmējot daļu no teksta un pievienojot tam savu komentāru. Šādu iespēju varētu izmantot gan skolu, augstskolu pasniedzēji, komentējot mācību literatūras saturu, gan vēstures pētnieki, skaidrojot mūsdienu lasītājiem vēsturisku tekstu interpretācijas, utml.

Bet kādas ir jūsu domas, ieteikumi, komentāri?

Uzdod jautājumu par digitālo bibliotēku!

Digitālās bibliotēkas blogā šad tad uzrakstām par tēmām, kas konkrētajā brīdī šķiet aktuālas un interesantas, bet kādi jautājumi interesē mūsu lasītājus, kolēģus, IT ekspertus?

Piedāvājam uzdot jautājumus par Latvijas Nacionālo digitālo bibliotēku: par stratēģiju, projektiem, saturu, tehniskām niansēm, formātiem, ikdienas darbu, juridiskiem apsvērumiem un citām tēmām!

Jautājumi un atbildes šeit – komentāros.

Vēsturisko tekstu apstrādes rīks

LNB krājumos šobrīd ir ļoti liels daudzums vecās rakstības materiālu: gan periodika, gan grāmatas. Šie materiāli tiek skenēti un ievietoti arī digitālajā bibliotēkā, taču līdz šim bija dažādas tehniskas problēmas ar to apstrādi, sākot jau ar teksta atpazīšanas programmu nespēju strādāt ar latviešu gotikas fontiem. Šo problēmu LNB gan, šķiet, būs atrisinājusi, pasūtot ABBYY izstrādāt speciālu Finereader versiju tieši latviešu valodas gotikai. LNB saņems Finereader versiju, kas ar vismaz 85% precizitāti iegūs no skenētiem attēliem tekstuālu informāciju.

Tiesa, ar saburtošanu vēsturisko tekstu apstrāde nebeidzas, jo jācīnās ar tādām problēmām kā OCR kļūdas, novecojusi ortogrāfija un tekstos lietoti vecvārdi. Par visām šīm problēmām un cīņu pret tām var lasīt LNDB bloga ierakstā “Vecajai drukai – jauna elpa“.

Latvijas Universitātes Matemātikas un Informātikas institūts pēc LNB pasūtījuma izstrādājis latviešu gotikas apstrādes rīka arhitektūru. ” Gotikas analizators” apstrādās Finereader (vai jebkuras citas OCR programmas) iegūto rezultātu: novērsīs OCR kļūdas, cīnīsies ar novecojušo ortogrāfiju un vecvārdiem piemeklēs atbilstošos sinonīmus.

Piemēram, ja OCR programma tekstā būs atpazinusi vārdu “muschka”, Gotikas analizators mēģinās uzminēt, ka varbūt patiesībā tekstā bijis minēts vārds “wuschka”, kam mūsdienu ortogrāfijā atbilst vārds “vuška”, kam, savukārt, atbilst mūsdienu vārds: “aita”. Noindeksējot sākotnējo tekstu ar atpazīšanas rezultātā iegūtajiem vārdiem, tiks panākts efekts, ka tekstu varēs atrast pēc atslēgvārda “aita” pat tad, ja OCR programma tekstā būs atpazinusi vārdu “muschka”.

LU MII izstrādātā Gotikas analizatora demo programmu var apskatīt valoda.ailab.lv/gotika.

Gotikas analizatoru plānots integrēt projektā Periodika.lv un nākotnē arī vēsturisku grāmatu portālā, lai nodrošinātu meklēšanu vecos tekstos.

Vizuālā noformējuma nozīme

Grāmatu, periodikas un citu tekstu saturošu materiālu digitalizācijā, viens no posmiem ir teksta atpazīšana jeb OCR. Rezultātā viss grāmatas teksts tiek iegūts tālāk ērti apstrādājamā XML formātā. Tam var pielietot XSLT transformācijas un citas apstrādes metodes, rezultātā iegūstot glīti noformētu grāmatas tekstu, tikai… vairs ne oriģinālā izskatā.

Piemēram, oriģinālā lapa.

gramatas_lapa

Pēc apstrādes šīs lapas virsraksts nonāktu atsevišķā XML tagā, bet pamatteksts – citā. Pēc tam šo grāmatas tekstu varētu attēlot tīmekļa lapā, veidojot hipersaišu satura rādītājus uz atsevišķām nodaļām, ļaujot samazināt/palielināt tekstu. Ļaujot ērti kopēt interesējošos fragmentus. Vienvārdsakot, ļaujot darīt visu, ko jau nu ar segmentētu tekstu var darīt.

XML dokumentu attēlošanas priekšrocība ir arī relatīvi ekonomiskais izmērs. 100 lappušu biezai grāmatai atbilstošais tekstu saturošais XML dokuments aizņem aptuveni 0.5Mb, kamēr pati grāmata PDF formātā – aptuveni 20Mb.

Bet.. varbūt grāmatas oriģinālajam vizuālajam izpildījumam tomēr ir pietiekami liela nozīme, lai tas atsvērtu aptuveni 40x lielāko datņu izmēru un pārējās neērtības. Cik nozīmīgs jūsu lasīšanas pieredzē ir grāmatas vizuālais noformējums vai jums svarīgāka ir tīrā informācija?