Skenēšanas eksperiments “5Ls”

Veicot dokumentu, grāmatu, attēlu, karšu un citu materiālu skenēšanu, viens no svarīgākajiem digitalizēšanas kvalitātes parametriem ir skenēšanas optiskā izšķirtspēja, kas tiek mērīta punktos uz collu jeb dpi (dots per inch).

Skenējuma izšķirtspēja ietekmē ne tikai to, cik smalkas detaļas būs iespējams saskatīt iegūtajā attēlā, bet arī to, cik kvalitatīvi varēs veikt tālāku attēla apstrādi, piemēram, automātisko teksta atpazīšanu (OCR). Bibliotēku vidē, kā tradicionālas skenējumu izšķirtspējas jau ir nostabilizējušās 400 dpi tekstuāliem materiāliem un 600 dpi – attēliem. Šādas skenējuma izšķirtspēju vērtības ir atzītas kā optimālas gan teksta atpazīšanai, gan attēlu ar sīkām detaļām digitalizēšanai. Bet ko patiesībā nozīmē skenējuma izšķirtspēja un kādu efektu tā dod iegūtajos attēlos?

Eksperiments

Nolēmām veikt nelielu eksperimentu ar 5 Ls banknoti. Ieskenēt to dažādās izšķirtspējas (sākot no 72 dpi līdz 1200 dpi) un paskatīties, kas sanāk.

Naudas banknotes ir īpaši pateicīgas šādiem eksperimentiem, jo satur gan tekstuālu informāciju, gan attēlus, gan rokrakstus, gan ūdenszīmes. Uz banknotēm ir arī vieni no mazākā izmēra burtiem, kas vispār jebkur praksē tiek lietoti. Eksistē leģenda, ka lai varētu veikt automātisko teksta atpazīšanu mazākā izmēra uz banknotēm esošajiem burtiem, tās nepieciešams skenēt vismaz 600 dpi izšķirtspējā.

Skenēt attēlu 72 dpi izšķirtspējā, vienkāršoti izsakoties, nozīmē, ka skeneris uz katru attēla collu jeb uz katriem 2,54cm iegūs informāciju par 72 punktiem. Viegli izrēķināt, ka tādejādi attēls tiks sadalīts 0.35 x 0.35 mm lielos pikseļos un katrs tāds pikselis būs vienā krāsā. Lai arī 0.35 mm pirmajā brīdī varētu šķist gana mazs izmērs, tomēr izrādās, ka cilvēka acs darbojas ar relatīvi augstu izšķirtspēju un attēli ar 0.35 x 0.35 mm lieliem pikseļiem izskatās nepārprotami graudaini.

Lūk kā izskatās “5 Ls” banknote, kas skenēta 72 dpi izšķirtspējā.

Patiesībā, protams, jāņem vērā arī attālums no kāda šāds attēls tiek aplūkots. Atrodoties 3 metru attālumā no ekrāna, droši vien, pat 72 dpi kvalitātē ieskenēts attēls izskatīsies nevainojami. Slikto skenējuma kvalitāti tā pa īstam var novērtēt tikai digitāli pietuvinot attēlu un aplūkojot detaļas.

Tātad tā pati banknote, 72 dpi izšķirtspējā.

Skatoties uz šo konkrēto attēlu, droši vien grūti iztēloties, ka zem lielā cipara “5” uz zaļā fona patiesībā ir teksts (kāds tieši, skatīt zemāk).

Attēla izšķirtspēja – 72 dpi tiek uzskatīta par nepieklājīgi mazu pat tīri informatīvai izvietošanai internetā. Tiesa, viena priekšrocība tik mazai skenējuma izšķirtspējai tomēr ir – iegūtais fails sanāk ļoti maza izmēra. Piemēram, 5Ls banknotes attēls pavisam “netaupīgajā”, bezzudumu TIFF formātā aizņem vien ~264 KB.

Skenējot 5 Ls banknoti 150dpi, tā izskatās jau “asāka”.

Taču teksts zem cipara “5” joprojām nav salasāms.

Lielai daļai parasto biroja jeb mājas skeneru augstākā pieejamā optiskā izšķirtspēja ir 300 dpi. Tālāk jau sākas, nosacīti, profesionālās izšķirtspējas. Tātad ar mājas skeneri 5Ls var cerēt noskenēt aptuveni šādā kvalitātē (pilns izmērs pieejams, klikšķinot uz attēla).

Šai izšķirtspējā beidzot zem cipara “5” ir saskatāms arī pats teksts, lai arī joprojām – samērā neskaidrs.

Un tagad daži piemēri, kā izskatās teksts zem cipara “5”, skenējot banknoti profesionālajās izšķirtspējās.

400 dpi

600 dpi

800 dpi

1200 dpi

Var uzskatīt, ka jau sākot no izšķirtspējas 600 dpi, skeneris faktiski sāk darboties kā palielināmais stikls vai mikroskops, jo spēj attēlā saskatīt tādas detaļas, ko vidēji labi redzošs cilvēks ar neapbruņotu aci vairs neredz.

Varētu rasties jautājums, kāpēc gan visu neskenēt maksimāli augstākajā izšķirtspējā, kādu skeneris vispār atbalsta? Atbilde ir ļoti vienkārša. Pieaugot izšķirtspējai, strauji pieaug arī failu izmēri. Piemēram, 1200 dpi skenēta 5Ls banknote TIFF formātā aizņem jau 65.8 MB, kas tik neliela izmēra objektam ir ļoti daudz. Bibliotēka tradicionāli šādu attēlu skenētu 600 dpi izšķirtspējā un šai gadījumā iegūtā TIFF faila izmērs ir 16.4 MB.

Teksta atpazīšana

Viens no galvenajiem eksperimenta mērķiem bija pārbaudīt leģendu par mazo burtu atpazīšanu, kam it kā esot nepieciešama vismaz 600 dpi izšķirtspēja.

Realitāte izrādījās daudz skarbāka. Izmantojot jaunāko ABBYY Finereader programmas versiju, tekstu “LATVIJASBANKALATVIJAS BANKA…” neizdevās atpazīt pat uz attēla 1200 dpi izšķirtspējā. Patiesībā tikai pie šīs super-augstās izšķirtspējas Finereader pirmoreiz “noticēja”, ka zīmes zem cipara “5” vispār ir teksts. Lai arī atpazīt pašu tekstu tik un tā nespēja.

Iespējams, šoreiz gan problēma bija visai eksotiskajā situācijā, ka bija nepieciešams atpazīt zaļu tekstu uz balta fona.

P.S.

Kā interesantu blakusefektu šai eksperimentā konstatējām, ka vismaz ar tradicionālajām skenēšanas metodēm netiek ieskenēta un attēlā nesaglabājas tautumeitas ūdenszīme, ko var redzēt banknoti turot pret gaismu. Tātad sknējuma kvalitāti reizēm nosaka ne tikai skenēšanas tehniskie parametri, bet arī skenēšanas metodes.