Olive Software un vēsturiskās avīzes

Latvijas Nacionālā bibliotēka (LNB) uzsākusi sadarbību ar ASV, Lielbritānijā un Izraēlā bāzēto organizāciju – Olive Software, lai veiktu vēsturisko avīžu apstrādi: rakstu segmentāciju un teksta atpazīšanu. Tieši vēsturiskās avīzes šobrīd sastāda lielāko LNB Digitālās bibliotēkas daļu. Pašlaik digitalizētās avīzes publicētas kā vairāklapu PDF dokumenti, kuri veidoti apvienojot vairākas ieskenētas lapas attēlu formā. Apskatot pašreizējo digitalizēto avīžu kolekciju, lasītāji var pārlūkot avīzes pēc izdošanas vietas, avīzes nosaukuma un konkrēta numura, taču nav iespējams veikt pat vienkāršu teksta meklēšanu avīžu tekstos.

picture-2.jpg

Olive Software jau ir vairāku gadu pieredze apstrādājot gan vēsturisku, gan mūsdienu laikrakstu tekstus. Olive Software programmatūru izmantojušas gan Britu bibliotēka, gan Izraēlas Nacionālā bibliotēka, gan bibliotēkas Šveicē un ASV. Olive Software programmatūru izmanto arī tādi lieli izdevumi kā Times, The Financial Times, u.c. Pēc Olive Software veiktās apstrādes vēsturiskās avīzes iegūs “otro elpu”:

  • Avīžu teksts tiks automātiski segmentēts slejās un rakstos. Pie tam, ja raksts būs uzsākts vienā lapā un pabeigts citā, tad Olive Software risinājums automātiski savienos sadalīto rakstu vienotā tekstā.
  • Būs iespējams veikt atslēgvārdu meklēšanu tekstā. Olive Software risinājums spēj apvienot arī vārdu pārnesumus rindas beigās, kas avīzēs ar šaurām slejām ir īpaši izplatīta parādība.
  • Lasītāji varēs iegūt avīžu rakstus parastā teksta formātā, saglabāt savā datorā, nosūtīt draugam, utml.

Plānots, ka pirmie rezultāti līdz lasītājiem nonāks šī gada vasarā, kad ar Olive Software programmatūru būs apstrādāta pirmā ~300 000 lapu lielā kolekcija. Pirmajā fāzē ir plānots darboties tikai ar tā sauktās jaunās drukas avīzēm (20. gs. 30-tie, 40-tie gadi), bet gada nogalē tiks uzsākts darbs arī pie vecās drukas avīžu apstrādes. Līdz sadarbības projekta noslēgumam plānots apstrādāt vismaz miljons avīžu lapu.

Kamēr Latvijas vēsturiskās avīzes vēl tikai tiek apstrādātas, var apskatīt dažas Olive Software produktu demo lapas. Vēsturiskajām avīzēm tiks izmantots tieši ActivePaper Archive, bet interesanti ir arī pārējie produkti.

8 Responses to Olive Software un vēsturiskās avīzes

  1. Paskatījos demo. Smuki. Patika, ka nav nepieciešami nekādas papildus instalācijas pārlūkā. Vienīgais, kad rakstam izvēlas to PDF formā, tad tiek atrādīta (ielādēta) visa avīze, nevis konkrētais raksts.

    Vēl jautājums – vair arī plānojat izmantot to “Contents of table” – respektīvi skanējot avīze tiek sadalīta pa konkrētām tēmām?

    No mīnusiem – nepatīk, ka visur tiek izmantoti popup logi, bet to var paciest :)

  2. Gunta says:

    Jāni, LNB strādā pie ActivePaper Archive saskarnes uzlabošanas, gala versijā popup logiem nevajadzētu būt.

  3. Austrumvējš says:

    Izskatās un izklausās labi…

  4. [...] būtu kaut vai vienkārša atslēgvārdu meklēšanas funkcija, ko arī plānojam ieviest līdz ar Olive Software sadarbības projektu šī gada [...]

Atstāj atbildi

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Mainīt )

Twitter picture

You are commenting using your Twitter account. Log Out / Mainīt )

Facebook photo

You are commenting using your Facebook account. Log Out / Mainīt )

Connecting to %s

Follow

Get every new post delivered to your Inbox.