Egy amerikai egyetemi tanár jelenleg is azon dolgozik, hogy egy olyan adatbázist hozzon létre a 12 millió szabadon felhasználható történelmi illusztrációból és fotóból, ahol egyszerűen kereshetnek a képekre a felhasználók.
Kalev Leetaru már 2,6 millió képet töltött fel a Flick-re, amelyekre az automatikus címkézés segítségével lehet rákeresni a rendszerben. A fotókat és a rajzokat több mint 600 millió könyvtári könyvből gyűjtötték össze, és az Internet Archive (https://archive.org/) szervezet szkennelte be.
A képekhez mindeddig nagyon nehéz volt hozzáférni. Kalev Leeatru azt nyilatkozta, hogy a digitalizáláshoz kapcsolódó projektek mindegyike eddig a szövegekre összpontosított, és figyelmen kívül hagyta a képeket. "A könyvtárak eddig csak a könyvek digitalizálásával foglalkoztak, és azokat PDF formátumba mentették vagy szövegeket támogató keresőprogramokba. Azt helyezték középpontba, hogy a könyvek szavak csoportjai. Ez a folyamat megfordítja ezt."
Több mint fél évezredet áttekintve elképesztő látni a teljes képet, hogyan változott az ábrázolásmód az idők folyamán.
"A legtöbb kép, amely a könyvekben benne van, hiányzik a művészeti galériákból- az eredeti példány régen elveszett." A képek 1500 és 1922 közötti időszakba esnek, amikor szerzői jogi korlátozások még nem voltak.
Összefonódó programok
Kalev Leetaru akkor kezdte el ezt a munkát, amikor a kommunikációs technológia témakörében kutatott egy ösztöndíj keretein belül a washingtoni Georgtown Egyetemen, amelyet a Yahoo, a Flickr képmegosztó szolgáltatás tulajdonosa szponzorált.
A cél elérése érdekében Leetaru létrehozott egy saját szoftvert, hogy a könyvek eredeti digitalizált verzióival dolgozzon. Az Internet Archive egy optikai karakterfelismerő (OCR) programot használt arra, hogy elemezze a 600 millió szkennelt oldalt annak érdekében, hogy kereshető szöveggé konvertálja a kép minden szavát.
A folyamat részeként a szoftver felismerte a találatok sorrendjében, hogy az oldal mely része kép.
Leetaru kódja használta azt az információt, hogy visszamenjen az eredeti szkennelt képekhez, és eltávolítsa azokat a területeket, amelyeket az OCR program elutasított, és aztán elmentse azokat egy különálló fájlban, Jpeg formátumú képekként.
A program lemásolta a képtalálatokat és azt a szövegrészt, amely a bekezdésben közvetlenül a kép előtt vagy mögött volt. Majd minden Jpeg-et és a hozzá kapcsolódó szöveget egy új Flickr oldalon osztotta meg, engedélyezve a közösség számára, hogy levadászhassák a képeket a webhely keresőjének segítségével a hatalmas katalógusban.
"Azt gondolom, hogy a legjobb dolog, hogy az emberek egy időutazáson vehetnek részt a képek segítségével."-mondta Leetaru.
"Írja be például a telefon kifejezést, és látni fogja, hogy a kezdeti képek mindegyike üzletember, ráadásul férfi…Majd látni fogja, hogyan vált az eszköz a családtagok összekapcsolásának eszközévé."
"A vasút esetében is láthat egy fejlődési vonalat. Az első képek az innovációról és a folyamatról szólnak, amelyek majd megváltoztatják a világot, aztán pedig mindez mindennapi élet részévé válik."
Vagy sikerül, vagy nem
A levéltárosokat lenyűgözte ez a projekt. "A képek megtalálása a szövegeken belül és a jelölésük ilyen nagy gyűjteményekben közismerten nehéz."-mondta Dr. Allison Pearn, aki a Cambridge Egyetem vezető levéltárosa és a Darwin Correspondence projekt vezetője."Ez egy nagyon ügyes mód arra, hogy a mennyiség és a kereshetőség is érvényesüljön, és nagyon jó, hogy mindenki számára szabadon hozzáférhető és bárki számára használható."
"A képek azonosítása már olyan manapság, mint a könyvtári bélyegek vagy firkák a margón, és a címkézés: vagy sikerül, vagy nem. De a kutatás egy kicsit mindig is arról szól, hogy értékes dolgokat találjanak, és ki tudja, hogy az emberek majd mit kezdenek vele."
Leetaru saját törekvése, hogy jövőre összekapcsolja a projektjét az internet híres enciklopédiájával. "Azt szeretném látni, hogy a Wikipedia, majd felhasználja a képeket a szócikkek illusztrálására."
Mindehhez még hozzátette, hogy azt tervezi, felajánlja a kódot másoknak is, hiszen így bármelyik könyvtár megismételheti ezt a folyamatot. "Remélem, hogy a könyvtárak világszerte alávetik ennek a folyamatnak a digitalizált kiadványaikat, így folyamatosan bővülni fog a képuniverzum."