Több millió történelmi képet osztottak meg a Flickr-en
2014/09/08 16:11
902 megtekintés
A cikk már legalább egy éve nem frissült, az akkor még aktuális információk lehet, hogy mára elavultak.

Az Internet Archive Book Images oldalon a látogatók szabadon másolhatják, és díjmentesen használhatják a több mint 500 évet felölelő képek gyűjteményét.

image002

Egy amerikai egyetemi tanár jelenleg is azon dolgozik, hogy egy olyan adatbázist hozzon létre a 12 millió szabadon felhasználható történelmi illusztrációból és fotóból, ahol egyszerűen kereshetnek a képekre a felhasználók.

Kalev Leetaru már 2,6 millió képet töltött fel a Flick-re, amelyekre az automatikus címkézés segítségével lehet rákeresni a rendszerben. A fotókat és a rajzokat több mint 600 millió könyvtári könyvből gyűjtötték össze, és az Internet Archive (https://archive.org/) szervezet szkennelte be.

A képekhez mindeddig nagyon nehéz volt hozzáférni. Kalev Leeatru azt nyilatkozta, hogy a digitalizáláshoz kapcsolódó projektek mindegyike eddig a szövegekre összpontosított, és figyelmen kívül hagyta a képeket. "A könyvtárak eddig csak a könyvek digitalizálásával foglalkoztak, és azokat PDF formátumba mentették vagy szövegeket támogató keresőprogramokba. Azt helyezték középpontba, hogy a könyvek szavak csoportjai. Ez a folyamat megfordítja ezt."

Több mint fél évezredet áttekintve elképesztő látni a teljes képet, hogyan változott az ábrázolásmód az idők folyamán.

image004 Ez a rajz, 1502-re tehető, az egyik legrégebbi a kollekcióban.

image006 (1873)

image008 (1906)

image010 (1912)

"A legtöbb kép, amely a könyvekben benne van, hiányzik a művészeti galériákból- az eredeti példány régen elveszett." A képek 1500 és 1922 közötti időszakba esnek, amikor szerzői jogi korlátozások még nem voltak.

Összefonódó programok

Kalev Leetaru akkor kezdte el ezt a munkát, amikor a kommunikációs technológia témakörében kutatott egy ösztöndíj keretein belül a washingtoni Georgtown Egyetemen, amelyet a Yahoo, a Flickr képmegosztó szolgáltatás tulajdonosa szponzorált.

A cél elérése érdekében Leetaru létrehozott egy saját szoftvert, hogy a könyvek eredeti digitalizált verzióival dolgozzon. Az Internet Archive egy optikai karakterfelismerő (OCR) programot használt arra, hogy elemezze a 600 millió szkennelt oldalt annak érdekében, hogy kereshető szöveggé konvertálja a kép minden szavát.

A folyamat részeként a szoftver felismerte a találatok sorrendjében, hogy az oldal mely része kép.

Leetaru kódja használta azt az információt, hogy visszamenjen az eredeti szkennelt képekhez, és eltávolítsa azokat a területeket, amelyeket az OCR program elutasított, és aztán elmentse azokat egy különálló fájlban, Jpeg formátumú képekként.

A program lemásolta a képtalálatokat és azt a szövegrészt, amely a bekezdésben közvetlenül a kép előtt vagy mögött volt. Majd minden Jpeg-et és a hozzá kapcsolódó szöveget egy új Flickr oldalon osztotta meg, engedélyezve a közösség számára, hogy levadászhassák a képeket a webhely keresőjének segítségével a hatalmas katalógusban.

"Azt gondolom, hogy a legjobb dolog, hogy az emberek egy időutazáson vehetnek részt a képek segítségével."-mondta Leetaru.

"Írja be például a telefon kifejezést, és látni fogja, hogy a kezdeti képek mindegyike üzletember, ráadásul férfiMajd látni fogja, hogyan vált az eszköz a családtagok összekapcsolásának eszközévé."

image012 (1906)

image014 (1906)

image016 (1922) A kép megmutatja, hogyan fejlődött a technológia az évek során

"A vasút esetében is láthat egy fejlődési vonalat. Az első képek az innovációról és a folyamatról szólnak, amelyek majd megváltoztatják a világot, aztán pedig mindez mindennapi élet részévé válik."

Vagy sikerül, vagy nem

A levéltárosokat lenyűgözte ez a projekt. "A képek megtalálása a szövegeken belül és a jelölésük ilyen nagy gyűjteményekben közismerten nehéz."-mondta Dr. Allison Pearn, aki a Cambridge Egyetem vezető levéltárosa és a Darwin Correspondence projekt vezetője."Ez egy nagyon ügyes mód arra, hogy a mennyiség és a kereshetőség is érvényesüljön, és nagyon jó, hogy mindenki számára szabadon hozzáférhető és bárki számára használható."

"A képek azonosítása már olyan manapság, mint a könyvtári bélyegek vagy firkák a margón, és a címkézés: vagy sikerül, vagy nem. De a kutatás egy kicsit mindig is arról szól, hogy értékes dolgokat találjanak, és ki tudja, hogy az emberek majd mit kezdenek vele."

image020 A képek hasznosak lehetnek mind az amatőr mind a hivatásos történészek számára.

Leetaru saját törekvése, hogy jövőre összekapcsolja a projektjét az internet híres enciklopédiájával. "Azt szeretném látni, hogy a Wikipedia, majd felhasználja a képeket a szócikkek illusztrálására."

Mindehhez még hozzátette, hogy azt tervezi, felajánlja a kódot másoknak is, hiszen így bármelyik könyvtár megismételheti ezt a folyamatot. "Remélem, hogy a könyvtárak világszerte alávetik ennek a folyamatnak a digitalizált kiadványaikat, így folyamatosan bővülni fog a képuniverzum."

Forrás.