Archiv JSTOR

JSTOR je zkratka za Journal Storage. Ještě delší název je The Scholarly Journal Archive. Jedná se o název projektu a současně o neziskovou organizaci založenou v roce 1995 s podporou Mellon Foundation. Cílem projektu je mimo jiné vybudovat obsáhlý a spolehlivý archiv vědeckých časopisů a podstatně zlepšit přístup k jejich digitální podobě v podstatě pro kohokoliv. Mezi vedlejší cíle patří vyplnit mezery, které mnoho knihoven má, pokud jde o sbírky vědeckých časopisů, pokusit se o vyřešení problému dlouhodobého uchovávání původní podoby výtisků, progresivně snižovat náklady knihoven související s pořizováním a udržováním papírových kopií časopisů, ukázat cestu vědeckým institucím a vydavatelům, jak přecházet také k elektronickému publikování a konečně sledovat dopady snadného přístupu k digitální formě věděckého tištěného materiálu. Vznik JSTORu byl podnícen řadou faktorů, z nichž většina má společného jmenovatele --- rostoucí tlak na knihovny hraničící s bojem za přežití. Nejen že se stále zdražují předplatné vědeckých časopisů, což z důvodu udržování kontinuity archivu snižuje možnost knihoven nakupovat knihy nebo monografie, ale současně se snižují nebo v lepším případě nezvyšují rozpočty knihoven. K tomu připočítejme nechuť vydavatelství masivně přecházet na elektronické publikování a vysoké ceny za digitální podobu časopisů, pokud už někdo tímto způsobem publikuje, nedostatek fyzického místa pro více a více ročníků a vzrůstající nároky na knihovny i ze strany čtenářů. Od knihoven se jednoduše očekává, že budou mít všechny relevantní informace k dispozici, že nebudou žadonit za neustálé zvyšování rozpočtů a že si sami vybudují infrastrukturu pro poskytování informací. V leckterých případech ale tyto požadavky není možné plnit. JSTOR se snaží prostřednictvím digitálních technologií ulevit knihovnám alespoň od jedné starosti a současně ukázat, jak efektivní může digitální knihovna být.

Průzkum americké Komise pro dlouhodobé uchovávání dat navíc ukázal, že v podstatě nárazový přechod od papírových knih a časopisů na elektronické by prakticky žádnou knihovnu nevyšel levněji, spíše by je to vyvedlo z jedné slepé uličky do jiné. Řešení JSTORu leží v masivním sběru tištěného materiálu a jeho digitalizaci. Existuje pro to speciální pracoviště v Michiganu, kam se všechny časopisy svážejí, konvertují a zálohují. Pokud jde o financování tohoto projektu, JSTOR přešel z první fáze, která byla hrazena z grantu, na poměrně unikátní samofinancující systém, kdy se jak poskytovatelé, tak odebíratelé obsahu digitální knihovny finančně podílejí na krytí nákladů spojených z provozem. Finanční model je nastaven tak, aby umožnil přístup k archivu co největšímu počtu účastníků, a neřídí se striktně tržními pravidly. Spočívá ve vytvoření férových a přitom ohleduplných podmínek, které přilákají i chudší instituce. Financování samo je řešeno formou vstupního a potom ročních poplatků. Podstatné ovšem je, že tyto poplatky nejsou pro každého účastníka stejné. Cena pro konkrétní instituci se stanovuje na základě její velikosti, rozpočtu a vědeckých výsledků podle Carnegieho klasifikace vzdělávacích institucí. Na druhou stranu ti, co platí méně, nemají přístup k celému archivu, ale jen k některé kolekci, viz dále. Tímto způsobem prakticky všechny participující strany ušetří nemalé prostředky, než kdyby se o svůj archiv staraly samy a JSTOR může dále existovat a rozvíjet se bez pomoci sponzorských darů nebo grantů.

V současnosti už JSTOR obsahuje 457 sbírek časopisů, což je 112160 digitalizovaných výtisků nebo také 2700979 článků všeho druhu. Většina časopisů je pokryta od svého prvního čísla a prvního ročníku, který se v některých případech datuje až do počátku 17. století. JSTOR svými časopisy pokrývá již 37 různých věděckých disciplín, od ekonomiky, ekologie a sociálních věd, přes jazykovědu, literaturu a hudbu, až po matematiku a statistiku. Pro odběratele, kterými jsou většinou knihovny a vzdělávací instituce, jsou časopisy rozděleny do tématických kolekcí majících povahu nabízených produktových balíků. Kolekcí v současnosti existuje 11, z čehož pět je multidisciplinárních a obsahují každá více než sto sbírek časopisů. Zbývající kolekce jsou menší a specializované, tak aby si každá instituce mohla zvolit, co bude odebírat, podle svého zaměření a svých finančních možností. Časopisy jsou do archivu vybírány především podle svého renomé, délky existence a počtu použitých citací. Rozšiřování archivu o nová čísla se řídí individuálními smlouvami s jednotlivými vydavatelstvími, ale jako základní koncept se používá tzv. pohyblivé okno, což je doba, která musí uplynout od oficiálního vydání daného čísla, než je možné toto číslo zařadit do archivu časopisů. Současně se zařazením nového časopisu do archivu někdy nastane problém sehnat všechna jeho čísla z minulosti. V takovém případě jsou participující i externí subjekty vyzívány k poskytnutí papírové kopie, pokud je mají nebo je mohou sehnat.

Jako výměnný formát pro samotné digitalizované časopisy byl v JSTORu zvolen vícestránkový TIFF. Důvodů pro to je hned několik. Jednak jde o zachování původní podoby časopisu takříkajíc "se vším všudy", tedy i s typografickou podobou a jinými netextovými informacemi. Časopis je tímto způsobem věrně replikován do elektronické podoby. Další důvody zahrnují šetření nákladů, které by byly spojeny s převodem obrázků, grafů a tabulek do jiného uniformního formátu a také manuální opravy chyb, které vzniknou při automatickém rozpoznávání znaků (OCR). To ovšem neznamená, že by se OCR neprovádělo. Jeho uváděná přesnost na pracovištích JSTORu je kolem 97%, což je pro potřeby čtenářů málo, jelikož to zhruba znamená jednu až dvě chyby na stránku. Pro potřeby plnotextového vyhledávání je ale tato přesnost více než dostačující. Takže i když jsou samotné stránky časopisů uloženy jako obrázky ve vysokém rozlišení, pod nimi leží vrstva textu, přes kterou se provádí jak vyhledávání v metadatech, tak v obsahu časopisů.

JSTOR se v současnosti neomezuje výhradně na zpracování tištěných časopisů a rozšiřování stávajících kolekcí. Vzhledem k tomu, že se více a více vědeckých prací publikuje výhradně elektronicky nebo je pod svým ISSN dostupná jen v digitální podobě, začíná vznikat potřeba rozšířit archiv o tyto tzv. born-digital články. Proto v JSTORu vznikla divize EAI (Electronic-Archiving Initiative), která má za cíl zmonitorovat tuto oblast a ve spolupráci s nakladateli, knihovníky a vědeckými institucemi navrhnout funkční infrastrukturu pro sběr, skladování a zpřístupňování materiálu, který vzniká a je publikován pouze digitálně a také navrhnout obchodní model, který by tento projekt "usamofinancoval". Mnoho institucí již nabídlo své články v elektronické podobě pro testovací běh. JSTOR se tedy v tomto projektu nespoléhá jen na své know-how, ale hodlá čerpat z projektů, které se již v této oblasti nějakým způsobem prosadily. Patří mezi ně E-Journal Archiving Program, D-Space, LOCKSS nebo NDIIPP Kongresové knihovny.

Pokud jde o implementovanou podobu portálu na adrese www.jstor.org, přes který se uživatel k časopisům dostává, tak tato plně odpovídá požadavkům pro přehledný a vizuálně funkční přístup k archivu. Samozřejmostí je možnost prohlížení archivu v abecedním seznamu nebo podle vědeckého zaměření a hledání v metadatech a textu podle klíčových slov. Mezi další funkce patří možnost stahování časopisů ve formátech TIFF, PDF nebo PostScript, ukládání citací, možnost tisku a konfigurace osobních předvoleb, jakými jsou například formát pro tisk, velikost pro zobrazované obrázky nebo nastavení znakové sady pro vyhledávání dokumentů v jiných jazycích.

Celkově je možné konstatovat, že JSTOR patří k těm nejúspěšnějším projektům v oblasti digitálních knihoven, ať už jde o obsah, provedení nebo management. O tom mimojiné svědčí téměř 151 miliónů kumulovaných přístupů k archivu za uplynulý rok.

Tomáš Čapek, 3.ročník, 13. ledna 2005