Kompresní formát DjVu
www.djvuzone.org
Charakteristika
DjVu je nová kompresní technologie, která umožňuje velmi dobrou kompresi obrazových dat. Je založena na vlnkové kompresi dovolující lepší poměr mezi kvalitou a velikostí souborů než jiné technologie použité ve formátech GIF a JPG. Na trh s ní přišla firma Lizardtech ve spolupráci s AT&T. Díky svým výhodám umožňuje ukládání naskenovaných dokumentů a obrázků ve velkých rozlišeních a jejich distribuci přes internet. DjVu poskytuje prostředky k skenování katalogů, manuálů, barevných stránek z knih, novin atd. Je proto vhodných formátem pro tvorbu digitálních knihoven obsahujících naskenované dokumenty.
Stav
V současné době je produkt už poměrně rozšířen. Na webové stránce projektu je mnoho odkazů na projekty, které formát využívají. Na síti existují komerční, ale i volné prohlížeče a Plutony do webových prohlížečů. Formát je již kompletně implementován a jde pouze o to ho dostatečně rozšířit mezi komunitu. DjVu není úplně volně šířitelný, firma prodává komerční produkt, který obsahuje programové vybavení schopné s ním pracovat.
Cíle projektu
Spektrum využití je opravdu široké. Lze ho použít skoro všude, kde se vyskytuje digitální fotografie nebo digitalizované texty. Vědecké články, obrazové katalogy, reporty nebo elektronické knihy těží z výhod tohoto formátu. Běžně využívané formáty jako PDF, JPG a GIF poskytují také dobré vlastnosti, ale DjVu je předčí svýma vlastnostmi, především velikostí a tím snadnou přenositelností. Pro převod dokumentů z rozličných formátů existuje všemožné konvertory. Firma zákazníkům, v rámci programů, které dodává s tímto formátem, slibuje:
vysokou kvalitu získaných obrázků
snížení nákladů na místa pro ukládání dokumentů
snížení přenosu po síti
podporu barevného skenování
podporu pro více než 100 jazyků u OCR
podporu vyhledávání v textu
typický barevný dokument velikosti A4 zabere kolem 50kB
DjVu v sobě kombinuje výhody algoritmů směřujících ke snížení velikosti a zachování kvality obrázků a dokumentů. Je vhodný i pro slabé počítače. Pomocí jedinečné dekomprese potřebuje pouze zlomek paměti nutné k zobrazení jiných formátů. Běžné prohlížeče obrázků pracují tak, že si do paměti nejdříve dekomprimují celý obrázek, který následně zobrazují. Pokud se zobrazuje celý, jiné možnosti není, ale v případě zobrazení jen části je toto zbytečné a paměť je nevhodně využita. DjVu místo toho drží v paměti pouze komprimovaný kód obrázku a podle potřeby ho dekomprimuje a zobrazuje. Podle autorů si lze prohlížet i obrázek s rozměry 4000 x 4000 bodů na velmi slabém počítači. Další výhodou je podpora progresivního zobrazování. Tato metoda známá z JPG dovoluje rychle získat první verzi obrázku a ten pak postupně zlepšovat. První verze je stáhnuta během několika sekund a následně se po chvilce obrázek stáhne celý a zobrazí se v plné kvalitě. Hlavním vylepšením je podpora rozdělení obrázku na popředí a pozadí. Ostatní kompresory pracují tak, obrázek je pouze v jedné hladině a ta je komprimována. U fotografií je to výhoda, protože při snížení kvality dojde k rozmazání, což u fotografií není tak vidět. Naopak u naskenovaného textu není rozmazání přípustné a při použití například JPG dojde ke ztrátě ostrosti. DjVu dokáže text od pozadí oddělit. Pro text se použije méně ztrátová komprese a pro pozadí ztrátová vlnková komprese.
DjVu využívá tří kompresních formátů: DjVuText, DjVuPhoto, DjVuLayered. Každý z nich je uzpůsoben pro konkrétní použití, tak aby výsledek byl co nejlepší.
DjVuText - označovaný jako JB2, slouží k ukládání textu. Je určen především pro černobílé dokumenty nebo dokumenty obsahující text s malým počet barev a jednoduché elementy. Formát využívá podobnosti mezi objekty, které se v dokumentu vyskytují. Jsou to především písmena.Typická stránka má velikost 5-20 kB.
DjVuPhoto - označovaný jako IW44. Jedná se o progresivní formát určený k ukládání barevných a černobílých obrázků. Algoritmus je založen na vlnkové kompresi. Výhodou oproti JPG je přibližně poloviční velikost při zachování kvality, progresivní vykreslování a přibližování, které umožňuje zobrazení velkých obrázků i na slabších strojích.
DjVuLayered - DjVu formát. Slouží ke kompresi dokumentů, které obsahují jak text, tak i obrázky a pozadí. DjVu získává dobrý kompresní poměr díky technologii rozdělení dokumentu do více hladin. Pozadí, které obsahuje obrázek se komprimuje pomocí DjVuPhoto, zatímco na hladinu, ve které je text a jednoduché obrazce, se použije DjVuText. Hladina s textem se udržuje v nejlepší kvalitě, aby nedošlo k rozmazání písmem a pozadí se zpracuje s vyšší ztrátou, protože u obrázků není zhoršení kvality tak poznatelné. Díky tomuto postupu je možné snížit velikost jedné barevné stránky na 40 - 100 kB.
V rámci projektu DjVu je vytvořena digitální knihovna. Zde najdeme škálu dokumentů různých využití od Gutenbergovy bible, přes komiksy, finanční dokumenty, vědecké dokumenty až k zápiskům Thomase Jeffersona. Rozsah a škála naznačuje, že jde spíše o prezentaci formátu než o knihovnu zabývající se nějakým konkrétním tématem. Všechny tyto dokumenty jsou samozřejmě uloženy v DjVu.
Zamyslet se na použitím DjVu bychom se měli když řešíme otázku, jak uložit obrázky s velkým rozlišením nebo pokud dokument obsahuje mix textu a obrázků. To je časté při tvorbě různých reklamních prezentací a letáků. Dále je vhodné ho použít když chceme vytvořit vícestránkový dokument.
Moje zhodnocení
Projekt na vytvoření kompresního formátu s dobrými vlastnostmi je zajímavý nápad. Pomocí vlnkové komprese se dá ušetřit na velikosti souborů mnoho místa při zachování kvality. Formát také podporuje další chytré funkce a možnosti jeho použití jsou opravdu široké. Je jenom škoda, že se tento formát zatím nerozšířil jako doplněk GIF a JPG u webových stránek, surfaři by to určitě ocenili. Zabraňuje tomu jeho částečně komerční povaha a to, že není součásti nejpoužívanějších prohlížečů. I když jsou přenosové rychlosti čím dál rychlejší, stále existuje hodně uživatelů , kteří používají telefonní linky a snížení síťového provozu by ocenili. Jako formát pro digitální knihovny, archívy, katalogy se však osvědčil a mnoho společností ho používá, takže se osvědčil. Webové stránky jsou pěkně udělány a lze z nich zjistit množství informací o projektu, jeho výhodách i o projektech realizovaných s použitím tohoto formátu. Dokonce ho používá i národní knihovna České Republiky k přístupu ke své sbírce arabských rukopisů. V případě, že bych dělal nějaké projekt, ve kterém by se možnosti DjVu využili, rozhodně bych o něm uvažoval.
Webové stránky k tématu:
--> http://www.lizardtech.com/solutions/doc/
- stránky společnosti Lizardtech
--> http://www.djvuzone.org
- domovská stránka projektu
--> www.djvu-editions.com/
- databáze knih ve formátu djVu
--> http://www.netlibrary.net
- databáze e-knih na internetu přes 60000 kusů
--> digit.nkp.cz/knihcin/projekty/Digit/DjVu-help-cz.html
- stránka české národní knihovny, kde je popsán formát
--> www.djvuzone.org/djvu/photos/jpgvsdjvu01/index.html
- srovnání fotografií v JPG a DjVu, DjVu zde s náskokem vítězí
--> projekt ve formátu *.doc
--> Oficiální stránka předmětu
--> Jan Duda