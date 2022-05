Když se chtějí výzkumník či novinářka podívat třeba na weby někdejších prezidentských kandidátů, nejspíš budou mít smůlu. Většina jich po konci kampaně mizí. Jejich nedostupnost ale není definitivní. Český internet totiž pravidelně archivuje Národní knihovna. První webovou stránku do tamního Webarchivu uložili v březnu 2001, dnes Národní knihovna na svých serverech skladuje na 440 terabytů dat. Má to ale háček: drtivá většina archivu, třeba zmíněné stránky někdejších uchazečů o prezidentský post, je kvůli autorskému zákonu dostupná pouze z počítačů přímo v sídle knihovny v pražském Klementinu.

„Můžeme sklízet cokoliv, zpřístupňovat mimo budovu Národní knihovny ale nemůžeme téměř nic,“ říká Marie Haškovcová, vedoucí oddělení archivace webu Národní knihovny. Veřejně dostupné jsou pouze stránky, jejichž vydavatel uzavřel s knihovnou licenční smlouvu, případně má svůj web pod licencí Creative Commons. Dohodu má Národní knihovna uzavřenou s 4.400 weby, které vycházejí v češtině nebo se Česka týkají. „Je to méně než půl procenta celého archivu,“ vypočítává Haškovcová. Důvod? Zákon nebere internet jako svébytné médium, ale spíš jako odvozeninu tištěných publikací. „Máme právo archivovat pro archivační a konzervační účely. Konzervační fond je taky dostupný pouze v knihovně,“ vysvětluje vedoucí Webarchivu, proč zájemci o toulky internetovou minulostí musejí vyrážet do Klementina.

Globální archiv je dostupný, ale...

Dostupnost se má zlepšit, ovšem omezeně. Celý Webarchiv by měl být podle novely, kterou minulá sněmovna nestihla schválit, dostupný i z počítačů v krajských knihovnách. Ty totiž mají ze zákona nárok na zasílání povinných výtisků periodik. Pravidla by tak i v případě přijetí novely zůstala spíš z doby analogové a větší změny na obzoru podle Haškovcové nejsou: „V Evropě je regulace přísná plošně, byť s nuancemi. Třeba v Dánsku mají archivní data dostupná k vědeckým účelům, nemohou je ale vůbec poskytovat veřejnosti.“

V praxi se tak hypotetický výzkumník či novinářka obrací nejčastěji na celosvětový Internet Archive, projekt americké neziskové organizace, která weby ukládá od roku 1996. „V Internet Archive je všechno veřejně dostupné, dokud se někdo neohradí. Když si vydavatel zpřístupnění nepřeje, bez odkladu archivní kopie stáhnou,“ popisuje Haškovcová.

V Česku se to má obráceně. Lidé musejí kvůli archivu do knihovny, nikdo ale nemá právo, aby knihovna jeho web neukládala a v Klementinu nezobrazovala. „Záleželo by případ od případu, nemusíme ale vyhovět,“ komentuje Haškovcová potenciální požadavky na odstranění webu z archivu. Existují proto weby, které v českém archivu zůstávají, i když z globálního už zmizely. Celosvětová databáze navíc ze své podstaty není při vybírání českých portálů tak pečlivá.

Webarchiv a velká data Webarchiv chystá –⁠ vedle klasického vyhledávání skrze URL –⁠ také nové rozhraní pro vytěžování velkých dat. Bude určené hlavně pro badatele, kteří budou moci získat datové sady podle svých požadavků. „Může jít třeba o analýzu sentimentu textu stránek v rámci tematické kolekce Covid-19 v kombinaci s další kategorizací - typ stránek, blízkost slov, časové ohraničení, síťová analýza závislostí mezi weby. To může poskytnout podklad vědcům pro další analýzy související s proměnami chování a nálad veřejnosti, komunit, institucí či mediálního obrazu,“ popisuje Haškovcová. Na projektu se podílí Západočeská univerzita v Plzni a Sociologický ústav Akademie věd České republiky.

Knihovna sklízí i tweety novinářů

Tým Národní knihovny, který čítá tři kurátory, jednoho datového analytika a jednoho technika, má tři strategie pro sklízení webu. První z nich je celoplošná sklizeň, která stojí na seznamu víc než 1,4 milionu domén .cz, jejichž přehled poskytuje tuzemský správce CZ.NIC. Sklizeň probíhá jednou až dvakrát ročně. Častěji a detailněji sklízí software nazvaný Heritrix stránky, které jsou součástí některého z katalogů, kde jsou rozřazeny podle různých oborů. Nemusí přitom mít doménu .cz, stačí takzvaný bohemikální charakter (viz box).

Čtyři kritéria pro výběr stránek území – vydané na území dnešní České republiky (územní bohemikum)

– vydané na území dnešní České republiky (územní bohemikum) autorství – napsané autory původem Česka (autorské bohemikum)

– napsané autory původem Česka (autorské bohemikum) jazyk – napsané v českém jazyce (jazykové bohemikum)

– napsané v českém jazyce (jazykové bohemikum) předmět/obsah – pojednávající o České republice (obsahové bohemikum) Zdroj: Webarchiv.cz

Třetí sklizeň je tematická, a stojí víc na ruční práci. Sbírky zachycují internet v době výjimečných událostí, jako bylo úmrtí Václava Havla, či očekávaných událostí typu prezidentských voleb v roce 2018. U některých tematických sbírek, typicky v případě kolonky česká média, archivace probíhá i několikrát denně, archiv tak zachycuje, jak se mění titulky nebo celé texty. Kurátoři také postupně vytvářejí zvláštní kolekce, jako jsou ty vyhynulých webů či třeba stránek věnovaných fantasy hře Dračí doupě.

Částečně manuálně začala knihovna sklízet i obsah na sociálních sítích. „Sociální sítě jdou strojově sklízet špatně. Nemůžete sklidit celý twitterový účet. Když budete scrollovat i svou historií, v určitý moment se to prostě zasekne a nepustí vás to dál,“ popisuje Luboš Svoboda, jeden z kurátorů, který se podílel i na stávající grafické podobě Webarchivu. „Dělám měsíční sklizně, kde mě zajímají novináři, politici, lidi spojení s veřejným životem. Archivoval jsem třeba profily poslanců minulé sněmovny. Deset z nich hned po volbách zmizelo, nám se ale jejich profily podařilo částečně zachovat,“ říká Svoboda.

Čtvrtina odkazů umírá

Svoboda vidí zjednodušeně řečeno dvě využití tuzemského Webarchivu. O prvním z nich padla zmínka už na začátku: jednotlivec se chce kvůli své práci či zvědavosti podívat, co na webu dříve bylo, autor to ale skryl nebo mu třeba vypršela registrace domény. „Člověk porovnává, co se změnilo, když někdo zakrývá svou stopu,“ říká Svoboda. Sám ale zdůrazňuje hlavně druhý rozměr. „Vytváříme dataset národního digitálního dědictví. Velký, bohatý, důležitý. Sbíráme informace, které se už nikdy v budoucnu nebudou moci dát sklidit. Existuje předpoklad, že odkaz tady bude vždy. Není ale efemérnější médium,“ vysvětluje kurátor.

Na prchavost webu ukazuje například výzkum, podle něhož čtvrtina odkazů obsažených v článcích New York Times vydaných mezi lety 1996 a 2019 už není dostupná. Úmrtnost se nepřekvapivě zvyšovala v čase. V článcích z roku 2018 bylo nedostupných 6 % odkazů, které směřovaly za hranice webu Timesů, v textech z roku 2008 pak 43 % a z roku 1998 už 72 %. Ze všech článků, které obsahovaly hypertextový odkaz, měla aspoň jeden link nedostupný víc než polovina z nich. „Přišlo by mi super, kdyby se Webarchiv objevil v citačních normách. Když člověk píše diplomovou práci, cituje elektronický zdroj, rovnou by adresu nechal archivovat. Web by tak byl vždy dostupný,“ uzavírá Svoboda.