Množství stažených dat - to je poměrně dost komplikované téma. Data se stahují tehdy, když se načítá stránka. Tedy - přepnu se na stránku a vidím, jak se postupně objevuje obrázek. V tomto okamžiku tečou data ze serveru na můj PC. Když pak stránka třeba půl hodiny leží na obrazovce, nečte se nic. Když dělám printscreen, nečte se už nic. I když dám příkaz uložit obrázek, jen se uloží to, co je u mě na PC a ze serveru už neteče nic. Přece jen je v tom ale malý háček: Ve staré verzi AP to bylo tak, že když jsem si zobrazil nějaký sken, vždycky se načetl okamžitě v plném rozlišení = stáhlo se ze serveru třeba 1,5 MB. Teď v nové verzi je to jinak. Každý sken je na serveru uložený v několika rozlišeních a každý ten snímek je rozstříhaný na čtverečky (nevím přesně, jak to funguje, je možné, že uložený je u nich jen snímek v maximálním rozlišení a to menší rozlišení a čtverečky se vyrábí on-line podle potřeby). Takže - když si zobrazím stránku a vidím ji celou (v malém rozlišení) stáhne se pár desítek kB. Když začnu sken zvětšovat, stuhují se čtverečky s vyšším rozlišením, ale jen ty, které se aktuálně zobrazují. Když pak obrázkem posouvám po obrazovce, dočítají se ty čtverečky, které jsou aktuálně potřeba. Má to tu výhodu, že je potřebný výřez obrázku v potřebném rozlišení načtený výrazně rychlej, něž kdyby se měl hned na začátku stáhnout v plné palbě. A taky - když bych listoval jen v náhledech, bude se na jeden snímek stahovat malé množství dat. Když si zobrazím detailně jen část snímku, stáhne se jen malé množství dat. Na druhou stranu - když budu snímek různě zvětšovat a zmenšovat a v různých zvětšeních posouvat po obrazovce, může se stát, že se na ten snímek ve výsledku stáhne větší množství dat, než má snímek sám v plném rozlišení (musím stáhnout snímek několikrát v různých velikostech).
A do toho ještě vstupuje další pomoc ze strany prohlížeče, že si do cahce (vyrovnávací paměť) ukládá vše, co postahoval. Takže když si prohlídnu stránku, stáhnou se ze serveru data. Přejdu na další, stáhnou se ze serveru data. Vrátím se zpět, data se mi načtou z cache v mém PC - ze serveru se stahují jen nějaké drobnosti. Takže něco přiteče znovu, ale je to řádově míň, než ty obrázky.
Uživatel netuší, jak je obrázek velký, netuší, kolik dat se na obrázek stáhlo. A kolik miniautrních drobností se stahuje odkudkoliv jinud z MZA.
Velikost matrik - co já mám zkušenost, tak běžně se množství dat na matriku pohybuje někde kolem nebo do 500 MB (0,5 GB). Ale jsou matriky i podtstně větší. Třeba taková 9068 má asi 2,1 GB Takže kdybych ji prohlídnul snímek po snímku, záznam po záznamu komplet celou, limit pohodlně přešvihnu. Ale - ona ta matrika má zase 575 stran. To asi opravdu není reálné, abych ji za 24 hodin prolistoval detailně celou v plném rozlišení.
Počítání dat ze strany MZA - samozřejmě nevím, jaký mechanismus na to mají, ale jde to a nemusí to být vůbec složité. Stačí, aby vysčítali množství odeslanýh dat pro každou IP. Nevím, na jakém webserveru jim to běží, já když se kouknu do logu toho mého (Apache), tak jsou tam hezky záznamy o všem na co se kdo kdy podíval. Je tam datum, čas, IP adresa, co se odesílalo a jak to bylo velké. Takže kdybych si chtěl vysčítat, kolik si ta konkrétní IP adresa stáhla za nějaký časový interval dat, je to otázka jednoho krátkého skriptu. A protože se logy rotují každý den o půlnoci (vyrobí se nový soubor logu a staré se přejmenují), stačí, když skript pustím na jeden soubor a mám statistiku pro jeden konkrétní den. Nebudu vědět, jetli ten dotyčný namlátil toho 1,5 GB na výsledcích hledání (což je opravdu nemožné) jestli jak o život listoval jen náhledy stránek (ani tam ten 1,5 GB taky nemá šanci udělat) a nebo prohlížel detailně stránku po stránce, záznam po záznamu (a jsem přesvědčený o tom, že ani tady jeden sám člověk nemá moc šanci těch 1,5 GB za 24 hodin stáhnout).
Já se kdysi na tohle na MZA ptal, dostal jsem odpověď něco ve myslu, že při překročení toho limitu nemusí automaticky dojít k zablokování uživatele. Z toho mi vyplývá, že na to nemají žádný automatický mechanismus, který by to každý den o půlnoci zkontroloval a zablokoval hříšníky. Předpokládám, že v případě, kdy by zjistili, že se na serverech děje něco nestandardního, tak teprve potom začnou hledat. Něco nestandardního klidně může být neobvykle velký denní log s přístupy na webwerver.
Takže z tohohle pohledu je pro ně situace, kdy někdo stáhne za den víc, jak 1,5 GB dat něco, co svědčí o tom, že ten daný uživatel stahuje data ve velkém a to neodpovídá běžné práci s aplikací. Uznávám, že v tomhle mají pravdu. Kdybych pustil svůj skript na stahování matrik, mám těch 1,5 GB za chvíli doma (nějaká hodinka a něco asi).
Jak došli na 1,5 GB? to netuším. Asi tak nějak empiricky / odhadem / manažerským rozhodnutím při pohledu z okna s palcem v puse. 1 GB je málo - to se dá dosáhnout snadno, 2 GB je už zbytečně moc… Ale tohle samozřejmě vyloženě hádám. Třeba si udělali nějakou analýzu toho, kolik taková běžná IP adresa denně stáhne dat (pokus o vtip).
Časové limity - Na to jsem se taky nejednou ptal. Odpověď je vždycky stejná - je to rozhodnutí archívu, pro vysvětlení kontaktujte právní oddělení. Ti lidi, kteří se o AP starají to takhle dostali nařízeno shůry. Na badatelně není problém, veřejně nejde nic. Jak už jsem psal někde jinde - dnes není problém naprosto přesně ověřit člověka - stát na to má vyvinutou tzv. e-Identitu - jedna z mála věcí v tomhle státě, která se v digitalizaci státní správy podle mě celkem povedla. Když přijdu na badatelnu, prokážu se občankou, oni si mě tam zapíšou a přesně poznačí, co mi dali do ruky nebo co mi ukázali na PC. Technicky není problém, aby tohle fugnovalo i na dálku. Přihlásím se přes e-Identitu, kde stát garantuje, že jsem to opravdu jé a nikdo jiný (stejně tak, jako to stát garantuje tím, když ukážu občanku). Při tomhle přihlášení bych si mohl vyplnit objednávku, co chci vidět a archív by mi to mohl klidně třeba jen na omezenou dobu zpřístupnit. Přesně pak uvidí, kdy jsem se přihlásil a kdy jsem co přesně studoval. Jenže by tohle někdo musel naimplementovat = musel by na to někdo vyčlenit lidi v IT oddělení, kteří by pak nemohli dělat něco jiného a nebo by si to museli nechat od někoho napsat = museli by za to zaplatit. Dokud o tohle neprojeví zájem vedení (resp. někdo nepřesvědčí vedení, že je to vlastně jejich nápad), tak to nikdy nebude. A nebo dokud jim tohle nenařídí zákon. A obávám se, že nějaké archívnictví a badatelé jsou to poslední, čím by se chtěli páni pos*anci zabývat. Vždyť je tolik zajímavějších témat, u kterých se dá mediálně viditelně pohádat.
Zcela právem tady nadáváme na přístup archívu k digitalizaci a k badatelům. Mně by ale zajímalo, kdo (nebo co) konkrétně je opravdu za tenhle stav odpovědný. Já komunikuju s několika lidmi - archivářkou, IT, s lidmi v knihovně, na badatelně, … Všichni jsou velice ochotní, vstřícní, občas napíšou i informace, u kterých by asi jejich šéfové nebyli nadšení, že je píšou. Jen jednou jsem si psal s nějakým vedoucím a to byla jiná liga - nic mě nezajímá, nejde to, nemáme zájem, se vším je problém!
Blbý je to, že při běžných hlášeních chyb nebo jiných požadavcích člověk k e-mailu dostane toho posledního pracovníka, který se snaží v rámci možností, které má, dělat svoji práci ochotně a který nakonec dostane od badatelů vynadáno, že je tam spousta chyb a nic nefunguje tak, jak badatelé očekávají. Těchhle lidí je mi celkem líto. Fungujou jako hromosvod a dělají blbce lidem i svým šéfům. To taky nikoho nemůže bavit dlouho. Výsledkem pak bude, že se na to všichni vybodnou a budou dělat jen to, co musí. Je to začarovaný kruh, kde se pořád vracíme k tomu, jak je archív veden odshora, případně jaké množství prostředků má k dispozici k tomu, aby dělal cokoli "nad svou zákonnou povinnost"