od zburget » pon říj 23, 2023 18:42
Přemýšlím, ze které strany začít. Těch úhlů pohledu je totiž víc.
Předně - já osobně jsem v kontaktu z dr. Rozmanem z FIT, kde se čas od času některý ze studentů rozhodne, že zkusí vyrobit nějaké OCR na matriky. A taky pro to používají knihovny ze systému PERO. Nějaké z těch projektů jsem měl možnost i otestovat. Předně - systém PERO já osobně považuju za špatný z pohledu základního designu. Je schopný relativně dobře číst texty, pokud jsou ty texty hezky čitelné. Neumatlané, nepřekrývající se řádky, jasné a zřetelné tahy brkem. Jak ten text není téměř ideální, začínají problémy. Navíc PERO se hodí na souvislé texty, na čtení matrik je absolutně nevhodné - problém se čtením textů v kolonkách.
Druhý pohled - úplně mě nenapadá, kde bych použil mobilní aplikaci. Snad jedině při osobní návštěvě archívu, ale pokud mají být cílovou skupinou amatérští genealogové, kteří potřebují někde on-line v terénu dešifrovat nějaký starý text, pak by součástí takové aplikace musel bezpodmínečně být i překladač do češtiny. Jinak mě nenapdá, k čemu by byla mobilní aplikace dobrá. Ale věřím tomu, že se najde někdo, kdo to ocení. Kdybych měl mluvit za sebe, tak to využití moc nevidím. Tímto vlastně odpovídám současně na první tři otázky.
Transkribus znám, ale nepoužívám. Pořád mi neumožňuje to, co bych potřeboval, "tupé" přečtení starého textu mi nepomůže. Pokud není systém schopný číst matriku strukturovaně, je to pro mě nepoužitelné. Jo, možná kdybych potřeboval přepsat nějaký delší souvislý text (např. záznamy z gruntovnic), tak bych asi s takovými systémy experimentoval víc - čistě jen proto, abych nemusel datlovat dlouhý text.
Systémy, které by uměly číst staré texty by byly nejpoužitelnější při hledání záznamů v matrikách. Jenže - musí to umět číst strukturovaně (pochopit, co je v kterém políčku napsáno a přečíst to; občas jsou údaje ve sloupečcích přehozené, takže to OCR musí současně být schopně vyhodnotit, že k takové chybě při psaní záznamu došlo), v souvislém záznamu musí být systém schopný vyhodnotit jména, rodinné vztahy mezi jmény a vztah jednotlivých zapsaných osob (kdo je kněz, kdo je křtěný/oddávaný/pohřbívaný, kdo je otec, kdo je matka, kdo svědek nebo kmotr). Takže nic jednoduchého, co půjde řešit bez použití AI. Musí poznat, jakým jazykem je zápis zapsaný a mít slovníky, pomocí kterých bude korigovat špatně přečtená slova. Bojím se, že tohle bohužel není úkol pro diplomku pro jednoho člověka. Možná by celkem obsáhlá diplomka byla jen analýza celého toho problému s nastítěním možných způsobů řešení a blokový návrh celkového systému.
To, co jsem zatím viděl, že bylo naprogramováno, tak to byly systémy, které po natrénování dávaly celkem hezké výsledky čtení. Reálná využitelnost při nějakém bádání podle mě ale byla zatím téměř nulová. Dostat hromadu přepsaného textu z matrik (s hromadou chyb, samozřejmě) je při hledání v matrikách víceméně k ničemu. Musí z toho být daleko komplexnejší výstup, aby to opravdu znamenalo úsporu času při bádání.
Zbyněk Burget