Takže krátký zápis, kdyžtak se doptejte, třeba to tam zaznělo a odpovím.
-Jako OCR používají program
https://scribblesense.cz/#/news-Chtějí co nejvíc dokumentů přepsat, aby v nich šlo hledat fulltextově, ale aktuálně se zaměřují na kroniky, protože jsou buď česky nebo kurentem.
-Každou archiválii po projetí OCR kontroluje archivář, ale ne 100%, kontroluje části, které AI označí, že si není jisté.
-Z každého dokumentu musí archivář opravit cca 300 řádků a pak dostanou výstup o spolehlivosti čtení cca 95%, vyšších čísel se dosahuje velmi špatně.
-Co se týče použití na matriky a tvorbu nějakých indexů, tak říkal, že to vidí na 5-10 let, tento systém vyvíjeli 4 roky.
-Jediný další archiv který OCR vyvíjí je Plzeň
-Podstatné pro nás, kteří indexujeme je to, že aktuálně se připravuje verze archivu, kde bude indexace na cca podobném stylu jako v Třeboni a indexovat bude moc přihlášená veřejnost (nevím zda všichni, ale půjde indexovat vše, co má digitální přílohu)
-OCR je aktuálně schopno s velkou přesností číst kurent, včetně matrik. Výstup z nich ale neumí nijak zpracovat, takže se věnují delším textům (kroniky, urbáře...)
-Stará badatelna se ukončí cca na konci tohoto roku.