GENEALOGIE

od **Zdenek** » ned čer 29, 2025 19:11

Předem se omlouvám za hloupý dotaz.

Po dlouhé době jsem si otevřel digitální archiv Opava. Byly tam provedeny úpravy prohlížení matrik a já ,,trouba,, si s tím nevím rady

Potřeboval jsem prohlédnout matriku zemřelých v obci Lutín kolem roku 1726, ale nezvládl jsem to.

Poradíte prosím, jak na to???

Předem děkuji a omlouvám se za svou digitální neschopnost.

od **Mistr Jan** » ned čer 29, 2025 19:15

https://digi.archives.cz/da/permalink?x ... 30f1552979
nebo
https://digi2.archives.cz/da/permalink? ... 30f1552979
Pokud ponecháte v tom odkazu dvojku, používáte i nadále starý prohlížeč – ten nový se ještě dolaďuje. Já mu nějak nemohu přijít na jméno, takže používám zásadně ten starý. :-)

J.

od **Zdenek** » ned čer 29, 2025 19:22

Moc děkuji.

od **zburget** » pon čer 30, 2025 8:27

Mistr Jan píše:Já mu nějak nemohu přijít na jméno, takže používám zásadně ten starý.

Jsme na tom zhruba podobně. Nicméně já se tomu novému snažím na jméno přijít, protože je otázka, jak dalece jsou v tom starém udržována data. Co je zatím jen ve starém, jsou sčítací operáty. U všeho ostatního si myslím, že buď už dál udržováno není a nebo se s údržbou přestává. Nedovedu si úplně představit, že by bylo dlouhodobě reálné aktualizovat data ve dvou systémech.

od **Mistr Jan** » pon čer 30, 2025 10:32

zburget píše:Jsme na tom zhruba podobně. Nicméně já se tomu novému snažím na jméno přijít, protože je otázka, jak dalece jsou v tom starém udržována data. Co je zatím jen ve starém, jsou sčítací operáty. U všeho ostatního si myslím, že buď už dál udržováno není a nebo se s údržbou přestává. Nedovedu si úplně představit, že by bylo dlouhodobě reálné aktualizovat data ve dvou systémech.

Chápu, tak nějak předpokládám, že tomu starému dřív nebo později odzvoní. Mám jednu větší větev u Opavy, vracím se k tomu vždy tak nějak cyklicky, před pár dny jsem se rozhodl ji celou "uklidit", raději se starým prohlížečem, ale odkazy si ukládám bez té dvojky. Doufám jen, že nedojde právě k úpravě odkazů, abych to nemusel měnit. Bádání směřuji do minulosti, kde je sada matrik (popř. gruntovnic) kompletní, takže mě neaktualizovaná data zase tak moc nepálí. S tím novým se chci naučit, až to bude nezbytně nutné – hádám, že to nastane ve chvíli, kdy se bude zavírat ten starý a ten nový už bude vymakaný.
J.

od **Zdenek** » čtv črc 03, 2025 14:38

Dnes mě to nefunguje vůbec, nevím, co dělám špatně??? Nebo, žeby to už opravovali????

od **pavel.m** » stř zář 10, 2025 15:49

Zítra proběhne v archivu akce: AI BOŘÍ BARIÉRY! I při studiu archiválií?!
viz https://2i.cz/i/7758y

Akce nebude online, ale pokusím se psát si poznámky a ty vám sem shrnout. Měla by se tam dokonale představit nová badatelna, a pak by se mělo mluvit o AI (asi ta OCR). Zajímavosti vám sem pak hodím.

od **pavel.m** » čtv zář 11, 2025 19:50

Takže krátký zápis, kdyžtak se doptejte, třeba to tam zaznělo a odpovím.

-Jako OCR používají program https://scribblesense.cz/#/news
-Chtějí co nejvíc dokumentů přepsat, aby v nich šlo hledat fulltextově, ale aktuálně se zaměřují na kroniky, protože jsou buď česky nebo kurentem.
-Každou archiválii po projetí OCR kontroluje archivář, ale ne 100%, kontroluje části, které AI označí, že si není jisté.
-Z každého dokumentu musí archivář opravit cca 300 řádků a pak dostanou výstup o spolehlivosti čtení cca 95%, vyšších čísel se dosahuje velmi špatně.
-Co se týče použití na matriky a tvorbu nějakých indexů, tak říkal, že to vidí na 5-10 let, tento systém vyvíjeli 4 roky.
-Jediný další archiv který OCR vyvíjí je Plzeň
-Podstatné pro nás, kteří indexujeme je to, že aktuálně se připravuje verze archivu, kde bude indexace na cca podobném stylu jako v Třeboni a indexovat bude moc přihlášená veřejnost (nevím zda všichni, ale půjde indexovat vše, co má digitální přílohu)
-OCR je aktuálně schopno s velkou přesností číst kurent, včetně matrik. Výstup z nich ale neumí nijak zpracovat, takže se věnují delším textům (kroniky, urbáře...)
-Stará badatelna se ukončí cca na konci tohoto roku.

od **Zora** » čtv zář 11, 2025 20:18

Díky, Z

od **zburget** » pát zář 12, 2025 6:51

Tak já k tomu připíšu pár poznatků z různých stran.
Mám potvrzeno přímo ze ZAO - a nakonec se to dá dočíst i na té stránce Scribblesense, že tohole OCR je založeno na systému "Pero", které se vyvíjí na VUT Brno. A ano, je to ten systém, který se několik studentů snažilo použít do svých diplomek a které jsem tady i zkoušeli testovat.

Zkoušel jsem testovat i Pero samotné. Je to, pravda, už delší dobu, ale … pokud je text napsaný úhledně, má opravdu velice vysokou úspěšnost čtení. Když jsem zjišťoval, jak funguje "ubnitř", tak se obávám, že z principu ani na špatně čitelné zápisy použít nepůjde. Tedy za předpokladu, že zásadně nepřepracují celý mechanismus čtení. Proto je, jak tady bylo uvedeno, tozle OCR zatím používáno na kroniky. Podle mých informací jsou kroniky přesně to, na co bylo Pero navržené a na čem probáhal vývoj a trénování. Pero má taky velice dobrou úspěšnost při čtení úhledně napsaných dopisů. Tím to ale, bohužel, zatím končí. Drtivou většinu matrik s nám zatím bohužel číst nelní reálné a je velkou otázkou, jestli to vůbec někdy bude možné (právě kvůli architektuře toho OCR).
Pro čtení matrik a tvorbu indexů by bylo potřeba dopracovat komplet celou logiku, která by byla schoépná ten přečtený text interpretovat. A na něčem takovém se přímo podle informací z VUT zatím vůbec nepracuje a pravděpodobně to ani není v dohledné době v plánu.

Takže čtení starých textů je super a je dobré, že to už nějak začíná fungovat, ale zrovna pro matriky bych vyl s nějakým optimismem velice opatrný.
Stejně tak byly přímo na VUT nějaké pokusy se čtením sčítacích operátů, což by mělo být daleko jednodušší, než matriky a prozatím tam taky nebyla žádná oslnivá úspěšnost čtení.

od **zburget** » pát zář 12, 2025 6:53

Ještě dodatek k tomu pokusu o čtení sčítacích operátů - člověk, který se tím zabývá dokonce psal, že si pro začátek bude ty operáty zkoušet nechat číst AI od Google, protože Pero mu prozatím dává horší výsledky.

od **pavel.m** » pát zář 12, 2025 7:39

Ukazoval nám oddací matriku psanou kurentem (z 2. poloviny 18.století) a přečetlo ji to, dá se říct s míň chybami, než lidi, co dělají rodokmeny. Ale to je všechno, víc s tím neudělá. Jenom to přečte a neumí prostě nijak zpracovat. Ta logika k tomu vytvořená by musela být podle mě na peru nezávislá a stála by strašně moc elektřiny jenom pro tu AI, která by to předělávala + čas lidí, kteří by to museli stejně projít, zda je to dobře.

od **zburget** » pát zář 12, 2025 15:01

Já mám zrhruba nějakou povědomost o tom, jak to Pero při čtení funguje. Jestli tam tedy něco zásadního nezměnili, tak to potřebuje poměrně dost hezky napsaný text, kde jsou řádky od sebe jasně oddělené, text nepřelízá kolonky (nejsou přes text čáry oddělující kolonky), není to přepisované, není v tom škrtané apod. Neříkám, že takové matriky neexistují, ale bude se jednat, řekněme o druhou polovinu, možná druhé dvě třetiny 19. stol. Drtivá většina matrik těm podmínkám, které jsem napsal, nevyhovuje.
Zásadní problém u Pera, tak jak jsem ho naposledy zkoumal cca před rokem, je "by design". Takže jsem k nějakému obecnému čtení záznamů matrik poměrně hodně, hodně, hodně skeptický.

Jak jsem psal, jiné pracoviště na VUT chce zkusit AI na interpretaci matričních záznamů. Zkoušejí začít jednodušej - interpretací sčítacích operátů. Pro prvotní účely "hraní si" s tou AI na interpretaci záznamů byl jejich vlastní systém Pero prozatím vyhodnocený, jako nepříliš vhodný a lepší výsledky jim dává OCR od Google. A tohle nejsou moje výmysly, ale info přímo z VUT.
Pokud můžu soudit, tak spotřeba elektřiny na serverech VUT bude asi ten nejmenší problém při vývoji. Problém budou lidské zdroje. A to hlavně na sestavení takové AI. Pero bylo vyvíjeno společně s MUNI, které na to mělo nějaký grant a tím pádem byly peníze na zaplacení vývoje. Na interpretaci matričních záznamů někdo nějaký grant vypíše jen dost těžko. Takže na tom pracují čistě jen ze svého vlastního zájmu. Případně se může něco posunout při nějaké diplomce. Ale to není dlouhodobě udržitelné, jednalo by se jen o základní výzkum, od kterého k nějakému použitelnému řešení je ještě hodně dlouhá cesta.

od **pavel.m** » sob zář 13, 2025 7:39

Ted jim ZAO zaplatilo 828 tisíc korun s omezením na 1,5m stran textu.

od **zburget** » sob zář 13, 2025 14:48

pavel.m píše:… 828 tisíc korun…

Na vývoj takového systému je to pár drobáků. Za to vývoj AI opravdu nevytrhnete. To nemáte ani na výplaty na dva měsíce pro pětičlenný vývojový tým.

GENEALOGIE

Digitální zemský archiv Opava

Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Re: Digitální zemský archiv Opava

Kdo je online