Mobilní aplikace pro digitalizaci textů z hist. dokumentů

U nás používaný software. Kdo co používá, klady a zápory.

Mobilní aplikace pro digitalizaci textů z hist. dokumentů

Příspěvekod fifa.veit » pon říj 23, 2023 15:29

Dobrý den,

jsem studentem magisterského oboru informačních technologií a chtěl bych v rámci své závěrečné práce implementovat mobilní aplikaci využívající technologii optického rozpoznávání znaků (OCR), která by sloužila k digitalizaci textů z historických dokumentů. Konkrétně by se jednalo o využití již existujícího PERO OCR z brněnského VUT FIT.
Obecné informace - https://duha.mzk.cz/clanky/projekt-pero ... icke-texty
Schopnosti tohoto OCR si můžete sami ověřit na těchto stránkách - https://pero-ocr.fit.vutbr.cz/index

Co se týče funkcionalit samotné mobilní aplikace, tak obrázek pro analýzu bude možné pořídit přímo telefonem nebo nahrát již existující scan z úložiště. Po proběhnutí obrazové analýzy a prezentaci výsledku bude uživatel moct získaný text ručně upravovat. Již zpracované dokumenty bude možné spravovat (vyhledávání, složky, štítky...), třídit a zálohovat do cloudového úložiště. Aplikace by měla sloužit především pro potřeby amatérských genealogů - usnadnit jim čtení starých textů, nebo pomoct s jejich učením.

Chtěl jsem se vás, jako cílové skupiny, proto zeptat na pár otázek:
1) Využili byste takovou aplikaci? Dávala by vám smysl?
2) Jaké konkrétní funkce byste ocenili?
3) Kdy a jak byste aplikaci používali?
4) Znáte/používáte nějaké podobné aplikace (např. Transkribus) a jak jste s nimi případně spokojení?

Předem děkuji za jakékoliv podněty. Pokud byste mě chtěli kontaktovat přímo, můžete na email filip.veit@gmail.com
fifa.veit
 
Příspěvky: 37
Registrován: ned kvě 26, 2013 14:33

Re: Mobilní aplikace pro digitalizaci textů z hist. dokument

Příspěvekod pavel.m » pon říj 23, 2023 15:37

No ono to pero zas tak dobře nefunguje na psaný text co jsem zkoušel. Respektive dnes už mi to ani nefungovalo, když jsem dal Run OCR na hezky psaný kurent. Největší smysl by to dávalo u dlouhých zápisů, např. smluv, pozemkových knih, kronik atp.
PaM
pavel.m
 
Příspěvky: 1558
Registrován: stř led 05, 2022 12:46
Bydliště: Valašské Meziříčí
Oblast pátrání: Panství Hodonín, Strážnice, Uherský Ostroh.

Re: Mobilní aplikace pro digitalizaci textů z hist. dokument

Příspěvekod fifa.veit » pon říj 23, 2023 16:20

Mě naopak PERO přijde hodně povedené, viz např.
Screenshot 2023-10-23 170433.png
+ ještě zde kompletní přepis získaný z PERO:
Karolina Veit, Inwohnerin.
Glasschleiferin) unehrliche
Tochter der Pauline, einer
ehrlichen Tochter des Josef
Veit, Webers in Franzenthal
No 35, (35) und der Hose fa
Pfeifer aus Rochlitz Nr 137,
beides Amtsbezirk Star.
kenbach


Ale samozřejmě záleží dokument od dokumentu, nelze to asi takto zobecňovat.
Spíše než kvalita výstupů dané OCR technologie mě však nyní zajímá uživatelský pohled na aplikaci, kterou jsem v příspěvku nastínil, zda si umíte představit, že byste něco takového používali, očekávané funkce atd. Předpokládejme nyní že použité OCR je dostatečně spolehlivé.
fifa.veit
 
Příspěvky: 37
Registrován: ned kvě 26, 2013 14:33

Re: Mobilní aplikace pro digitalizaci textů z hist. dokument

Příspěvekod pavel.m » pon říj 23, 2023 17:49

PaM
pavel.m
 
Příspěvky: 1558
Registrován: stř led 05, 2022 12:46
Bydliště: Valašské Meziříčí
Oblast pátrání: Panství Hodonín, Strážnice, Uherský Ostroh.

Re: Mobilní aplikace pro digitalizaci textů z hist. dokument

Příspěvekod pavel.m » pon říj 23, 2023 18:23

Jinak jsem si vzpomněl na jednu věc. Poradí si to s monitorem? To je pro to OCR asi vražda, co? Takže to bude spíš na texty v badatelně + nahrání stažené fotky.
PaM
pavel.m
 
Příspěvky: 1558
Registrován: stř led 05, 2022 12:46
Bydliště: Valašské Meziříčí
Oblast pátrání: Panství Hodonín, Strážnice, Uherský Ostroh.

Re: Mobilní aplikace pro digitalizaci textů z hist. dokument

Příspěvekod zburget » pon říj 23, 2023 18:42

Přemýšlím, ze které strany začít. Těch úhlů pohledu je totiž víc.
Předně - já osobně jsem v kontaktu z dr. Rozmanem z FIT, kde se čas od času některý ze studentů rozhodne, že zkusí vyrobit nějaké OCR na matriky. A taky pro to používají knihovny ze systému PERO. Nějaké z těch projektů jsem měl možnost i otestovat. Předně - systém PERO já osobně považuju za špatný z pohledu základního designu. Je schopný relativně dobře číst texty, pokud jsou ty texty hezky čitelné. Neumatlané, nepřekrývající se řádky, jasné a zřetelné tahy brkem. Jak ten text není téměř ideální, začínají problémy. Navíc PERO se hodí na souvislé texty, na čtení matrik je absolutně nevhodné - problém se čtením textů v kolonkách.

Druhý pohled - úplně mě nenapadá, kde bych použil mobilní aplikaci. Snad jedině při osobní návštěvě archívu, ale pokud mají být cílovou skupinou amatérští genealogové, kteří potřebují někde on-line v terénu dešifrovat nějaký starý text, pak by součástí takové aplikace musel bezpodmínečně být i překladač do češtiny. Jinak mě nenapdá, k čemu by byla mobilní aplikace dobrá. Ale věřím tomu, že se najde někdo, kdo to ocení. Kdybych měl mluvit za sebe, tak to využití moc nevidím. Tímto vlastně odpovídám současně na první tři otázky.

Transkribus znám, ale nepoužívám. Pořád mi neumožňuje to, co bych potřeboval, "tupé" přečtení starého textu mi nepomůže. Pokud není systém schopný číst matriku strukturovaně, je to pro mě nepoužitelné. Jo, možná kdybych potřeboval přepsat nějaký delší souvislý text (např. záznamy z gruntovnic), tak bych asi s takovými systémy experimentoval víc - čistě jen proto, abych nemusel datlovat dlouhý text.

Systémy, které by uměly číst staré texty by byly nejpoužitelnější při hledání záznamů v matrikách. Jenže - musí to umět číst strukturovaně (pochopit, co je v kterém políčku napsáno a přečíst to; občas jsou údaje ve sloupečcích přehozené, takže to OCR musí současně být schopně vyhodnotit, že k takové chybě při psaní záznamu došlo), v souvislém záznamu musí být systém schopný vyhodnotit jména, rodinné vztahy mezi jmény a vztah jednotlivých zapsaných osob (kdo je kněz, kdo je křtěný/oddávaný/pohřbívaný, kdo je otec, kdo je matka, kdo svědek nebo kmotr). Takže nic jednoduchého, co půjde řešit bez použití AI. Musí poznat, jakým jazykem je zápis zapsaný a mít slovníky, pomocí kterých bude korigovat špatně přečtená slova. Bojím se, že tohle bohužel není úkol pro diplomku pro jednoho člověka. Možná by celkem obsáhlá diplomka byla jen analýza celého toho problému s nastítěním možných způsobů řešení a blokový návrh celkového systému.

To, co jsem zatím viděl, že bylo naprogramováno, tak to byly systémy, které po natrénování dávaly celkem hezké výsledky čtení. Reálná využitelnost při nějakém bádání podle mě ale byla zatím téměř nulová. Dostat hromadu přepsaného textu z matrik (s hromadou chyb, samozřejmě) je při hledání v matrikách víceméně k ničemu. Musí z toho být daleko komplexnejší výstup, aby to opravdu znamenalo úsporu času při bádání.
Zbyněk Burget
zburget
 
Příspěvky: 12592
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: Mobilní aplikace pro digitalizaci textů z hist. dokument

Příspěvekod zburget » pon říj 23, 2023 18:53

fifa.veit píše:Mě naopak PERO přijde hodně povedené…
Podle mě je PERO ve své současné podobě slepá ulička.
Proč si to myslím? Průser podle mě je to, že se text rozstříhá na řádky. Tedy úplně základní kámen celého systému. Pominu to, že to rozstříhání na samostatné řádky nefunguje dobře ani v případě, kdy jsou ty řádky opravdu samostatné. Občas je ustřižená nějaká horní nebo dolní část písmene, občas diakritika. No a pak to čtení stojí za prd. Když si já představím, že bych měl číst nějaký takto z kontextu vystřižený řádek, tak bych ho nepřečetl taky.
V případě, kdy začnou být řádky namačkané na sebe, tahy ze spodních a horních řádků se začnou překrývat, jde to celé do kopru. části písmen v tom výstřižku řádku chybí, naopak jsou tam čáry, které tam nepatří…
Můj názor je, že aby OCR ručně psaného textu mohlo fungovat opravdu spolehlivě, musí být každý řádek zasazený do kontextu MINIMÁLNĚ jednoho řádku nad a jednoho řádku pod (lépe dvou řádků nad a dvou pod). Když luštím takový text, kde se písmena překrývají, často hledám která čára patří ke kterému řádku. Hledám diakritické znaménko schované v nějakém hornějším písmenu. Když ta část písmene v tom výstřižku není, nemůže ten systém být schopný tesxt správně interpretovat. A nebo se to sice může nějak natrénovat, ale tím se zase rozbíjí natrénování na jiném, čitelnějším textu.

Tohle je podle mě naprosto zásadní nedostatek, který PERO má. Dokud tohle někdo nepředělá, nemůže to fungovat spolehlivě. A ano, jsem si vědom toho, že by se musela opravdu velká část celého systému hodit do koše a začít od začátku. A do toho se nikomu nebude chtít. Zatím se vylepšuje něco, co je podle mě slepá ulička.

…můj neodborný názor.
Zbyněk Burget
zburget
 
Příspěvky: 12592
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: Mobilní aplikace pro digitalizaci textů z hist. dokument

Příspěvekod Springpeace » pát lis 17, 2023 14:35

ad 2)
- Aby se dal zadat layout pro jednotlivé sloupce v matrikách např pro https://www.mza.cz/actapublica/matrika/detail/10068?image=216000010-000253-003370-000000-003562-000000-00-B02377-01400.jp2
  Aby bud sám program dovedl rozlišit sloupce a vyznačit bloky pro layout pro sloupce po celé výšce. Nebo, když by to nezvládal, možnost  manuálně zadat počet oblastí pro stránku, program by zeleně vytvořil např 4 zeleně vyznačené bloky/layouty, a já bych si je ručně přesunul a upravil aby sedělo na hranice sloupců, dítě , rodi, kmotři. Transkribus má, že jde vložit celý obdélník layoutu dvěma kliky, ale zase asi nejdou upravovat jeho hranice (nevím).Analýza jak je v Peru, dle mého názoru , je dobrá na souvislé texty po řádcích, ale ve sloupcích to není vždy ono.

- aby bylo možné vložit odkaz např na ksen matriky . Z MZA není dovoleno stahovat, takže je problem vložit obrázek

-Nebylo by špatné, aby se dalo do dokumentu přidat pár fotek i  po té co proběhne analyza layoutu a OCR.

-Aby nedělal chybu jako Pero
- občas se nahoře v přehledu stran nezobrazí zelené vyznačení pro Layout u některých fotek, i když tam layout je udělaný.
- v Peru nefunguje revert OCR ani layout když jsem v prohlížení dokumentu.
-Při úpravě objektu/layout je problém že místo posunutí jednoho bodu okraje se chytne celý blok layoutu a posune se celý.

ad 4) Transkribus nemá dobré  čtení z našeho prostředí v průběhu historie. Byl tam asi jen model který to zvládl lépe, ale ani tak nic moc. Netuším jak by to zvládal když by člověk vytrénoval vlastní model. Ale to bude stát hodně času. Pero se mi zdá lepší
Springpeace
 
Příspěvky: 37
Registrován: čtv dub 22, 2021 9:21
Oblast pátrání: Čejkovice, Újezd u Vizovic, Bojkovice, Lípa u Zlína, Bystřice pod Hostýnem , a okolo nich

Re: Mobilní aplikace pro digitalizaci textů z hist. dokument

Příspěvekod zburget » pát lis 17, 2023 15:05

U toho rozdělení na sloupce je několik dalších záludností. Písař často nerespektuje nakreslené (natištěné) čáry a více či méně je přetahuje.
Platí i pro naznačené řádky.
Občas písař kolonky nerespektuje vůbec a prostě do jinak strukturované stránky napíše prostý textový záznam.
Občas se písař utne a údaje do kolonek zapíše špatně (jsou zpřeházené). Poslední dva uvedené problémy bez použití AI vyřešit nepůjde. Něco prostě musí pochopit, že obsah kolonek je nesmyslný a text je potřeba číst jinak a nebo přečtené údaje zpřeházet.

No a pak jsou v matrikách samozřejmě různé vpisky např. typu záznam o vizitaci. Opět bude potřeba nasadit nějakou AI, aby se tohle vyloučilo. Tedy v případě, že by někdo do takového ORC chtěl nahrát matriku a čekal, že na něj vypadně přepis a nebo index.
Zbyněk Burget
zburget
 
Příspěvky: 12592
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: Mobilní aplikace pro digitalizaci textů z hist. dokument

Příspěvekod ozana » ned lis 19, 2023 22:08

Chtělo by to řešit pomocí AI.
Ožana neznamená ženu, přestože to kdysi velmi dávno bylo ženské křestní jméno
Uživatelský avatar
ozana
 
Příspěvky: 5764
Registrován: úte kvě 12, 2009 6:01
Bydliště: Petřvald
Oblast pátrání: Slezsko, Petřvald okr.Karviná, Šenov


Zpět na Jaký software používáte?

Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 21 návštevníků