OCR pro rucne psany text s doucovanim

Máte nějaký nápad o kterýse chcete podělit, nebo radu kterou chcete přispět ostatním v jejich genealogickém úsilí? Můžete ji napsat sem.

Re: OCR pro rucne psany text s doucovanim

Příspěvekod matju » úte dub 20, 2021 8:40

A ještě mne už několikrát napadlo, že by bylo fajn, moci si při přepisování označit v řádku část textu (např barevně zvýraznit), kterou nemohu přeložit / nejsem si s ní jistá. Vždycky mi totiž přijde líto, že v gruntovnici přepíšu dlouho větu a jen kousek nevím - a nechám ji pak neoznačenou celou a OCR se z ní neučí - jen kvůli té malé části, co nevím..... Pokud by se z toho OCR učit nemohlo, bylo by alespoň na první pohled patrné, co není správně dořešeno a k čemu se vrátit...
TY Michala Maturová
matju
 
Příspěvky: 1025
Registrován: čtv úno 14, 2013 22:50
Oblast pátrání: Hradecko, Jičínsko, Trutnovsko, Železnobrodsko, Hořicko, Berounsko, Střední čechy
https://www.mojekoreny.com/

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » úte dub 20, 2021 18:50

Děkuji všem za otestování aplikace. Nečekal jsem, že někdo bude v takové míře přepisovat záznamy :), velmi si toho cením!

Veškeré Vaše připomínky zkusím opravit, popř. je vložit k návrhům na rozšíření této práce.

Děkuji.
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » úte dub 20, 2021 22:36

Jako já jsem určitě připravený s tím ještě dál pracovat a zkusit, klidně přepsat i velkou část toho matričního opisu. A klidně dalších matrik a textů. Jen k tomu potřebuju nástroje a příslušnou znakovou sadu, o kterých jsem psal a informace, jak ty přepisy přesně a správně dělat. Nevím, kdy tu práci obhajujete a jestli je reálné ještě do obhajoby něco dopracovat. Případně jestli i po obhajobě plánujete vy nebo někdo další na tom nějak dál pracovat. ALe rozhodně by byla obrovská škoda, kdyby tahle práce nepokračovala dál.
Pokud se mi dostane do ruky něco, co bych tím mohl zkusit prohnat, určitě to ještě udělám. Jen teď opravdu narážím na mnou pospané limity.
Zbyněk Burget
zburget
 
Příspěvky: 12523
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » stř dub 21, 2021 9:11

Přidal jsem možnost editace bodů řádků/regionů pomocí držení Levý Ctrl + táhnutí bodem. Body jdou i mazat pravým tlačítkem myši.

Zatím to není úplně odladěné :)
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » stř dub 21, 2021 12:00

Super, odpoledne nebo večer to proklepnu :-)
Zbyněk Burget
zburget
 
Příspěvky: 12523
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod matju » stř dub 21, 2021 12:13

Dobré, supr, funguje... Problém je, když jsou přes sebe dva polygony: Chci u jednoho táhnout bod, ale neustále mi to přepíná do toho druhého polygonu a ten bod nemůžu chytit....
TY Michala Maturová
matju
 
Příspěvky: 1025
Registrován: čtv úno 14, 2013 22:50
Oblast pátrání: Hradecko, Jičínsko, Trutnovsko, Železnobrodsko, Hořicko, Berounsko, Střední čechy
https://www.mojekoreny.com/

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » stř dub 21, 2021 12:43

Ano o tom problému vím, ještě to poupravím. Jinak momentálně trénuji nějaké datasety pro otestování úspěšnosti rozpoznávání do práce, tak asi trénování nebude moc rychle, jestli vůbec pojede :) Lepší možná bude teď model CRNN netrénovat. Díky.
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » stř dub 21, 2021 14:28

Ještě jedna drobnost - bylo by možné někdy, až na to bude čas, doprogramovat i takovou věc, aby se automatické anotace, případně čtení, daly spustit jen na konkrétním skenu? A nebo alespoň skeny označit, jako anotované, aby do nich už automatické anotace zbytečně nelezly?
Zbyněk Burget
zburget
 
Příspěvky: 12523
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » stř dub 21, 2021 14:32

A pořád pozoruju problémy s nahráváním obrázků - pokud vyberu ve složce obrázky a přetáhnu je na pole "Zde přetáhněte skeny", většinou se mi nenahraje první sken. A ostatní jsou občas nějak zpřeházené - nejsou popořadě tak, jak byly ve složce (podle abecedy). Když skeny nahraju tak, že kliknu do toho pole na webu, otevře se mi dialog, tam vyberu příslušné skeny, tak se nahrajou všechny, ale taky je to pořadí přeházené. Pro učení OCR je to asi jedno, pro případnou práci s ním už to úplně jedno nebude.
Zbyněk Burget
zburget
 
Příspěvky: 12523
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » stř dub 21, 2021 15:27

zburget píše:Ještě jedna drobnost - bylo by možné někdy, až na to bude čas, doprogramovat i takovou věc, aby se automatické anotace, případně čtení, daly spustit jen na konkrétním skenu? A nebo alespoň skeny označit, jako anotované, aby do nich už automatické anotace zbytečně nelezly?


Obě věci možné jsou. Trénování/inference na jednom skenu je trochu problematičtější, měl jsem ji rozpracovanou, ale nakonec jsem usoudil, že bude lepší vždy provádět úkoly nad celými datasety. Označení skenů aby se automaticky už na těchto skenech nedetekovaly řádky a textové regiony chci udělat tak, že každý se po automatické detekci označí a nepůjde ho už zdetekovat automaticky podruhé.
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » stř dub 21, 2021 17:00

Davidh píše:Trénování/inference na jednom skenu je trochu problematičtější, měl jsem ji rozpracovanou, ale nakonec jsem usoudil, že bude lepší vždy provádět úkoly nad celými datasety.
Trénování klidně ať běží nad celým datasetem, to je asi nakonec i účelnější. Inference na jednom skenu by byla dobrá hlavně pro úsporu času při čekání i úsporu strojového času.

Označení skenů aby se automaticky už na těchto skenech nedetekovaly řádky a textové regiony chci udělat tak, že každý se po automatické detekci označí a nepůjde ho už zdetekovat automaticky podruhé.
Jo, tohle by bylo fajn. Tedy s možností ten příznak zase někde vypnout, kyby si to člověk nějak zásadně namršil, tak aby si to mohl nechat případně anotovat znovu.
Zbyněk Burget
zburget
 
Příspěvky: 12523
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » stř dub 21, 2021 18:47

Ještě tak přemýšlím nad těmi automatickými anotacemi.
Podle mého názoru nebude v cílové aplikaci úplně možné tu anotaci dělat jako samostatný krok. Myslím si, že už při anotacích bude potřeba, aby se do toho zapojilo OCR. Ono totiž při hledání okraje řádku v případě, kdy se písmena ze dvou sousedních řádků nepřekrývají, by se dalo jednoduše jet po čáře tak, aby vždycky celá čára zůstala součástí řádku. Tohle si myslím, že je jedna z nejhoršcíh chyb těch anotací, že to stříhá kusy písmen pryč. A ty jsou někdy dost důležité.
Problém ale nastane, když se do sebe zamíchají písmena ze sousedních řádků. Tam bude potřeba, aby byly ty překryvy v obou řádcích, a pro to, aby OCR mohlo spolehlivě přečíst takový nějaký uzel čar by měl mít k dispozici i ten sousední řádek. A bude to muset zkoušet číst, aby to nějak mělo šanci odhadnout, co k čemu patří.
Někdy, když sem do fóra někdo hodí jen vystřížený řádek na přečtení, dá se to přečíst celkem v pohodě. Ale někdy je potřeba vidět nějakou širší souvislost, aby se z toho mohlo něco rozumného vyčíst. A bojím se, že to OCR se bude chovat stejně. Když dostane vystřižený řádek, kde do znaků budou namixované kousky písmenek odjinud, nemůže to mít nejmenší šanci to přečíst správně. Nedávno jsem tady řešil slovo, do kterého se míchaly smyčky propité z protější strany. Rozklíčoval jsem to až v okamžiku, kdy jsem se na tu protější stranu podíval a zjistil, která bije (viz viewtopic.php?f=41&t=54508).
A při anotacích pak budou samostatnou kapitolou písmenka, která naopak nejsou pohromadě - včera tady bylo jméno, ve kterém bylo g a vypadalo to jako o, pod kterým o kus níž byla nějaká smyčka (viz https://www.mza.cz/actapublica/matrika/ ... -03480.jp2, levá strana, 3. záznam odspodu, Svgetlik - a těch Světlíků je tam víc. G je pokaždé hezky na dvě části). Automatické anotace ve stávajícím stavu by tohle opět beznadějně minuly - opět bylo poteba si přečíst spodnější řádek a až pak zjistit, že je tam čára, která k němu vlastně nepatří a patří k nějakému písmenu o řádek výš.

Pro spolehlivou práci by tedy bylo potřeba přednostně vyřešit anotace, případně vyřešit spojení anotací a OCR. Což bude tedy asi dost husarský kousek, jestli se to povede.
Moc mě nenapadá, jak by to mohlo fungovat - udělat anotace, zkusit přečíst a když bude něco přebývat a nebo chybět, podívat se o řádek výš nebo níž, jestli by to nepasovalo k některému písmenu tam? A když jo, opravit anotace? Ale to už by ty anotace a OCR bylo provázáno tak, že by to muselo běžet současně a ne jako samostatné úlohy. Čímž se taky ještě dostávám zpět ke svému nedávnému tvrzení, že by bylo potřeba, aby OCR bylo schopno identifikovat jednotlivá písmena. Může číst klidně po slovech, ale když tam bude nejasnost, musí jet znak po znaku. A to ještě zkoumat, jestli některá z čar nepatří ke znaku jinému (i v jiném řádku) a nebo jestli nějaká část písmene není zatloulaná někde jinde (v jiném řádku, o dvě písmena vedle apod.).

Ale tohle všechno jsou, předpokládám, otázky na Duke of York.
Zbyněk Burget
zburget
 
Příspěvky: 12523
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » čtv dub 22, 2021 7:49

Já ještě u editace polygonů narazil na problém, že mám bod, který prostě nejde chytit. A některých bodů se trefuje velice špatně. Nedaly by se ty bode zvětšit? Resp. zvetšit oblast kolem bodu, do které když se klikne, tak se bod chytí.
A drobnost - když existuje možnost bod smazat, bylo by dobré mít možnost bod přidat. Např. když se klikne pravým myšítkem na na čáru.
A nebo přidat nějakou kombinaci kláves - např.: Ctrl+Shift na bod = smazat; Ctrl+Shift na čáru = přidat. Ale to není něco, čí by bylo potřeba se teď zdržovat.
Zbyněk Burget
zburget
 
Příspěvky: 12523
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » čtv dub 22, 2021 21:06

Nevím jestli jsem to zmínil, ale pro správné učení OCR je nutno potvrzovat pouze řádku u kterých je 100% jejich přepis. Zkoušel jsem učit OCR nad datasetem "Soa Zámrsk Dubenec sign. 34-6 NOZ 1700-1758" a hned na prvním skenu třetí řádek v nadpisu je přepsán jako "In allat", přitom z toho řádku mi to připadá jako by tam mělo být více slov a delších. Náhodou jsem tento řádek viděl při trénování, síť pro něj navrhovala přepis "Installatus baptikavi sepentes." což ve finále způsobilo velkou chybu :)
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod matju » pát dub 23, 2021 6:24

Určitě to tam být odentrováno nemá.... Spíš si nejsem vědoma, že bych to potvrzovala :(.... Pokud jsem vám tím způsobila nějaký problém, moc se omlouvám...
TY Michala Maturová
matju
 
Příspěvky: 1025
Registrován: čtv úno 14, 2013 22:50
Oblast pátrání: Hradecko, Jičínsko, Trutnovsko, Železnobrodsko, Hořicko, Berounsko, Střední čechy
https://www.mojekoreny.com/

PředchozíDalší

Zpět na Nápady

Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 2 návštevníků