OCR pro rucne psany text s doucovanim

Máte nějaký nápad o kterýse chcete podělit, nebo radu kterou chcete přispět ostatním v jejich genealogickém úsilí? Můžete ji napsat sem.

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » ned dub 18, 2021 7:32

Hmmm - tak teď nečte vůbec :-(
Pustil jsem infering na tom posledním skenu (…100.jpg) a není přečtený ani jeden řádek. Přitom včera jsem je měl přečtené skoro všechny. Po znovurozpoznání řádků je teď prázdno.
Zbyněk Burget
zburget
 
Příspěvky: 12523
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » ned dub 18, 2021 12:33

OCR jsme upravoval, asi jsem tam zanesl novou chybu. Zítra to vyřeším.
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » ned dub 18, 2021 19:26

zburget píše:Teď jsem narazil na ještě jeden nový problém. Když jsem si smazal nějaké řádky v dataset Test, sken …100.jpg, tak jsem znovu spustil rozpoznávání řádků (když ty ručně nakreslené polygony dělají problémy).
Vždycky jsem ručně promazal polygony, které tam byly navíc (třeba propité řádky apod.). Jenže po včerejším spuštění některé nejdou smazat - tedy přesněj - ony vůbec nejsou v tom seznamu vpravo dole.
Když kliknu na řádek, tak se v zesnamu příslušný region rozbalí a region řádek napíše bíle. Když ale kliknuá na některé řádky, nic se neoznačí. Zkuste kouknout na ten sken …100.jpg, levá strana úplně nahoře. Nad prvním potvrzeným řádkem jsou tři polygony, které označují asi propitý text. Když na ně kliknete, nic se nezvýrazní. A je jich na staně víc.


Polygony šlo normálně smazat. Taková chyba se mi zatím nestala. Pokud na takovou chybu narazím, zkusím zjistit čím to je a opravit to.
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » ned dub 18, 2021 19:36

Přidal jsem mazání řádků/regionu na zkratku Ctrl + Del. Potvrzovat řádky jde pomocí Enter na numpadu.

Co se týče toho, že Tesseract OCR nečte některé řádky -- díval jsem se jaké obrázky "lezou" do OCR pro přepis a obrázky jsou vyříznuty a otočeny správně, takže chyba v obrázcích není. Tesseract OCR prostě pro některé řádky nevyhodí žádný přepis a já to nemám moc jak ovlivnit. Zkoušel jsem na problémové řádky spustit i mé CRNN OCR a to nějaký přepis našlo.

Přidal jsem do globálních instancí instance CRNN OCR "OCR_ceske_kroniky", která je natrénvaná na českých kronikách (cca 25k řádků). Z této instance jsem vytvořil instanci CRNN OCR "Test, zburget" a natrénoval ji na dataset "Test". Potom jsem ji na tomto datasetu i inferoval. Koukněte na ty přepisy, jestli jsou ok :)

Doteď jste většinou používali to Tesseract OCR. Už můžete zkusit používat i to mé CRNN OCR. Jen mu prosím při trénování nedávejte stovky ani tisíce iterací, jinak budete dlouho čekat, zbytečeně.
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod matju » ned dub 18, 2021 21:03

Ja s tím mazáním polygonů taky bojuji, občas to prostě nejde:
-např : Soa Zámrsk Dubenec sign. 34-6 NOZ 1700-1758: scan : 1 CZEC0004D_Matri ... 005.jpg mám v druhém řádku posledním sloupci matriky (vedle slova Jacobus Girka) prázdnou anotaci, která mi smazat nejde... Ani ji nevidím v seznamu vpravo dole...
TY Michala Maturová
matju
 
Příspěvky: 1025
Registrován: čtv úno 14, 2013 22:50
Oblast pátrání: Hradecko, Jičínsko, Trutnovsko, Železnobrodsko, Hořicko, Berounsko, Střední čechy
https://www.mojekoreny.com/

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » ned dub 18, 2021 21:57

Ano, už jsem našel chybu. Opraveno.
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » pon dub 19, 2021 7:00

V případě CRNN OCR se vypisuje u trénování už i chyba v % (character error).
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod matju » pon dub 19, 2021 7:11

Ještě jedna věc, co zlobí:
Vytvořím si sama nový řádek. Nic do něj nanapíšu, ale hned po vytvoření si to rozmyslím a chci o smazat. Aniž kamkoliv překlikávám, protože jsem na něm, tak ho smažu. Ale smaže mi to náhodně(?) nějaký jiný řádek, který už je vytvořen, nebo (snažím se teď tu chybu vyvolávat) to nemaže nic.... Jak někam překliknu a pak řádek znovu označím, chová se to už dobře...
TY Michala Maturová
matju
 
Příspěvky: 1025
Registrován: čtv úno 14, 2013 22:50
Oblast pátrání: Hradecko, Jičínsko, Trutnovsko, Železnobrodsko, Hořicko, Berounsko, Střední čechy
https://www.mojekoreny.com/

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » pon dub 19, 2021 8:55

Tý jo! Dobrá práce!!!
CRNN čte velice, velice dobře - jestli je to tém tréninkem na těch kronikách a nakolik tomu pomohlo trénování na pouhých 9 stranách toho opisu, to tedy nedokážu ani v nejmenším odhadnout (netuším, jak vypadaly ty přepisy kronik). Ale teď, bych řekl, že to čte poměrně dost dobře!

Jen důležitá otázka - zná to znaky æ a Æ?


Instance CRNN Test, zburget není veřejná - nevidím ji - prosím o zveřejnění :-)
Zbyněk Burget
zburget
 
Příspěvky: 12523
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » pon dub 19, 2021 9:05

Resp. Jakou znakovou sadu to teď zná?
Zbyněk Burget
zburget
 
Příspěvky: 12523
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » pon dub 19, 2021 11:57

Předtrénování na českých textech se OCR pravděpdobobně naučilo najaké obecné vzorce z dat, které pak mohlo aplikovat i na vaše latinské texty, každopádně lepší než trénovat od začátku :).

Znaková sada: abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789áčďéěíňóřšťúůýžÁČĎÉĚÍŇÓŘŠŤÚŮÝŽäüößàèêù~?!:()[]{}.,;-'„“%&#*/
Mohl bych tam přidat ty dva znaky, ale musel bych to zase přetrénovat znovu, jelikož by se změnila topologie sítě.

Instance modelu CRNN "Test, zburget" by měla být veřejná. Zkoušel jsem se podívat přes druhý účet.
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod matju » pon dub 19, 2021 13:10

Já CRNN " Test, burget" vidím....
TY Michala Maturová
matju
 
Příspěvky: 1025
Registrován: čtv úno 14, 2013 22:50
Oblast pátrání: Hradecko, Jičínsko, Trutnovsko, Železnobrodsko, Hořicko, Berounsko, Střední čechy
https://www.mojekoreny.com/

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » pon dub 19, 2021 15:46

ad "moje" instance OCR - jasněže stačilo znovu načíst stránku :-)

S tou znakovou sadnou by bylo dobré nějak popřemýšlet, co všechno tam přidat. Ono těch znaků, které by tam mohly být, bude asi ještě víc. Já nad tím zkusím trochu popřemýšlet, ale i tak by to chtělo probrat s někým povolanějším. Možná taky s někým, kdo vlastně vůbec ví, co všechno by se dalo najít v Unicode tabulce a vo by se tedy reálně dalo použít.
Do té doby, než bude tohle jasné, bych do toho asi nezasahoval, aby se to celé zbytečně nerozbíjelo víckrát.
Zbyněk Burget
zburget
 
Příspěvky: 12523
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » pon dub 19, 2021 23:54

Tak…
Vím, že to po mně nikdo nechtěl a ani nikdo nečeká, ale mám potřebu se podělit se svými zkušenostmi s hraním si s touhle aplikací. Možná si z toho vezme něco autor práce, možná vedoucí práce, ale budiž to zde i jako informace pro všechny členy fóra.
Nahrál jsem do OCR prvních 10 skenů z opisu matriky sig. opis24. Jsou v tadasetu "Test". Vyznačují se tím, že jsou psány latinsky, jedním rukopisem, všechny záznamy mají identickou strukturu (tedy s ohledem na to, že je tam několik křtů a několik sňatků). Pořád dokola se opakuje identická formulace zápisu, točí se dokola několik stejných vesnic, o jménech nemluvě. Komplikací je to, že skrz papír někdy víc, někdy míň prosvítá inkoust z druhé strany. Na stránkách jsou navíc nakresleny svislé čáry, které oddělují vesnici od zbytku záznamu, bohužel i ty čáry prosvítají na druhou stranu a to dělá potíže, viz dále.
Na nahrané skeny jsem nejdřív spustil automatickou detekci řádků (anotace). Ta je bohužel prozatím dost bídná. Tedy - řádky to detekuje, to jako ne, že by to dělalo úplné zmatky, ale… Nejen velkou iniciálu (tam je to nejmarkantnější), ale i "rozevlátou" spodní smyčku písmene je to schopné rozbít na několik samostatných regionů, velice často to ustřihne kus písmene - řekl bych až zcela běžný jev, většinou to očeše vršek a spodek velkého písmene. Naprosto běžně ustřihne horní nebo dolní smyčku písmene. Jaký vliv to pak má na kvalitu učení a čtení, nedokážu posoudit. Občas to taky neoznačí řádek až do konce, jednoduše klidně ustřihna pár písmen z posledního slova a v souvislosti s výše uvedenými prosvítajícími čarami je schopný rozdělit tou svislou čarou řádek na dvě části, klidně uprostřed slova. Pořadí regionů na stránce a pořadí řádků v regionu je nejasné a nelze nijak definovat jeho pořadí. Přišlo by mi logické, aby byla stránka rozdělena na regiony, kde jeden region bude jeden záznam. Ten by mohl být (v případě matriky, kde jsou "chlivečky") rozdělený ještě na nějaké "podregiony" a ty na řádky. Aby bylo jasné, co k čemu patří a mohly se texty analyzovat v nějakém kontextu. Teď je kontext, předpokládám pouze jeden řádek a to není úplně fajn. Obzvlášť v případě, kdy je na konci řádku rozdělené slovo.
Vzhledem k nedobré detekci řádků velice chybí možnost regiony a řádky editovat ručně. Je možné sice nakreslit polygon ručně, ale aby to bylo 100%, musel bych rezignovat na automatické stříhání řádků a udělat to komplet ručně :-(. Možnost editovat polygony, předpokládám, ještě bude dořešena. Špatnou detekci regionů a řádků samozřejmě neberu, jako chybu té OCR aplikace. Jen, bohužel, pravděpodobně hodně snižuje jeho schopnosti a kvality. Těším se na možnost editace polygonů a pak uvidím, jestli se čtení zlepší.
K anotacím mám ještě jeden poznatek - automat se snaží najít řádek v čemkoli, co naznačuje text. Tedy i v prosvítajících řádcích. Poctivě jsem promazával všechno, co neoznačovalo reálný text. Rozbité části textu (písmeno rezdělené na několik regionů) jsem smazal taky a protože to bylo nejčastější u názvů měsíců a u obcé na kraji stránky, nakreslil jsem ručně obdélníky tak, aby obsahovaly celé slovo. Během práce jsem ale automatické anotace musel pustit znovu a pak už jsem ty nesmyslné polygony nemazal :-(

A teď OCR samotné: postupoval jsem tak, že jsem přepsal stránku, spustil trénink, vzal další stránku, opravil (ze začátku prakticky komplet přepsal) to, co OCR přečetlo, znovu spustil trénink, a šel na další stránku. Od začátku jsem používal OCR model Tesseract, kvůli kompletnější znakové sadě. Prvních několik stran to byla totální katastrofa. Jen zmatky. Pak mi autor aplikace vyrobil jinou instanci OCR modelu, která nebyla "infikovaná" nějakým starším učením a trochu se to zlepšilo. Celkem razantní a skokové zlepšení nastalo po přečtení pěti skenů. Ne, že by to najednou začalo číst, jako z partesu, to ani omylem. Výsledky byly pořád absolutně nepoužitelné, ale najednou se začaly objevovat správně přečtená slova. U těch stále dokola se opakujících (Bapt., est, filius, filia, Cujus, Patrini) bych to býval byl čekal dřív, protože to bylo několik desítek identických záznamů, Ale vyrazilo mi dech třeba správně přečtené slovo Molitorissa. Jednalo se ale pořád jen o zlomek správně detekovaných slov. Místy mi připadá, jako by to četl úplný začátečník - plete si to písmena, obzvlášť verzálky (B,P,J), plete si to malá, podobná písmena (i, c, e), přehazuje to písmena (in -> ni - když tečka lítá někde kolem), čte to otrocky to, co to vidí - třeba Jawbus místo Jacobus, protože to tak opravdu vypadalo. I když je to schopno přečíst výše uvedená slova, tak je to velice často (ve většině případů) zkomolí. Takže je jasné, že tomu chybí nějaký slovník, byť by si ho vytvářel třeba jen z přečtených slov. Často nesedí vůbec tvar a počet písmen. Takže stejně, jako když zde učíme číst nějakého nováčka, bych uvítal možnost učit ten stroj po písmenkách. Neznám přesně algoritmus, jak čte tenhle stroj, ale když učím číst člověka, musím mu občas ukázat, kde jedno písmeno končí a kde druhé začíná. Tady, si myslím, že by to pomohlo taky, protože i na konec mého prvního testu to prostě písmenka vynechává, zdvojuje, občas někde nějaké přidá tak, že na první pohled nesedí počet písmen apod. Častější zmatky byly u rozdělených slov - prakticky je to nebylo schopno přečíst. Takže je vidět, že tady chybí kontext a návaznost řádků na sebe. Z toho mi vypláývá otázka - je to OCR schopno pochopit takovou věc, jako je rozdělování slov?
Daleko větší problémy jsou (celkem logicky) v místech, kde je propitý text z protější strany. A taky tam, kde se písmena nějak překrývají napříč řádky. Z toho mi vyplývá, další poznatek na zapracování do nějaké budoucí verze OCR a to, že je potřeba při čtení vidět i hornější a spodnější řádek, nejen aktuální. Aby bylo jasné, jestli je řádek hezky oddělený a nebo se překrývá s něčím jiným. Stejně, jako když ten text čtu já a míchají se do sebe písmena napříč řádky, musím se snažit odlišit, která část čáry patří k hornímu písmenu a která ke spodnímu. Kdybych viděl jen ten jeden vystřihnutý řádek, nemohl bych mít šanci to dešifrovat. Takže si myslím, že tomu stroji chybí i ten kontext grafický (nebo jak to napsat) nejen kontext smyslu textu a jazyka, a kontext toku textu (kde končí řádek a kde text pokračuje - to je někdy taky vůbec hlavolam i pro živého člověka), ale kontext co patří ke znakům v aktuálním řádku a co jsou čáry od znaků shora a co jsou čáry od znaků odspoda.

Další opravdu razantní zlepšení nastalo, po natrénování přepsaného 7. skenu (při čtení osmého). Bylo to po tom, co bylo upraveno to vyřezávání (a natáčení) řádků pro trénink a OCR. Ale vzhledem k tomu, že moje texty jsou psány prakticky vodorovně, nevím, jestli mělo vliv tohle a nebo jen další natrénované stránky. Od osmé stránky jsem už v podstatě jen opravoval chyby v jednotlivých slovech. Jo, ještě opravuju chybu skoro v každém slově a i teď se stane, že OCR přečte naprostý nesmyslný zmatek, ale většinou už jsou to opravdu chyby v jednotlivých slovech, při troše fantazie už bych asi z přepisu pochopil, co je tam napsáno. Problémem zůstávají hlavně velká písmena na začítku slov. S těmi má stroj opravdu problémy. Možná proto, že je jich v textu prostě opravu míň, s velkými písmeny mají problém i živí lidé, jen je většinou "odhadneme" z kontextu (opět narážka na chybějící slovník). A ještě byly problémy se samostatně stojícími slovy - názvy měsíců, názvy obcí. Celkem záhadně to mělo pořád obrovský problém třeba s tak jednoduchým jménem, jako je Anna. I když bylo napsané velice hezky a jasně, tak to OCR vždycky nějak namršilo. Naopak je ochotné to přečíst poměrně složité slovo (např. Konicensis), které je navíc poničené propitým inkoustem z druhé strany papíru.
No, konec experimentu se pak trochu podělal :-(. Na předposledním skenu jsem si jednu stránku nakreslil vlastní polygony pro řádky a OCR se na jejich čtení prostě z vysoka vybodlo. Přečetlo mi to tak cca 1/4 řádků, ostatní to nechalo prostě úplně prázdné. Takže poslední sken jsem řešil už opět automaticky vytvořenými regiony. Jenže - poslední stránku a půl, po nějakých dalších úpravách OCR mi model Tesseract přestal číst úplně. Z řádků na poslední stránce a půl nepřečetl zhola nic. Ani čárku :-(. Škoda, že se tak ten test nedal rozumně dokončit na tom modelu Tesseract.
Následně jsem vyfasoval novou instanci OCR modelu, tentokrát CRNN. Jeho úspěšnost při čtení mi jednoduše ale vyrazila dech. Má z mého pohledu jedinou vadu a to, že nezná znak ligatury æ. Jinak tedy opravdu klobou dolů a dost dabrý! Sice to opravdu nečte bez chyby, pořád to dokáže zmršit komplet celý řádek a napsat tam totální nesmysly, ale většinou to čte opravdu relativně dost dobře. Na to, že to dostalo nasypáno pouze 10 stránek toho rukopisu, často s propitými protějšími stránkami, s automatem, který vyřezává řádky tak, že bych tomu urazil pracky, tak to dává fakt velice zajímavý výsledek. Reálně ještě nepoužitelný, ale dost dobrý :-). Můžete se na něj kouknout v datasetu "Test - výsledek". Jsou tam vidět všechny nedostatky, o kterých jsem tady psal. Od zmatků v automatické detekci řádků (rozdělené iniciály a některá velká písmena, rozstříhané řádky svislou čárou, uřezané vrchy a spodky písmenek), přes bezchybně přečteá slova, po totálně zmatečně přečtený celý řádek. Drobné poznámka - zkratku e s vlnovlkou (est) jsem přepisoval, jako e~ a mašinka se to naučila a takhle mi to teď přepisuje. Chybí veškeré æ, protože to tenhle znak, jak jsem psal, neumí.

Tak - a teď nějaké návrhy na dopracování:
  1. auomatické anotace - tohle musí někdo těžce doladit, ale to není chyba této aplikace. Píšu, protože to tu aplikaci podle mě dost znehodnocuje.
  2. dořešit logiku rozdělování stránky na regiony (podregiony?), možnost definovat pořadí regionů.
  3. dořešit editaci polygonů u regionů a řádků. A vzhledem k nějaké logice taky umožnit přesouvání řádků mezi regiony.
  4. při opravě přepisů mi chybí nějaká možnost pohybu na další řádek. Chytat na myš po každém potvrzení přepisu řádku strašně zdržuje.
  5. doplnit znakovou sadu CRNN modelu o další znaky tak, aby se do ní vešlo vše, na co lze ve starých textech narazit. Ale to je otázka hlavně na odborníky historiky. Mně osobně tam chybí pro latinu znaky æ,Æ,œ,Œ,â,ô a pro všechny jazyky +, × (pro označení zemřelého), možná znaky *, №. Napadá někoho ještě nějaký další znak?
  6. je potřeba přesně definovat, jak přepisovat zkratky a věci, pro které neexistuje znak (např. kopy grošů). Jak přepisovat zkratky zdvojení písmene zapsané vodorovnou čarou - rozepisovat dvě písmena? Vodorovnou čáru nad písmenem není v PC jak zapsat. Já rozepisoval dvě písmena, ale netuším, jestli to ten stroj může pochopit. A nebo mu to nějak doprogramovat? Jak zapisovat zkratky typu D[omin]us, e[st], s[vatéh]o, kde je zkratka naznačena vlnovkou a nebo je konec slova dopsán, jako horní index? Já teď psal např. D~nus, e~. Nebo to rozepisovat jako D[omi]nus, e[st]? Jak zapisovat zkratky řadových číslovek 1ma, 2da, 3tia, 3ho, 12ten?
    Jak přepisovat latinskou koncovku -us. Já se to tomu snažil celkem násilně vnutit, ale ono to přepisuje, jako -g, -u nebo -s (asi podle aktuální nálady). Přepis filig, Marting je ale logicky blbě (opět by pomohl slovník). A stejná otázka pak je na přepis koncovky -que a předpony con-.
    Chtělo by to nějaký "metodický pokyn", abychom to přepisovali "správně". Proto taky mám u všeho připsáno "test", protože nepovažuju za rozumné, abych nevhodnými přepisy nebo nevhodnými výstřižky řádků nemršil trénink neuronové sítě. Až bude k dispozici opravená znaková sada, možnost úpravy polyonů a pokyny k přepisu, udělám vše znovu.


Osobně si myslím, že tohle má dost velký potenciál, ale podle mě to má ještě poměrně zásadní nedostatky, díky kterým to ještě nemůže být reálně použitelné. Nemyslím si, že by to byly věci, které by se do toho nedaly dotvořit, ale je to ještě běh na hodně, hodně dlouhou trať. Když to tak vidím, tak to není téma na jednu diplomku. To je práce pro tým lidí, kde každý bude dělat jinou součástku celého systému, aby to nakonec všechno sedlo dohromady a spolupracovalo. Tahle diplomka ukazuje, že se to naprogramovat dá. Že to půjde, ale ukazuje taky všechno, co tomu ještě chybí (a co živý člověk má).
Mimo vše, co jsem popsal výše, je třeba zjistit, co vlastně čtu (gruntovnici? dopis? listinu? kupní smlouvu? matriku?), protože podle toho bude potřeba hledat kontext textu. A pokud se omezím jen na matriky, tak jakou (křestní? oddací? úmrtní?). Jakým je to napsáno jazykem? je to souvislý text, jako v mém opisu a nebo jsou tam chlívečky pro dítě, otce, matku, kmotry (nebo je třeba otec a matka v jednom chlívečku)? Jak naložit s texty, které jsou přes chlívečky (typicky porodní bába nebo různé souhlasy a poznámky). Dává logiku to, co čtu? Nejsou třeba přehozené chlívečky? Ve starších matrikách se mi to celkem často stávalo, že v jednom ze záznamů byly chlívečky pozpřehazované.

Pokud bude k dispozici editace regionů a doplněná znaková sada, určitě ještě poexperimentuju s tímhle přepisem, protože kvůli jednomu dlouho používanému rukopisu, si myslím, že by mohlo být reálné, že se to naučí číst tenhle rukopis nějak rozumně (v rámci omezení popsaných výše). Každopádně budu držet všechny palce při obhajobě diplomky, protože to vůbec nebude jednoduché. Hlavně bude potřeba najít všechna slabá místa, která výrazně snižují úspěšnost OCR. Třeba k tomu i tenhle můj text trochu přespěje.
Zbyněk Burget
zburget
 
Příspěvky: 12523
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod matju » úte dub 20, 2021 8:06

Zbyněk to pěkně shrnul.
Já jen stručně, co hodně postrádám za sebe (byť to už Zbyněk skoro všechno psal), ale chápu, že to možná nejsou věci přínosné a nutné pro úspěšnou obhajobu dimplomky, o kterou tu jde zejména..

1) možnost editace již vytvořených polygonů řáky/regiony
2) přesnou domluvu, co a jak přepisovat, abych do učení nevnášela zmatky nesprávnými přepisy... (kopy grošů, věrtele, korce apod., zkratky (-us, zdvojené nn (např. Anna), které se zkracuje jak "n" s vlnovkou, jak přepisovat jména jako Wenceslaus/Xstophorg/Georgig, Marting, která se vyskytují v různýc pozkracovaných variantách, Propl.? (zkrácení proplaczeno), Novembris (zkáceno 9bris)
3) vytvoření slovníku po použitá slova kterou bude OCR využívat a přepisující uživatelé doplňovat
4) možnost přehazování pořadí scanů (obrázků) (aby se neřadily jen tak, jak jsou po sobě nahrány)
5) možnost exportu přečtených dat např. do excelu

Já trénovala na matrice narozených, která byl psána formou tabulky. Příjemně mne překvapilo, že po cca 10ti stránkách učení začalo OCR samo číst poměrně srozumitelně (často opakovaná slova jsou +- správná, i méně častá i nová slova si dokáže OCR poměrně správně rozpoznat, pokud jsou hezky zapsaná). Problém samozřejmě stále je u překrývajících se a do sebe namatlaných slov, tam stále lezou nesmysly.

Ještě mám roztrénovanou gruntovní knihu, chtěla bych zkusit ještě pár stránek doplnit, jestli se bude opakovat ten zlomový bod a začne to zase po deseti stránkách samo smysluplně doplňovat texty, nebo jestli je tenhle rukopis až moc nečitelný :).

Jinak taky držím palce s obhajobou.
Naposledy upravil matju dne úte dub 20, 2021 8:57, celkově upraveno 2
TY Michala Maturová
matju
 
Příspěvky: 1025
Registrován: čtv úno 14, 2013 22:50
Oblast pátrání: Hradecko, Jičínsko, Trutnovsko, Železnobrodsko, Hořicko, Berounsko, Střední čechy
https://www.mojekoreny.com/

PředchozíDalší

Zpět na Nápady

Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 5 návštevníků