OCR pro rucne psany text s doucovanim

Máte nějaký nápad o kterýse chcete podělit, nebo radu kterou chcete přispět ostatním v jejich genealogickém úsilí? Můžete ji napsat sem.

Re: OCR pro rucne psany text s doucovanim

Příspěvekod matju » stř dub 14, 2021 22:02

Ach, už tomu začínám rozumět :).... A když se potrénuje, promítne se pak to, co natrénoval automaticky do těch již jednou detekovaných anotací, nebo jen do těch, co znovu načtu? Nebo na to pak funguje to "zjištění přepisů označených řádků textu pomocí ocr"?
TY Michala Maturová
matju
 
Příspěvky: 1025
Registrován: čtv úno 14, 2013 22:50
Oblast pátrání: Hradecko, Jičínsko, Trutnovsko, Železnobrodsko, Hořicko, Berounsko, Střední čechy
https://www.mojekoreny.com/

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » stř dub 14, 2021 23:12

Po natrénování instance modelu můžete touto instancí zkusit nechat přečíst nepotvrzené řádky. K tomuto slouží úkol "Zjištění přepisů označených řádků textu pomocí ocr".
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Duke of York » čtv dub 15, 2021 11:08

matju píše:Ach, už tomu začínám rozumět :).... A když se potrénuje, promítne se pak to, co natrénoval automaticky do těch již jednou detekovaných anotací, nebo jen do těch, co znovu načtu? Nebo na to pak funguje to "zjištění přepisů označených řádků textu pomocí ocr"?


Musite v podstate porad opakovat tri veci:
1. opravit spatne rozpoznany text nebo prepsat text novy
2. pustit na tom uceni (nebo spise douceni) site
3. naucenou (doucenou) siti znovu rozpoznat text (pustit to ale na tech radcich, co jste neopravovala, nebo na uplne novem textu)
a tak porad dokola... :-)

Samozrejme to bude nejlepe rozpoznavat text, ktery bude podobny tomu prepsanemu textu. Nema teda asi moc smysl opisovat stranku za strankou, ale treba kazdy druhy radek, nebo kazdou druhou stranku, nebo kazdou desatou stranku, nebo tak nejak...
Duke of York
 
Příspěvky: 116
Registrován: ned kvě 08, 2011 6:33

Re: OCR pro rucne psany text s doucovanim

Příspěvekod matju » čtv dub 15, 2021 15:46

Všimla jsem si, že OCR má v mých textech velmi často problém s rozeznáním "n" a "ri" - např. slovo Maria často píše jako Mana.
TY Michala Maturová
matju
 
Příspěvky: 1025
Registrován: čtv úno 14, 2013 22:50
Oblast pátrání: Hradecko, Jičínsko, Trutnovsko, Železnobrodsko, Hořicko, Berounsko, Střední čechy
https://www.mojekoreny.com/

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » čtv dub 15, 2021 17:15

Jj, těch problémů je tam celkem hodně, dokud se to nevytrénuje. A aby se to vytrénovalo rozumně, bylo by potřeba určitě řádově tisíce až desetitisíce (možná i víc) přečtených textů. Ale pokud je jeden (nebo podobný) rukopis, tak mi to čte celkem obstojně po osmi přepsaných stranách. Tím obstojně nemyslím, že by se ty přepisy daly už použít, ale už z toho nelezou úplné nesmysly. Spíš jen už opravuju jednotlivé chyby ve slovech.

Mám nachystaný celkem dlouhý text, kde k tomu celému napíšu nějaký svůj názor a poznatky, ale ještě chci dorazit poslední stránku. Pak to sepíšu, dotesu a hodím sem.
Zbyněk Burget
zburget
 
Příspěvky: 12594
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod matju » čtv dub 15, 2021 17:27

Jo docela příjemně mne to překvapilo, že po pár stránkách už to opravdu je schopné něco rozpoznat.
Nešlo by prosím něco provést s tím zoomováním na kolečku, je to otravné, jak to nefunguje :).
TY Michala Maturová
matju
 
Příspěvky: 1025
Registrován: čtv úno 14, 2013 22:50
Oblast pátrání: Hradecko, Jičínsko, Trutnovsko, Železnobrodsko, Hořicko, Berounsko, Střední čechy
https://www.mojekoreny.com/

Re: OCR pro rucne psany text s doucovanim

Příspěvekod matju » čtv dub 15, 2021 18:37

A ještě dotaz - nešly by ty již hotové polygony, které jsou automaticky vytvořeny nějak editovat - zvětšit/zmenšit/ rozdělit - občas by se mi hodilo je nějak upravit a nechce se mi je tvořit celé znova... Ale nevím, jak moc je to složité...
TY Michala Maturová
matju
 
Příspěvky: 1025
Registrován: čtv úno 14, 2013 22:50
Oblast pátrání: Hradecko, Jičínsko, Trutnovsko, Železnobrodsko, Hořicko, Berounsko, Střední čechy
https://www.mojekoreny.com/

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » čtv dub 15, 2021 19:35

Zoomování budu řešit (u mě na touchpadu funguje už dlouho, na myši jsem ho nezkoušel). Editaci polygonů budu také řešit co nejdříve.

Přidal jsem možnost zadávat řádky a regiony pomocí polygonů. Anotace jdou také nově rychleji mazat klávesou "Esc".
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » čtv dub 15, 2021 20:31

Kreslení pomocí polygonů je super. Ale to mazání Escapem není úplně dobrý nápad a hlavně funguje divně. Já označil region, který jsem chtěl smazat a ono to smazalo jiný region, kde jsem měl hromadu potvrzených přepisů :-(
Koukněte na to ještě. A pokud by to šlo, radši bych to přehodil na klávesu Del - Esc se používalo pro zrušení přepisu, což bylo logičtější.

Když nakreslím region a chci kreslit řádek, musím před každým řádkem kliknout v seznamu regionů na region, jinak se řádek umístí mimo všechny regiony. A to je ten region při začátku kreslení i zvýrazněný, takže bych předpokládal, že se to bude kreslit do něj.
Zbyněk Burget
zburget
 
Příspěvky: 12594
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod matju » čtv dub 15, 2021 20:46

Polygony bezva, Esc bych taky nechala pro zrušení potvrzení přepisu, to mi taky tak přišlo logické...

Dotaz: lze nějak editovat (přesouvat) pořadí nahraných scanů(obrázků) ? Omylem jsem tam zapomněla nahrát jeden scan, nahrála ho dodatečně, a teď se mi zobrazuje ve špatném pořadí...?
TY Michala Maturová
matju
 
Příspěvky: 1025
Registrován: čtv úno 14, 2013 22:50
Oblast pátrání: Hradecko, Jičínsko, Trutnovsko, Železnobrodsko, Hořicko, Berounsko, Střední čechy
https://www.mojekoreny.com/

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » čtv dub 15, 2021 21:16

Hmmm - tak jsem si na stránce nakreslil vlastní polygony v domění, že když ten text opravdu poctivě vyřežu, bude to mít lepší úspěšnost ve čtení. Ale opak je pravdou. Přečetlo to necelou třetinu řádků, u většiny to prostě nepřečetlo ani znak. A to, co to přečetlo, tak jsou úplné zmatky :-(

Když bych pustil znovu detekci regionů - co to udělá na stránkách, kde už jsou potvrzené přepisy? Nemám moc odvahu to zkoušet :-)
Zbyněk Burget
zburget
 
Příspěvky: 12594
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » čtv dub 15, 2021 22:21

Esc jsem vrátil zpět, Delete jsem přidal (bohužel ho ale nemám jak otestovat, jelikož na macu klávesu Del nemám :)).

Přesouvat pořadí nahraných scanů zatím nelze. Problém s kreslením regionů a vnořených řádků v rámci možností opraven.

Můžete mi popsat kde ty vaše polygony najdu? :)
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » pát dub 16, 2021 6:25

Koukněte na dataset Test předposlední sken (…90.jpg) pravá strana. Je tam i to, co to přečetlo a u kterých polygonů. Říkal jsem si, jestli to není přílišnou "košatostí" polygonů, ale snažil jsem se je vyříznout tak, aby tam byly vždy celá písmena z daného řádku a pokud možno žádná část písmene z řádku jiného.
Ale ten problém může být obecnější, protože jsem si všiml, že když jsem nakreslil vlastní ohraničení řádku kolem názvu vesnice (na levé straně za čarou) i dřív jen obdélníkem, tak to často následně nebylo přečteno.
ad Del - na macu si můžete připrogramovat třeba Command+Esc nebo Command+Backspace :-)
Zbyněk Burget
zburget
 
Příspěvky: 12594
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » pát dub 16, 2021 8:36

Z obrázku se nejdříve vyřeže bounding-box daného polygonu, poté se z tohoto vyřeže teprve daný polygon, zbytek obrázku zůstane bílý. Poté se obrázek pootočí, aby byl text rovně.
Díval jsem se jak program vyřeže polygony, které jste ručně naklikal. Nevidím moc důvod, proč by je nemohl přečíst. Pravděpodobně to je tím, že automaticky detekované anotace mají jinou geometrii. Pokud při trénování předhazujete sítí podobné obrázky (stejný způsob výřezu) a pak síti předhodíte obrázek, který se od všech ostatních odlišuje (např tím způsobem výřezu), tak to síť "zmate". Myslím, že by mohlo pomoct, kdybyste síť naučil i na nějakých vlastnoručně vyřezaných polygonech.
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » pát dub 16, 2021 12:58

Testoval jsem funkčnost zoomování pomocí kolečka myši a touchpadu na několika různých PC, všude fungovalo. Nakonec mě (bohužel až teď) napadlo otestovat to na jiných prohlížečích než je Google Chrome. Na prohlížeči Firefox to pak už nefungovalo :) Omlouvám se všem, co používají Firefox. Opraveno :)
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

PředchozíDalší

Zpět na Nápady

Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 25 návštevníků