OCR pro rucne psany text s doucovanim

Máte nějaký nápad o kterýse chcete podělit, nebo radu kterou chcete přispět ostatním v jejich genealogickém úsilí? Můžete ji napsat sem.

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » pon dub 26, 2021 9:53

zburget píše:Wow!!! Díky!
Tak to si s tím zase určitě dobře "pohraju". Ještě chci s vaším vedoucím práce trochu probrat ten automatický anotátor. Pak si poupravím řádky, aby to nestříhalo kusy písmen (protože mi to dělá z velkého C závorku "("; z velkého B malé b; p mi to občas ustřihne až na a :-(). A pustím se do přepisů. Teď po natrénování na těch kronikách je to s latinou úplně totálně vedle. Tak musím začít od začátku. A nechci to trénovat ani na té mojí testovací sadě, protože ta je pravě anotovaná dost blbě.
Ale nějak si s tím poradím :-)


Vytvořil jsem instanci "Test, Latin" zděděnou z českých kronik a natrénoval ji na tom Vašem datasetu "Test". Ještě to asi bude chtít dotrénovat :)
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » pon dub 26, 2021 13:39

Mám v plánu si ten můj test tím nechat přečíst, opravím to a pak si vyrobím novou instanci zděděnou z těch kronik a tu budu trénovat "na čisto". Před tím ale chce nějak opravit ty anotace řádků, aby nebyly písmenka ustříhané v půlce - a to ještě chci nejdřív probrat s vaším vedoucím práce.
Zbyněk Burget
zburget
 
Příspěvky: 12578
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » pon dub 26, 2021 18:50

Dotrénováno. Pokud chcete, můžete vytvářet nové úkoly pro trénování/inferenci CRNN OCR.
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » pon dub 26, 2021 20:32

zburget píše:Já bych přece jen poprosil o zvětšení oblasti, za kterou se dá chytit bod při editaci polygonu. Chytit některé body je téměř nadlidský úkol :-(


Oblast zvětšena 2.5x. Problém je ale stále s tím, že nejdou uchopit body překryté jiným polygonem.
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » úte dub 27, 2021 15:48

Mám dva záludné dotazy.
Když budu mít definovaný region, v regionu řádek a polygon toho řádku poleze vně regionu. Co se stane? Bude vystřižený řádek tak, jak je definovaný a nebo bude ořezaný i hranicemi toho regionu?
A druhý - jak vnímá OCR řádky v regionu? Jako samostatné řádky bez návaznosti na cokoli jiného a nebo bere kontext celého regionu, tzn. bude číst třeba několik řádků jako jeden souvislý text? Umí pochopit dělení slov? Tedy kousek na konci řádku a zbytek na začátku následujícího?

Bylo by možné doprogramovat, aby se daly řádky přesouvat mezi regiony? Když PERO vymyslí regiony nějak blbě, tak abych mohl řádky aspoň přiřadit logicky k sobě. A s tím souvisí - bylo by možné doprogramovat, aby se dalo měnit pořadí řádků v regionu? Pak už by asi bylo i jednoduché měnit pořadí regionů na skenu, ale to asi není až tak důležité.
Tedy za předpokladu, že by tahle feature nerozbila funkčnost OCR jako takového.
Zbyněk Burget
zburget
 
Příspěvky: 12578
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » úte dub 27, 2021 15:49

Davidh píše:Problém je ale stále s tím, že nejdou uchopit body překryté jiným polygonem.
Je to nepříjemné, ale dá se to obejít. Jen se musí přerovnat víc bodů tam a zase zpátky :-)
Dalo by se to vyřešit tak, že by se při kliknutí s Ctrl pouze chytal bod vybraného (zvýrazněného) polygonu a nemohlo by dojít k přepnutí na jiný polygon. Přepnout polygon na jiný by šlo pouze kliknutím bez Ctrl. Současně by s Ctrl nikdy nešlo chytit bod nevybraného polygonu.
Zbyněk Burget
zburget
 
Příspěvky: 12578
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Davidh » úte dub 27, 2021 20:11

zburget píše:Mám dva záludné dotazy.
Když budu mít definovaný region, v regionu řádek a polygon toho řádku poleze vně regionu. Co se stane? Bude vystřižený řádek tak, jak je definovaný a nebo bude ořezaný i hranicemi toho regionu?
A druhý - jak vnímá OCR řádky v regionu? Jako samostatné řádky bez návaznosti na cokoli jiného a nebo bere kontext celého regionu, tzn. bude číst třeba několik řádků jako jeden souvislý text? Umí pochopit dělení slov? Tedy kousek na konci řádku a zbytek na začátku následujícího?

Bylo by možné doprogramovat, aby se daly řádky přesouvat mezi regiony? Když PERO vymyslí regiony nějak blbě, tak abych mohl řádky aspoň přiřadit logicky k sobě. A s tím souvisí - bylo by možné doprogramovat, aby se dalo měnit pořadí řádků v regionu? Pak už by asi bylo i jednoduché měnit pořadí regionů na skenu, ale to asi není až tak důležité.
Tedy za předpokladu, že by tahle feature nerozbila funkčnost OCR jako takového.


1.) Vyřezávání řádků není ovlivněno regiony.
2.) OCR zachycuje pouze kontext v rámci jednoho řádku, ne mezi řádky. Je to dáno tím, že vstup OCR je obrázek řádku a výstup text.

Přesouvání řádku mezi regiony a změna jejich pořadí lze doprogramovat, ale do odevzdání (které je za 3 týdny) už nechci dělat závažnější zásahy do aplikace. Vaše nápady ale dávám do seznamu návrhů na vylepšení.
Davidh
 
Příspěvky: 46
Registrován: čtv dub 08, 2021 13:25

Re: OCR pro rucne psany text s doucovanim

Příspěvekod Duke of York » čtv kvě 06, 2021 11:46

Takze jsem se bavil s pani z MUNI (a MZK) co zaroven pracuje na projektu PERO. Tak nejak v podstate rikala, ze zadna znakova sada neexistuje (ze si ji delaji za pochodu a v podstate neni nikdo, kdo by rekl, jak ktere znaky prepisovat). Tak bych asi zkusil napsat Michalovi Hradisovi, jestli by me tu aktualni neposlal (ale teda, z meho pohledu tam budou dost ujete znaky, kde bude problem je na klavesnici nejak vyrobit).
Co se tyce tech zkratek, tak jsme se asi v podstate shodli na tom, ze je spravne ten text transliterovat. Tzn. zadne rozvadeni zkratek by se tam delat nemelo, pak se problem presouva na ten predchozi, kdy nevime, jaky znak pro co pouzit. To ale trochu vypada, ze nevi nikdo.
Poslala me odkaz na jakysi Cappelliho slovnik zkratek (a mam ten stejny pramen i od jineho kolegy, takze se to asi pouziva. Tohle mam od ni https://www.adfontes.uzh.ch/en/ressourc ... lli-online a tohle od kolegy https://archive.org/details/CappelliDiz ... 1/mode/2up
Asi by bylo nejlepsi, kdyby se je podarilo dolamat, aby dali odkaz na nejaky online slovnik, kde si budou psat, co jak prepisovat a budou to moct pouzivat i jini lide.
Duke of York
 
Příspěvky: 116
Registrován: ned kvě 08, 2011 6:33

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » čtv kvě 06, 2021 14:22

Ty jo - ty slovníky - to je dílo! To se bude hodit :-)

Ad znaková sada versus klávesnice - on není takový problém vyrobit speciální klávesnici, na které se budou ty znaky dát psát. Te tedy jen otázka, kolik "obskurních" znaků v té své znakové sadě mají.

Pokud by se zkratky nerozváděly, je potřeba zachovat nějakou informaci o tom, že se jedná o zkratku. Tedy to, co končí tečkou je asi jasné. To, co končí nějakým "ocáskem" bych asi přepsal s tečkou na konci (s předpokladem, že dnes pro zkratku máme jednoznačný znak = tečku).
Bude ale potřeba vyřešit takové ty příšernosti, jako závěrečné -us; -que a úvodní con-. Přepisovat to jako -g; -g3 nebo g- mi přijde jako prasečina. Ale jestli to tak historikům přijde "v pořádku", tak se tomu podvolím. Já osobně bych minimálně tohle "rozepisoval", pokud se tomu dá říct "rozepsání zkratky" a nebo ať si k tomu dodají příslušný znak ve znakové sadě.
Zdvojení písmene vodorovnou čárou v podstratě není problém :-), jen je potřeba, aby někdo vyrobil do znakové sady všechna písmenka s vodorovným pruhem. Pak se to bez problému dá psát.

Co bude největší oříšek, tak jsou ty vypuštěné části slov, které jsou naznačené vlnovkou nad slovem. Pokud to čistě ztransliterujeme, tak se ztratí ta informace o zkratce.
Kdybych mohl navrhovat, tak bych to psal, jako D~nus (= D[omi]nus), Jo~es (= Jo[ann]es), R~dus (= R[everen]dus) - případně tedy s nějakým tím speciálním znakem na konci místo -us, které bude určitě taky zkácené :-)
Jo, ještě jsem zapomněl na est, které je jen e s vlnovkou. To by mohlo být e~.

Co by na to řekli odborníci historici?

No a jak řešit slova, kde je části jakoby v horním indexu, 1-ma (prima), S-ho (svatého), 14-ten - to už nechám koňovi, ten má větší hlavu :-)
Zbyněk Burget
zburget
 
Příspěvky: 12578
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod krakentom » pon úno 20, 2023 22:19

Dobrý den, pokračuje nějak vývoj tohoto nástroje? Je možné ho ještě vyzkoušet? Zná někdo něco podobného co by se dalo na strojové rozpoznání písma použít? Díky za odpověď
krakentom
 
Příspěvky: 1
Registrován: pon úno 20, 2023 22:16
Oblast pátrání: Střední Morava, Zlín, Uherské Hradiště, Holešov a okolí

Re: OCR pro rucne psany text s doucovanim

Příspěvekod zburget » úte úno 21, 2023 8:36

Mám informace z VUT, že se na projektu po cca půlroční pauze od podzimu opět pracuje. Koncepce OCR se po dřívějších zkušenostech trochu mění, takže aktuálně nic testovacího není k dispozici. Ale jak bude, měl bych se to dozvědět a určitě to sem napíšu.
Škoda je, že student, který na tom pracoval odpromoval, na VUT sice zůstal jako doktorand, ale odešel do jiné skupiny. Tam se opět zabývá prací na OCR, ale pro trochu jiné účely. Čtení matrik je dost specifická záležitost.
Problém je, že tohle nemá žádou velkou prioritu, nejsou na to tím pádem takové peníze, aby mohla být vytvořena stálá pracovní skupina. Visí to tak na tom, kolik studentů dané téma zaujme na tolik, aby na tom byli ochotní pracovat. A taky na tom, kolika z nich se jim na škole podaří udržet. Vzhledem k tomu, že se jedná o vyloženě jednotky lidí, je to tak na skutečnosti, že se studentovi podaří u nějaké zkoušky vyletět, závislé víc, než je zdrávo :-(
Zbyněk Burget
zburget
 
Příspěvky: 12578
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: OCR pro rucne psany text s doucovanim

Příspěvekod matju » úte úno 21, 2023 17:38

:/
TY Michala Maturová
matju
 
Příspěvky: 1025
Registrován: čtv úno 14, 2013 22:50
Oblast pátrání: Hradecko, Jičínsko, Trutnovsko, Železnobrodsko, Hořicko, Berounsko, Střední čechy
https://www.mojekoreny.com/

Předchozí

Zpět na Nápady

Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 2 návštevníků