GENEALOGIE

od **Duke of York** » stř bře 31, 2021 12:59

Jeden muj student ma jako diplomku tema "Active Learning pro zpracování archivních pramenů", tzn. v podstate je to OCR na rucne psany text s postupnym doucovanim. Melo by to fungovat tak, ze si tam nahrajete nejake skeny (dataset), spustite na tom detekce radku (detekce rozlozeni stranky) a pak rozpoznat text (Inference OCR) a pak se na to muzete podivat v casti "Anotace" a co bude spatne, tak muzete opravit a pak to znovu doucit (Trenink OCR) a znovu pustit (Inference OCR), a tak porad znovu a znovu.

No a ja bych byl rad, pokud by se tady nasli lide, kteri by byli ochotni to otestovat (to je jeden z ukolu v zadani). Tzn. celkove vyzkouset, jak se s tim pracuje, jak moc je to pochopitelne a uzivatelsky prijemne, kde jsou chyby a co by slo vylepsit. Muzete zkusit i to OCR, ale je jasne, ze to asi moc fungovat nebude (melo by to asi fungovat na "bezne" psane pismo). Aby to fungovalo i na stary text, tak je potreba tam mit co nejvetsi pocet co nejruznejsich textu. Coz je trochu beh na dlouhou trat :-)

Odkaz na ty stranky je zde http://pcrozman2.fit.vutbr.cz:8080/ (je to ale komp u me v kanclu, tak to moc nezavarte :-)

)

Predem diky za pomoc

od **zburget** » stř bře 31, 2021 18:07

Mám dotaz - pro OCR starých rukopisů asi dost zásadní.
Jaká písma by to mělo umět číst? Humanitické? Kurent? Nějaké starší? Jak to celkově funguje? Snaží se to odhadnout jazyk? Protože když vidím nápis, musím nejdřív rozhodnout, co je to vůbec za písmo. Pak se mi "mozek přepne" vetšinou kurent/humanistické a pak už můžu číst. Kdybych se ale přepnul blbě, tak budu v háji.
Co tam studentíkovi můžeme sypat? Cokoli nebo jen nějaká konkrétní písma? Mám třeba pro sebe přečtené nějaké dvě listiny z let 1455 a 1524. Když to tam nahraju, nezblbnu mu komplet to, co se mu už neuronová síť naučila?
Tady na fóru se asi najde dost přečtených gruntovnic. Kdyby student chtěl, může se tu chvilku porozhlédnout, najít ve čtení / vyřešeno nějakou gruntovnici, kde bude mít odkaz na snímek a současně přečtený text.

od **Duke of York** » čtv dub 01, 2021 14:01

zburget píše:Mám dotaz - pro OCR starých rukopisů asi dost zásadní.
Jaká písma by to mělo umět číst? Humanitické? Kurent? Nějaké starší? Jak to celkově funguje? Snaží se to odhadnout jazyk? Protože když vidím nápis, musím nejdřív rozhodnout, co je to vůbec za písmo. Pak se mi "mozek přepne" vetšinou kurent/humanistické a pak už můžu číst. Kdybych se ale přepnul blbě, tak budu v háji.
Co tam studentíkovi můžeme sypat? Cokoli nebo jen nějaká konkrétní písma? Mám třeba pro sebe přečtené nějaké dvě listiny z let 1455 a 1524. Když to tam nahraju, nezblbnu mu komplet to, co se mu už neuronová síť naučila?
Tady na fóru se asi najde dost přečtených gruntovnic. Kdyby student chtěl, může se tu chvilku porozhlédnout, najít ve čtení / vyřešeno nějakou gruntovnici, kde bude mít odkaz na snímek a současně přečtený text.

Mela by tam byt moznost si vytvorit zvlast site na jednotlive datasety, takze teoreticky byste to rozbit nemel. Plan ale je, ze se to pouzije na matriky a souvisejici veci, tak listiny z 16. a starsich stoleti uz jsou asi mimo, ale jak rikam, mela by jit naucit samostatna sit. Pak bych taky chtel, aby tam byla nejaka "globalni" sit, ktera by se ucila sama z prepsanych dat pro komplet vsechny skeny matrik, co mame. Ta by se asi teoreticky rozbit nejakym nestandardnim pismem dala, ale to jsou asi veci, ktery bude potreba teprve pozjistovat.

Co bychom potrebovali, tak je co nejvernejsi (kdyz nebude, tak se to bude ucit blbe) prepis nejakych textu, aby to bylo na cem ucit, takze pokud byste tu pohledal nejake prepsane gruntovnice (nebo cokoliv stareho, rucne psaneho), nebo pokud by se nekdo sam nabidl, tak by to bylo skvele.

od **Zora** » čtv dub 01, 2021 14:39

Co bychom potrebovali, tak je co nejvernejsi (kdyz nebude, tak se to bude ucit blbe) prepis nejakych textu, aby to bylo na cem ucit, takze pokud byste tu pohledal nejake prepsane gruntovnice (nebo cokoliv stareho, rucne psaneho), nebo pokud by se nekdo sam nabidl, tak by to bylo skvele.
------------------
Studenti by přece měli pracovat samostatně, takže si mohou zde (i jinde) cokoliv přepsaného dohledávat.
Co přečetli naši čteči je přepsáno s největší možnou pozorností.
Z

od **zburget** » čtv dub 01, 2021 18:27

Jak píše Zora - stačí kouknout do Čtení - Vyřešeno: viewforum.php?f=9
a hledat tam (je tu na to funkce) Gruntovnice nebo Pozemkové knihy. V nalezených vláknech bude mít odkazy na skeny i s přepsanými texty. Nebudu studentům VŠ přece posílat přesné odkazy.
Pokud bude text, který bude potřeba přečíst (přepsat), tak se klidně hlásím a můžu s tím pomoct. A myslím, že by se nás tady našlo i víc. Ale čekal bych, že iniciativa vyjde primárně od toho, kdo to potřebuje. Pokud budeme vědět, že zde lze očekávat takovouhle žádost o pomoc, nechť se studentík zde zaregistruje, napíše nejlíp asi do "Hledám pomoc" že je to on, o kom se psalo v tomhle vláknu a napíše, s čím konkrétně potřebuje pomoct. Bude-li to v našich silách a časových možnostech, předpokládám, že se mu zde pomoci dostane.

od **zeter** » čtv dub 01, 2021 19:02

Souhlasím se Zorou a panem Burgetem - v tom smyslu, že sekce Čtení na fóru je už sama o sobě excerpovatelný zdroj dat, a samostatná, kritická excerpce a zpracování zdrojů je přesně to, co by mělo být obsahem např. bakalářské práce (v tomhle kontextu třeba s oponentem z oboru paleografie), zaštítěné širším projektem - to je přesně ta situace, kterou tu máme.
Podle nejlepšího vědomí a svědomí písmeno po písmenu přepsaných, přesně lokalizovaných záznamů vč. oblasti, jazyka a datace - i s odkazy na původní zdroje - jsou tu tisíce a denně přibývají další, vše veřejně dostupné. Prostě je jenom potřeba na to ty studenty poštvat, ať se s tím poperou a začnou to využívat tak, jako to může využít kdokoli.

od **Duke of York** » čtv dub 01, 2021 21:10

Asi tady nebudu odpovidat zvlast na jednotlive prispevky, ale pojmu to do jedne odpovedi :-)

Souhlasim samozrejme s tim, ze by studenti meli pracovat samostatne. Ale ten student studuje informatiku a ne historii, neni to ani genealog, takze z tech starych textu neprecte nejspis vubec nic. A popravde ho vice zajimaji neuronove site, machine learning a podobne veci nez historie, ale to mu asi nelze mit za zle. To, ze tematem prace je OCR pro "historicke prameny", je muj napad, a proto jsem sem taky psal ja. Student si sehnal dataset nekolika tisic, mozna i desitek tisic radku starsiho textu a k tomu obrazku, ale nic z toho nepochazi z ceskeho prostredi. Od nas nic takoveho, pokud vim, neexistuje. No a ja bych chtel, aby to OCR fungovalo na texty, pochazejici od nas (at uz budou cesky, nemecky nebo latinsky). Pro to by to ale chtelo nejaky text, na kterem se to bude ucit. Ja jsem sice schopen si precist matriky (aspon teda to, co potrebuju), ale pozemkovky nedavam :-(

(kdybych je bych schopen precist, neukecaval bych nekoho, at na to udela OCR :-)

). Navic na to uceni je potreba prepsat cele ty radky a spravne, jinak se to bude blbe ucit. Samozrejme po nikom nechci, aby kvuli tomu neco schvalne prepisoval (i kdyz by to bylo hezke :-)

) a nechci ani, aby to vytahoval z toho fora Čtení, protoze je me jasny, ze by to bylo dost prace. Ale nemuzu to chtit ani po tom studentovi... Mozna to tak nevypada, ale na tom, co ma ted hotove, stravil stasne moc casu a ja po nem nemuzu chtit a ani to po nem nechci, aby si na to jeste pripravoval nejaka data prochazenim diskusnich for a upravou toho, co je tam napsane, aby to bylo pouzitelne (protoze ted tam sice jsou prepisy, nepochybne skvele, ale z pozemkovek jich zase tak moc neni, navic je tam dost casto ten puvodni text, ktery je pak teprve opraveny, jsou tam preskrtana slova a tak. Navic, i kdyby to bylo uplne presne tak, jak si to predstavuju, tak je to potreba jeste radek po radku nasazet do toho webu, nebo na to aspon napsat nejaky kod, takze i pak s tim bude jeste prace...). Proto jsem si myslel, ze by tu mohli byt lidi, kteri maji nejake takove texty (i s tim zdrojovym obrazkem) prepsane a byli by ochotni je dat k dispozici.

Tady je ukazka, co bych idealne potreboval (neprepisoval jsem to ja, ale kolega z MUNI, cimzto mu takto inkognito dekuji :-)

)

Malchior Roszmans kauf umb kannes
schniedts gescharztes güttell zum Langen
berg

Anno 1640 den 29. februari geben richter Paul Schleßier
und geschworner als Mertten Raab, Melchior Doner und
Thomaß Arleb zum Langenberg zeigniß das Melchior Roßman
daselb ein geschatztes gutlein von den gerichten so des Hanß
Schmiedten gewessen an genomen die weil der kauf zettel
bei dem gewesten Nickel John seelige Rendt schreiber verlohner
in der sum umb 12 haler der auf er gezalt in das Rendt
ambt und andere schulden 9 florine 6 haler verbleibet nach Jährlicher
zur bezalen auf kienffig Michaelii anno 1640 Jahres 2 florine
12 groschen 6 haler geschehen im Jahr und tag wie oben.

a je to z tohoto skenu https://digi.archives.cz/da/permalink?x ... d5f726a409
sice neni prepsana cela stranka, ale to v podstate nevadi, ten programek detekuje radky textu a je dulezite prepsat cely ten radek. To, ze nejsou prepsane vsechny radky je sice skoda, ale v podstate to nicemu nevadi.

od **zburget** » pát dub 02, 2021 7:26

O.K. - takže když vezmu sken gruntovnice, stačí poslat odkaz takhle do digitální verze někde v archívu nebo je potřeba mít přímo fotku? Přepis stačí jen tak k tomu přiložit?
Když budu mít přpis nějakého matričního záznamu - stačí přiložit sken celé stránky nebo jen výřez daného záznamu?
Nebo je potřebo to nacpat přímo do toho OCR a hrát si s trénováním?
Teoreticky můžu poskytnout několik větších desítek přepisů jednotlivých matričních záznamů. Máte ode mě moje indexy, kde jsou ale třeba přepsaná jen jména - jsou to pak ale celé matriky a u většiny už máte kvůli demosu jména v originálním tvaru. Je to použitelné nebo by se musely záznamy přepsat komplet?
Co když je v tom přepisu nějaká nejasnost? Něco, co nikdo zatím nedešifroval? Co když je tam chyba? Nikdy nebudou všechny přepisy úplně bez chyb. To snad ani nejde.
Co MUNI? Ti nemají nic, co byste mohli použít? Co jejich diplomky? Na filozofických fakultách jiných univerzit by nějaké přepsané texty neměli? UPOL, UK? Tam se přece něco najít musí.
Kolik dat je reálně potřeba k nějakému byť jen základnímu natrénování toho OCR?
Ona je to ohromná spousta práce. Nemám problém s tím nějak pomoct. Můžu nějak jednoduše poskytnout to, co mám. Můžu tady v archívu pohledat ty gruntovnice. Ale není úplně reálné, abych takhle třeba znovu procházel matriky, ke kterým jsem psal indexy a dopisoval celé záznamy. Tedy ne jen tak za děkuji na závěr. Kdyby na to byl nějaký grant, a byla za to i nějaká malá odměna, určitě by se přihlásilo pár lidí, kterým by třeba i nějaká malá (práci neodpovídající) odměna stála za čas. Já pomůžu rád, ale moje časové možnosti jsou vzhledem k práci omezené.
Jak jsem psal - pokud mi někdo dá rukopis, můžu přepsat.

od **zburget** » pát dub 02, 2021 7:52

Ještě dodatek - jak psal zeter - zde ve Čtení je opravdu velká spousta komplet přesně přečtených záznamů - nejen těch gruntovnic. O těch jsem uvažoval proto, že je to relativně velký kus souvislého textu v jednom příspěvku. Ostatní jsou jednotlivé matriční záznamy.
Jen je potřeba najít mechanismus, jak to z toho čtení nejlíp strojově (nebo polostrojově) vytahat. To by přece pro studenty IT neměl být zase takový problém. Najít na konkrétní webové stránce vlákno, zanalyzovat jeden příspěvek po druhém, najít (třeba všechyny) odkazy a obrázky v pořadí, v jakém byly vloženy, a zobrazit jednotlivé příspěvky. U odkazů nejlíp zobrazit obsah. U MZA, kde se změnily odkazy je tady na fóru k dispozici převodník v javě, u jiných archívů, kde se změnily odkazy jsou přímo u nich mechanismy pro převod, víceméně automatické. A pak se tady používá několik imagehostingových serverů (co by spočítal na prstech). Jediný zádrhel snad může být u FamilySearch s jeho přihlašováním.
Takže jsem přesvědčen o tom, že by nemusel být zásadní problém s tím napsat aplikaci, kde se ukážou vlevo odkazy rovnou s obrázky a vpravo příspvěvky. A uživatel klikne na obrázek nebo v něm nakreslí výřez a vpravo označí příslušný kousek textu v příslušném příspěvku a na závěr pak maximálně doopraví to, co ještě někdo další dokorigoval v nějakém dalším příspěvku. A na závěr si poznačit do databáze, že tenhle příspěvek už je zpracovaný. Při spolupráci víc lidí může jeden příspěvky předzpracovat a druhý, kdo umí dobře číst jen doladí.
Pokud by něco takového bylo, klidně pak pomůžu s extrakcí takových přepisů nebo s jejich kontrolou. A můžete tak relativně snadno a možná i rychle získat vzorek několika tisíc přepsaných záznamů - když na to sedne pár lidí.

A nebo - pokud už to OCR bude aspoň nějak trochu fungovat, tak tak, jak opravuju (i poměrně dlouhé) přepisy tady na fóru, můžu opravovat přepisy toho OCR - a opět se bude databáze přepisů rozrůstat.

od **zburget** » pát dub 02, 2021 10:33

Dodatek II - pořád, pokud to chápu správně, potřebuje onen student sadu textů pro trénování. I když ho vlastně vůbec nezajímá ani historie, ani paleografie, ani genealogie, ani jiná historická věda, i když nepozná rozdíl mezi kurentem a egyptskými hieroglyfy (BTW - už někdo na světě napsal OCR na egyptské hieroglyfy? To by nemuselo být až tak složité.), pořád je to on, kdo potřebuje natrénovat neuronovou síť, aby co nejúspěšněj dokončil diplomku.
Takže pořád, si myslím, že platí, že by měl / nebo alespoň mohl přijít sám, s nějakým pokud možno co nejkonkrétnější prosbou o pomoc. Pro nás zde ideálně tak, abychom měli co nejmíň práce s hledáním vhodného textu (vhodnýh textů), který(é) potřebuje přečíst a přepsat. Když budeme vědět, o co se jedná, předpokládám, že i bez jeho snahy o čtení (protože rozumím tomu, že na to teď asi nemá ani čas) mu tady to čtení vyřešíme. Je to zde na fóru velice nestandardní (čteme zásadně tam, kde tazatel sám projevil o svou snahu o přečtení), ale myslím, že v tomto konkrétním případě je to celkem specifická situace. I když nemůžu mluvit za ostatní čtečky, věřím tomu, že se najde víc lidí, kteří by staré texty četli.
Pokud by si ve čtení - vyřešeno našel nějaké vhodné přečtené texty, klidně mu to pak proběhnu, aby dostal pasující sadu snímek - přepis (co nejpřesnější).

od **zburget** » pát dub 02, 2021 11:13

Pár připomínek k tém OCR aplikaci. Zkusil jsem tam nahrát jednu matriku (přesněj opis matriky), - protože je tam velká část víceméně stejným písmem.
No, ani to se mi v podstatě nepovedlo dobře.
Asi jsem to neudělal úplně dobře, protože jsem prostě vybral všechny snímky (381 kousků) a přetáhl do datasetu. Nahrálo se mi jich tam jen 100. To bych bral - rozumím Dataset může být max. 100 snímků. Ale!!!
Nahrály se tam tak nějak chaoticky - asi se náhrála jen ta první stovka. A teď - skeny nejsou seřazené postupně podle čísel a není tam jak je seřadit. Pro OCR to asi není podstatné, ale pro obsluhu je to dost zavádějící. Větší průser je, že se zpřeházely názvy souborů - tzn. čísla zapsaná u vás na serveru neodpovídají číslům tak, jak jsem je tam nahrál!!!
Nepočítá se s dlouhým názvem souboru, takže v seznamu u anotací vidím jen kousek názvu souboru :-(

Chtěl jsem ten dataset smazat, když je blbě - nepřišel jsem na to jak.
Vyrobil jsem další dataet a nahrál jeden samostatný soubor. Nahrál jsem druhý. Obrázky v datasetu jsou zobrazeny pozpátku. V seznamu obrázků v anotacích jsou seřazeny správně. Je to dost zavádějící.
Spíš omyslem jsem spustil detekci regionů a řádků - něco to zdetekovalo, asi bych to nějak upravil - nepřišel jsem na to jak.
Pak bych mohl nějak nahrát nějaký přepis pro trénink - nerozumím, jak. Ono si to nějak nadetekovalo regiony a řádky, ale není to úplně správně (samozřejmě) a nevím, jak bych pak měl napárovat přepisy k regionům / řádkům.
Nebo můžu pustit OCR, aono to "něco" "nějak" přečte a to mám upravit a tak ho učit? Je mi jasné, že k té aplikaci není žádný návod, ale jak to funguje a jak se to obládá ví student a vy, ale my bohužel moc ne a není to příliš intuitivní (což je u nějaké vývojové verze celkem pochopitelné).

od **zburget** » pát dub 02, 2021 13:51

Ještě dotaz - když nějak promažu a upravm (zatím nevím jak) ty regiony, učí se ta neuronová síť i to rozdělování a nebo to příště rozdělí klidně zase blbě?
A potom - na skenu prosvítá skrz papír zadní stránka (celkem běžná věc). Detekce řádků ale dost často označí i to, co je propité skrz. Je ten OCR nějak stavěný na to, že pak přijde na to, že to není regulerní text, ale nějaký "obtisk", "kaňka" a nebo propitý text? Je potřeba v těchhle případech detekci řádků upravovat, aby se zbytečně nemátlo učení a nebo je naopak žádoucí, aby tam ty špatné detekce řádků zůstaly, aby stoj mohl přijít na to, že řádky nadetekoval špatně?

od **Davidh** » čtv dub 08, 2021 14:09

Zdravím všechny. Děkuji za všechny připomínky k aplikaci. Většinu se mi snad podařilo vyřešit, budu rád za každé další připomínky. Co se týče dotazu na doučování detekce rozložení stránky -- detekci provádím pomocí neuronové sítě, která se vyvíjí v rámci projektu PERO OCR na FIT. Tuto síť ale zatím nemám možnost trénovat. Do budoucna se nad tímto zamyslím. Pro kaňky v obraze není potřeba upravovat detekce řádků. Učení probíhá pouze na potvrzených přepisech řádků (obarveny modře). Inference probíhá pouze na nepotvrzených řádcích. Každý den o půlnoci probíhá učení a inference sítě "Global" na potvrzených přepsaných záznamech.

K aplikaci jsem vytvořil stručný tutoriál pro používání, který budu dále rozšiřovat. Naleznete ho na kartě Přehled. Na konci tutoriálu jsem umístil odkaz na Google Formulář pro zpětnou vazbu. Z důvodu větších úprav databáze došlo k resetování celé aplikace (bude se nutné tedy znovu registrovat). Za to se omlouvám.

od **zburget** » čtv dub 08, 2021 20:54

Tak jsem se znovu zaregistroval - to není problém a u vývíjené aplikace s tím tak trochu asi musíme počítat :-)

Budu zkoušet testovat, budu psát, zkušenosti. Můžu psát sem nebo na e-mail a nebo ještě nějakk jinak? :-)

Pro začátek mám jen jedno hlášení jednoho nepříjemného problému. Pro testování to nevadí, ale je to celkem hloupá chyba. Když vyberu ve složce víc skenů najednou a nahraju je do datasetu, tak se zpřehážou obrázky a jejich názvy. Koukněte na dataset "opis24" - nahrál jsem tam nejdřív samostatně sken s číslem na konci …-10.jpg a potom jsem v TotalCommanderu vybral skeny 20-100 a nahrál je naráz.
No a zpřeházely se tak, že jméno souboru u mě na disku ze změnilo (=>) na jméno v datasetu
20 => 100
30 => 50
40 => 70
50 => 80
60 => 60
70 => 90
80 => 20
90 => 30
100 => 40

Takže víceméně náhodně :-(

Tenhle opis matriky má jednu velkou výhodu - je psán relativně čitelně a desítky až stovky stran jsou psány jedním (nebo alespoň velice podobným) rukopisem. Takže by to OCR mohlo po drobném natrénování i nějak rozumně fungovat. Bohužel má matrika i jednu zásadní nevýhodu, že je text často propitý skrz papír. Mám si s těmi snímky nějak pohrát ve Photoshopu, abych to propití odfiltroval a nebo mám zkoušet s těmi propitými? Je šance, že to ta OCR aplikace bude nějak zohledňovat? Jako že co je světlejší, bude ignorovat? Nebo i ve tmavším propitém textu bude mít ta neuronová síť šanci "pochopit", že je to něco, co není součástí textu a bude v "kaňce" hledat náznaky původního písmene?

Dnes už si s tím moc hrát nebudu, po posledních dvou dnech bych to nedal psychicky a inteligenčně :-)

od **zburget** » pát dub 09, 2021 8:55

Tak - další poznatky a připomínky:
Anotace - ten anotátor, který je použitý zatím není nic moc :-)

místy rozezná, co nemá, místy nerozezná, co má - třeba rozdělí jedno písmeno (velkou iniciálu) na několik částí, ustřihne konec slova a dělá podobné ptákoviny. Stejně tak je schopen rozdělit stránku na hromadu regionů, kde v každém je jen jeden řádek nebo dokonce jen část písmene.
O.K. - beru, nic není dokonalé a obzvlášť při vývoji. Rozumím i tomu, že u anotátoru nemáte šanci ovlivnit jeho trénování. Nicméně - pro tento případ by bylo dobré, kdyby bylo možné nějak regiony a řádky editovat.
Pro začátek pár dotazů:
kouknběte do výše zmíněného datasetu "opis24". Záznamy jsou zde psány tak, že je nějaký nadpis roku, pak měsíce a pak jsou samotné záznamy. Každý je uveden vpravo před čarou obcí, ze které záznam je a následuje samotný záznam. víceméně jako prostý text.
příklad:
Hned na prvním skenu je hlavička: Annô 1688 à die 1 Januarij usque (psáno zkratkou) ad diem Ultimam Augusti baptisatæ sunt à meinfra Scripto, sequentis personæ:
následuje měsíc: Januarius
a pak jsou záznamy, první je:
Ladin | 1. Januarij baptisata est infans Dorothea, filia Joannis Ustrnul, & Matris Marinæ. Cujus Patrini: Joannes Cžech, & Anna Christophori ex pago Ladin

Koncovku -ii jsem zde přepsal, jako -ij - odpovídá to přesně zapsaným písmenům.

Tak - a teď - jak by správně měly být určeny regiony na této stránce? Měla by bát celá strana jen jeden region? Nebo rozdělit např. region 1 - hlavička; region 2 - měsíc; region 3 - všechny záznamy (včetně obce před čarou) nebo každý záznam samostatný region nebo ještě zvlášť i obec před čarou a nebo ještě nějak jinak? Nebo je to jedno? Jde o to, aby pak to OCR dávalo nějaké relevantní výsledky.

K dalšímu kroku (přepis řádků) je ale potřeba, abych mohl automaticky vyrobené anotace nějak editovat a nebo provést komplet ručně. Třeba i tak, že bych nakreslil ručně regiony a pak nechal automatický anotátor rozpoznat řádky (pokud je něco takového možné). A následně bych potřeboval nějaký nástroj k tomu, abych mohl oblasti (regiony i řádky) nějak editovat - tedy pokud dojde ke špatné detekci řádku, abych mohl oblast upravit. Teď je možné kreslit jen obdélníky, což je nedostatečné. Stačí, aby byl řádek trochu ze šikma a už ho není možné označit. Taky je problém, když se znaky z hornějšího a spodnějšího řádku překrývají. Ručně to zakreslit dokážu, ale potřeboval bych editovat jednotlivé uzlové body jednotlivých regionů / řádků. Případně ty body přidávat (a ideálně i mazat, ale mazání bodů teď vem čert).
Z tohohle mi vyplývá, že ve výsledném produktu asi nebude možné od sebe oddělit detekci řádků od samotného čtení textu. Obojí bude muset probíhat současně. Teno můj předpoklad vychází z toho, že v rukopisech dost často přemýšlím nad čtením slova tak, že při překryvu znaků z horního a dolního řádku (velice častý jev) se snažím zjistit, která čára patří ke kterému písmenu ze kterého řádku. Smíchány bývají písmena jak v rámci jednoho řádku - např. ve zmíněném záznamu jméno Christophori, kde se překrývají písmena C a h, tak i řádky mezi sebou - na zmíněném skenu např. 3. záznam ze Dzbele (Zbel), kde na konci řádku závěrečné j ve jméně Georgii leze do spodnějšího řádku a koliduje s písmeny F a k ve jméně Faukal. A tady je to ještě naprosto super, protože je jasné, co je součátí čeho. Když se pak ale zamotá spodní smyčka y s nějakým l, t, h a nebo někdo spodní smyčku protáhne přes další dva řádky (stává se), a nebo se do sebe těch písmen zamotá ještě víc (třeba někdo píše d, jako zde - 4. záznam z Konice, jméno Magdalena a tou horní čarou se trefí do už tak překrytých písmen), tak sedíte o dost dlouho nad tím, která část které čáry z té změti čar patří ke kterému písmenu. A to souvisí i s přesnou detekcí řádků. Teď by, předpokládám, stačilo, kdybych ty řádky mohl dokreslit / opravit ručně.
No, nemáte to jednoduché…

A pak ještě dotaz k přepisům. Písmeno -j- by mělo být podle konvencí přepisováno, jako -i- - v latině třeba to v té koncovce -ii. Taky není jasné, jestli je v měsících začínajících na J- nebo ve jménech (Joannes, Jacobus) na začátku vlastně psáno J a nebo I (v latině je J = I). Jak tedy pro OCR tohle přepisovat? Ligaturu Æ/æ, případně Œ/œ předpokládám, že mám přepisovat tou ligaturou. Jak přistupovat ke znakům à, ô, â apod? Jak přistupovat ke zkratkám? Např. Joannes zapsán jako Joes s vlnovkou nad slovem, kterou nelze jak zapsat? Jak rozepisovat zdvojení písmen naznačené vodorovnou čárou nad daným písmenem? Jak rozepisovat zkratky, jako např. est, kde je zapsáno jen e s vlnovkou? Nebo ve zmíněném nadpisu stránky slovo usque, které vypadá, jako usq3? Jak přepisovat měsíce zapsané zkratkou? 7ber = september, 9ber, vypadající, jako gber = november, Xber = december? Jak přepisovat latinskou předponu con-, která se píše jen jako g- (např. slovo consors bude zapsáno, jako gsors)? Latina je zkratek plná, někdy je to doslova peklo. Některé nepůjsou reálně přepsat do PC, protože pro to prostě nejsou potřebné znaky nebo diakritika. Nehledě na to, že někdy to není diakritika nad písmenem, ale nad celým slovem :-?

Je mi jasné, že ozázky na přepis nejsou asi otázky na člověka, který programuje OCR, ale jestli to mám nějak zkusit trénovat, tak musíme vědět, jak v těchhle případech postupovat, aby se z toho ta neuronová síť totálně nesplašila.

Je pravda, že v němčině a češtině bude problém se zkratkami podstatně menší, tam zůstává komplikace víceméně jen v tom zdvojení písmene naznačeném vodorovnou čárou nad písmenem; v němčině pak řadové číslovky, např. 15ten (na řadové číslvky v latině jsem úplně zapomněl a taky je to někdy kapitola sama pro sebe) a v češtině ještě zkratka Svatého, psáno jako třeba So, kde to o je jako v horním indexu. No, určitě jsem ještě na nějaké špeky zapomněl. A nějaké další určitě vyplynou v okamžiku, kdy se posunu o nějaký krok dál.

GENEALOGIE

OCR pro rucne psany text s doucovanim

OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Re: OCR pro rucne psany text s doucovanim

Kdo je online