Ještě tak přemýšlím nad těmi automatickými anotacemi.
Podle mého názoru nebude v cílové aplikaci úplně možné tu anotaci dělat jako samostatný krok. Myslím si, že už při anotacích bude potřeba, aby se do toho zapojilo OCR. Ono totiž při hledání okraje řádku v případě, kdy se písmena ze dvou sousedních řádků nepřekrývají, by se dalo jednoduše jet po čáře tak, aby vždycky celá čára zůstala součástí řádku. Tohle si myslím, že je jedna z nejhoršcíh chyb těch anotací, že to stříhá kusy písmen pryč. A ty jsou někdy dost důležité.
Problém ale nastane, když se do sebe zamíchají písmena ze sousedních řádků. Tam bude potřeba, aby byly ty překryvy v obou řádcích, a pro to, aby OCR mohlo spolehlivě přečíst takový nějaký uzel čar by měl mít k dispozici i ten sousední řádek. A bude to muset zkoušet číst, aby to nějak mělo šanci odhadnout, co k čemu patří.
Někdy, když sem do fóra někdo hodí jen vystřížený řádek na přečtení, dá se to přečíst celkem v pohodě. Ale někdy je potřeba vidět nějakou širší souvislost, aby se z toho mohlo něco rozumného vyčíst. A bojím se, že to OCR se bude chovat stejně. Když dostane vystřižený řádek, kde do znaků budou namixované kousky písmenek odjinud, nemůže to mít nejmenší šanci to přečíst správně. Nedávno jsem tady řešil slovo, do kterého se míchaly smyčky propité z protější strany. Rozklíčoval jsem to až v okamžiku, kdy jsem se na tu protější stranu podíval a zjistil, která bije (viz
viewtopic.php?f=41&t=54508).
A při anotacích pak budou samostatnou kapitolou písmenka, která naopak nejsou pohromadě - včera tady bylo jméno, ve kterém bylo g a vypadalo to jako o, pod kterým o kus níž byla nějaká smyčka (viz
https://www.mza.cz/actapublica/matrika/ ... -03480.jp2, levá strana, 3. záznam odspodu, Svgetlik - a těch Světlíků je tam víc. G je pokaždé hezky na dvě části). Automatické anotace ve stávajícím stavu by tohle opět beznadějně minuly - opět bylo poteba si přečíst spodnější řádek a až pak zjistit, že je tam čára, která k němu vlastně nepatří a patří k nějakému písmenu o řádek výš.
Pro spolehlivou práci by tedy bylo potřeba přednostně vyřešit anotace, případně vyřešit spojení anotací a OCR. Což bude tedy asi dost husarský kousek, jestli se to povede.
Moc mě nenapadá, jak by to mohlo fungovat - udělat anotace, zkusit přečíst a když bude něco přebývat a nebo chybět, podívat se o řádek výš nebo níž, jestli by to nepasovalo k některému písmenu tam? A když jo, opravit anotace? Ale to už by ty anotace a OCR bylo provázáno tak, že by to muselo běžet současně a ne jako samostatné úlohy. Čímž se taky ještě dostávám zpět ke svému nedávnému tvrzení, že by bylo potřeba, aby OCR bylo schopno identifikovat jednotlivá písmena. Může číst klidně po slovech, ale když tam bude nejasnost, musí jet znak po znaku. A to ještě zkoumat, jestli některá z čar nepatří ke znaku jinému (i v jiném řádku) a nebo jestli nějaká část písmene není zatloulaná někde jinde (v jiném řádku, o dvě písmena vedle apod.).
Ale tohle všechno jsou, předpokládám, otázky na Duke of York.