Já myslím, že ty "oficiální" OCR modely jsou trénované na nějakých "zaručených" sadách, které někdo nějak připravil a "zaručeně" přepsal.
A budou to určitě řádově minimálně desetitisíce řádků.
S tím se tady to naše hraní asi, bohužel, nedá srovnávat
U nás je problém taky v tom, že vlastně nemáme ani přesné instrukce, jak některé věci přepisovat. Já pro svůj testovací latinský dataset vlastn ani nemám kompletní znakovou sadu (protože vím, že třeba zrovna ta pořád zmiňovaná ligatura æ se při přepisech má zapisovat ligaturou a ne rozepisovat, jako ae). Takže věřím, že na úspěšnou obhajobu diplomky to, co je bude bohatě stačit. Výsledky to dává velice dobré.
A jen doufám, že po obhajobě se na tom ještě bude pracovat a budou se opravovat věci, které by teď té obhajobě jen uškodily. Určitě se nemůže měnit znaková sada, určitě se nemůže sahat do jiných kritických míst v OCR. Můžná se můžou opravovat takové ptákoviny, jako editace polygonů, ale na to zřejmě prostě teď není čas.
Musíme si počkat, držet všechny palce, aby obhajova dopadla dobře, a doufat, že se po ní buď autor aplikace sám nebo lépe i ještě někdo další bude věnovat dalšímu vývoji, že bude zapracováno co nejvíc návrhů a nápadů nejen nás, ale i dalších, kdo s tím budou pracovat a taky, že k tomu bude vypracovaný i nějaký metodický materiál, jak ty přepisy přesně dělat. Možná jsou to věci, které jsou historikům všeobecně známé, ale my, laici, to nevíme. A čekat, až k tomu někdo, byť povolanější, dodá dostatečné množství trénovacích dat, se mi úplně nechce. To si ta trénovací data budu radši pomalu vytvářet sám
. Jen to musí mít nějaký řád, abych to nedělal jen sám pro sebe. To by byla škoda práce a času.