Jo, ještě k těm zkratkám - zvládlo by to, kdybych ty zkratky s vlnovkou nad slovem přepisoval třeba jako Jo~es, Ad~m, v případě toho odkazovaného Konicensis jako Konice~s - ono by to mělo asi celkem logiku, ale nevím, co by vám to udělalo s tréningem té neuronové sítě. S různými diakritickými znaménky to pak bude vůbec asi dost veselé. Občas jsou posunuta i až tak ± 2 písmena. Tady u těch zkatek taky není úplně na první dobrou jasné, kam by ta vlnovka měla patřit.
Ještě u latiny veledůležitá a všudypřítomná zkratka - závěrečné -us. Psáno jako závěrečné -g. Chtělo by to, aby se k těm přepisům vyjádřil někdo, kdo by to měl rozhodnout (verdoucí práce?).
Jde tedy v latině o tyhle otázky - jak přepisovat:
koncovku -ii, které je zapisována, jako -ij (-ij je jazykový nesmysl)
koncovku -us, která je zapisována, jako -g
koncovku -que, která je zapisována, jako jakési -g3
předponu con-, která je zapisována, jako g-
zkratky "vlnovkou", např. Jo[ann]es, Jo[ann]is, e[st], Ad[modu]m, D[omi]nus, D[omi]na, R[everen]dus, kde je nad zkráceným slovem svislá vlnovka. V přepisu by měla být zkratka nějak naznačena, protože jinak se může zásadně změnit smysl slova (zkratky) - např. Ad~m = Ad[modu]m versus Adm. = Adm[inistrator].
Zajímavé řešení by bylo, kdyby si to OCR tvořilo i nějaký slovník a třeba u matrik dokázalo odhadovat kontext - protože záznamy pasné později německy a česky mají poměrně dost přesnou strukturu, o kterou se dá při luštění dobře opřít. Jenže to by to OCR muselo vědět, jestli čte matriku nebo něco jiného a ještě jak stará ta matrika je. Protože ce struktura těch zápisů v čase mění… Ale to už by bylo asi na jinou diplomku