PERO jsme i tady řešili několikrát. Pro matriční záznamy dává naprosto nepoužitelné výsledky. Tedy pokud ho natrénujete na nějakém zcela konkrétním písmu, kde jsou jasně oddělené řádky a písmena z horních / dolních řádků se nepřekrývají a současně se jedná o kvalitní scany, pak to dává jakž takž použitelný výstup. Ale jinak bohužel ne. Podle mého názoru je problém v samotném designu toho systému. Já si hrál s několika projekty založenými na systému PERO a nedostal jsem z toho absolutně nic, co by mi ulehčilo práci. Pokud to někdo bude schopen použít, tak naopak někdo, kdo umí číst dobře a bude schopen všechny nesmysly, které to vyplodí, spolehlivě opravit. Absolutnímu začátečníkovi to nepomůže ani trochu, protože to nedá reálně použitelný výstup. A začátečníka to může zavést na naprosté zcestí.
S OCR bych byl opravdu hodně, hodně opatrný. I když se přiznám, že já na nějaké použitelné OCR čekám, jako na spasení. Ulehčilo by mi to spoustu psaní. Zatím mě ale zklamalo prakticky vše, co jsem zkoušel, takže jsem k tomu hodně skeptický. Dokud někdo PERO nevezme kompletně ho nepřepracuje, použitelné to nebude. A kdyby někdo měl zájem, klidně k tomu řeknu svoje připomínky a poznatky (není nad to, mít za zády dobrého kibice, který nic neumí a jen do toho kecá
).
Je pravda, že pro diplomku nebude systém OCR klíčový, protože aplikace bude demonstrovat, že umí to, co deklaruje. Jen OCR sysém prostě nefunguje - za to vaše aplikace ale nemůže.
A jen pro zajímavost - na které jste škole?