Stránka 1 z 1

Transkribus - platforma pro automatickou transkripci

PříspěvekNapsal: úte lis 24, 2020 20:02
od Sil
Zajímavé čtení (anglicky): https://europe.naverlabs.com/blog/vital ... n-records/. Na tom webu je možnost si to i vyzkoušet, ale v době kdy jsem to zkoušel mi to úplně nefungovalo, tak třeba bude štěstí později :)

Video: https://www.youtube.com/watch?v=VGQ4SQk7QNE (neměcky ale má anglické titulky, + spousta dalších videií na tom kanále)

Video 2 ("starší" tutorial z 2018): https://www.youtube.com/watch?v=8Ei0a7WIlTI (anglicky)

Ve zkratce, rakouská společnost READ-COOP vyvíjí platformu která pomocí strojového učení (deep learning, neuronové síťe) umí číst staré texty jako matriky apod. a digitalizovat jednotlivé údaje (něco podobného jako projekt DEMOS zmíněny na tomto fóru). Pak se v nich dá elektronicky procházet/vyhledávat. Vypadá to jako poměrně čerstvý projekt, ale slibný. Například jeden takový problém co se u tohoto přístupu vyskytuje, tak že je potřeba mít velké množství dat na kterých by se algoritmus naučil, no tak tady si ten text dovedou automaticky generovat, takže mají tréninkových dat spoustu...

Je jasné že tohle je teprve začátek, takových pokusů bude víc a můžeme čekat lepší kvalitu, bude jen otázkou času kdy se to aplikuje u nás (na stránkách i ve videu zmiňují spolupráci s archivy evropských států, Česko tam zatím není no).

Re: Transkribus - platforma pro automatickou transkripci

PříspěvekNapsal: úte lis 24, 2020 21:51
od zburget
Když si sami vygenerují text, tak se ta neuronová síť naučí číst tak max. ten jejich generátor.

Aby se to opravdu natrénovalo dobře, tak musí někdo vzít opravdu velkou hormadu textu a přepsat. A na tom se to pak dá trénovat.

Re: Transkribus - platforma pro automatickou transkripci

PříspěvekNapsal: úte lis 24, 2020 21:57
od Sil
Řekl bych že ten generátor je založen na reálných textech (a generovat různé varianty rukopisů zas tak těžký nebude). Zase on je tenhle příštup logickej, je mnohonásobně jednodušší text generovat než ho číst, takže pokud ten generátor mají hodně kvalitní (třeba tak že člověk ho nerozpozná od skutečnýho textu), tak to je ideální.

Každopádně je to jen jeden ze způsobů, pořád samozřejmě používají i skutečný texty (vlastně v těch videích to vypadá že ukazují jen ty). Taky je teda možný že jsem špatně pochopil jak to na tom jejich webu myslí, oni to tam zmiňujou v kontextu rozpoznávání layoutu stránky, tak možná generovali nějaký kombinace textu jen aby otestovali/naučili jen tuhle funkcionalitu, těžko říct takhle no.

Na webu taky píšou:
"Our long-term goal is to train so many different writing styles that Transkribus will be able to deal with most handwritten documents without prior training. The more users work with Transkribus for their transcription, the faster we will reach this ambitious goal!"

Re: Transkribus - platforma pro automatickou transkripci

PříspěvekNapsal: úte lis 24, 2020 22:48
od Sil
Tak jsem to vyzkoušel, je tam ke stažení desktopová verze použitelná pro kohokoliv kdo se registruje. Zároveň je přístup k vytrénovaným datům od jiných uživatelů, tak jsem zkusil první stránku co mi přišla pod ruku z actapublica a použil jako model "German_Kurrent_XIX_pylaia" který je naučený na více než 5 milionech slov, a dalo mi to zajímavý výsledky (dokonalý to určitě není ale začátek dobrej):

transkribus_prvni_pokus.jpg


Většinu slov to přepsalo nějak smysluplně, i když chyby tam jsou, je to první model co jsem našel, určitě se s tím dá vyhrát. Doporučuju kdo máte na to čas a chuť tak můžete zkusit. Pokud jste dobří ve čtení tak můžete i rožšiřovat ten jejich naučenej model (myslím že se jím akorát musí napsat aby to pro konkrétní účet povolili).

Have fun! :)

Re: Transkribus - platforma pro automatickou transkripci

PříspěvekNapsal: stř lis 25, 2020 10:21
od zburget
Když budou texty generovat z reálně naskenovaných písmenek, pořád se jedná o těch "několik" písmenek, která mají natrénovaná. Navíc pak pravděpodobně dojde k napojování způsobem, který by písař nenapsal. Pokud budou texty generovat (skládat) z celých slov, pořád budou jen trénovat to, co už mají natrénováno. Aby to fungovalo, je potřeba mít opravdu množnství unikátních rukopisů, které někdo přepíše.
Jestli si vyrobili generátor textů a na něm to trénují, tak to bude špičkově zvládat číst jen ten jejich generátor. S reálnými rukopisy pak bude problém.
Bude to stejné, jako u člověka. Když naučíte člověka číst texty, které vyrobí ten generátor, tak to ten člověk po chvíli bude číst levou zadní. Protože to pořád bude jeden a tentýž dokola se opakující typ textu. Když ale pak na stůl položíte text jiný, trochu naškrábaný, bude ten čtenář totálně mimo. Možná přečte fragmenty, ale s některými písmeny bude mít určitě problém.

Re: Transkribus - platforma pro automatickou transkripci

PříspěvekNapsal: stř lis 25, 2020 11:28
od Boza
V aktuálním čísle Historie a vojenství (vydává VHÚ) je článek o připravovaném rozpoznávání kurentu pro účely Digitální studovny Min. Obrany. Doprovozený velmi povedeným (v dobrém slova smyslu) rozpoznáním německého textu z naškrábané pohlednice. Obrázek samozřejmě může být z Photoshopu, ale to už neovlivním.

Píšu to proto, že se naprosto jistě v následujících letech s podobnými projekty roztrhne pytel.

Re: Transkribus - platforma pro automatickou transkripci

PříspěvekNapsal: stř lis 25, 2020 15:21
od zburget
Boza píše:…se naprosto jistě v následujících letech s podobnými projekty roztrhne pytel.
Tak, tak. Výpočetní výkon dnešních stojů je už tak vysoký, že implementace i složitějších neuronových sítí (a strojové učení) dnešní počítače zvládají už poměrně slušně. Je pravda, že naprogramovat a natrénovat něco, co se naučí číst ručně nahrabaný text je poměrně velká výzva, ale jak to jednou začnou počítače výkonnostně zvládat, nebrání nic tomu, aby to relatině rychle začalo celkem spolehlivě fungovat.
Ale jedna věc je třeba matriční záznamy přečíst, druhá věc pak bude, jestli to ty stroje dokážou i správně interpretovat. Pochopit, co je v jaké kolonce, kdy se písař sekl a kolonky přeházel, kdy už to není záznam, ale informace o vizitaci apod. Ale i toho se jednou dočkáme. Co na tom bude nejkrásnější, že když "si nebude program jistý" svým čtením, tak si rovnou a bleskově ověří jméno ženicha u jeho narození, u jeho dětí, zjistí, kdy kde byl za kmotra, kdy zemřel… Tedy za předpokladu, že bude mít k dispozici potřebné matriky.
Pak ale genealogické bádání ztratí své kouzlo. Člověk dostane rodokmen na jedno kliknutí, max. pak může projít skeny a zkontrolovat, jestli se program někde neuťal.

Re: Transkribus - platforma pro automatickou transkripci

PříspěvekNapsal: stř lis 25, 2020 16:02
od Sil
S těma různuma rukopisama, to je jak u člověka, člověk taky dovede přečíst rukopis který nikdy neviděl ale dostatečně se podobá už jiným známým, stejným způsobem to zvládnou i ty neuronky - už teď se zdá že tam mají slušný možství dat z různých období a míst. A hlavně v tomhle odvětví platí že ta spolehlivost/přesnost nakonec je lepší než kdyby to dělal člověk, takže v tomhle směru obavy opravdu nemám. To generování dat prostě neberte jako bernou minci, opakuju že to je jen jeden střípek... (a stejně si myslím že to používají jinak než jsme to pochopili)

To že pak to bádání ztratí kouzlo vidím jako nejvetší problém, i když to asi ještě chvíli potrvá...

Re: Transkribus - platforma pro automatickou transkripci

PříspěvekNapsal: stř lis 25, 2020 16:39
od Zora
Asi před pěti lety tady byla nějaká kolegyně, která, když viděla písmo v matrikách, (že by se to to měla naučit) tak vysvětlila natvrdo, že si počká, až to přepíše nějaký počítač.
Neměli bychom ji upozornit? :-)
Z

Re: Transkribus - platforma pro automatickou transkripci

PříspěvekNapsal: sob srp 19, 2023 22:22
od W4S3K
Plánoval jsem založit vlákno k zajímavým nástrojům (ať mám taky nějakou přidanou hodnotu) , které využívají než velmi často zmiňovanou AI.

Jelikož Transkribus je z nich dost možná nezajímavější a koukám,že už vzniklo vlákno, tak ho využiju. Protože od roku 2020 prošlo celkem vývojem.

Aplikace je po registraci zdarma na webu https://app.transkribus.eu
Při registraci dostane 500 kreditů.
Přečtení jedné ručně psané stránky stojí jeden kredit.
Přečtení jedné "tištěné" stránky stojí 0,16 kreditu.
Dalších 500 kreditů (dá se koupit různé množství, čím vyšší, tim nepatrně výhodnější cena) za 66€ (cca 1450 Kč) .. stránka pak vychází cca 3 Kč.
Zajímavější ale asi může být roční předplatní za 19,9 € (cca 450 Kč)

Jinak ovládání je celkem intuitivní. Před potvrzením čtení je potřeba si vybrat jazykový model. Což je hlavní klíč a upřímně ještě pár týdnu zpátky to byl hlavní problém, kde to většinou zvládlo vytvořit nějakou možnou osnovu.
Nyní je zde ovšem model The Text Titan I a ten zatím velmi dobře zvládá němčinu (angličtinu, francouzštinu, ..)
S latinou to není až tak dobrý, ale např. kombinaci němčiny/latiny to zvláda dobře.
Co to vůbec nezvláda je čeština. Je zde sice i přímo model na češtinu, ale z toho mi taky lezou nesmysli.

Tak jako tak to má vždy nějakou chybovost, ale zejména na dlouhý dopisy, kde kolikrát ve výsledku nic extra zajímavého nemusí být je to myslím ideální.

Jinak k 30.8. by měla vyjít nová verze aplikace - patrně jen rozhraní a práce s dokumenty. Můžu kdyžtak pak rozepsat detailněji, kdyby to někoho zajímalo.

Re: Transkribus - platforma pro automatickou transkripci

PříspěvekNapsal: úte srp 22, 2023 15:42
od kubasyrinek
Náhodou jsem se teď zrovna zamýšlel nad takovým programem. Dostala se mi do ruky přepsaná/zpracovaná gruntovnice jedné obce. Rukopis je "moderním" psacím písmem pořízený někdy kolem 1990. Je toho asi 300 stran. Chci to nějakým způsobem převést do digitálního textu, aby pak bylo samozřejmě možno fulltextově vyhledávat jména, příjmení... Nejde tedy o kurent, ale jde v tomto případě o češtinu. Zkoušel jsem online inkCapture ale nezvládá to absolutně (výsledkem je řada otazníků :D).
Pak mě napadlo, abych nemusel ručně přepisovat, že budu text diktovat. Zkoušel jsem Google Documents (nic moc), pak MS Word (lepší), ale vzhledem k povaze textu (= gruntovnice) s řadou jmen, příjmení a místních názvů je to také docela problém. Různá příjmení to různě komolí a když už zvládá 1. pád, nechápe vůbec jiné pády s koncovkami...

Transkribus kvůli češtině, jak píše kolega minimálně zatím tedy spíš nepoužitelný...

Máte někdo nějaký nápad či zkušenost, jak si přepis usnadnit?
Jakub.