Transkribus - platforma pro automatickou transkripci

Zde můžete přidat odkazy na zajímavé genealogické stránky i se stručným popisem.

Transkribus - platforma pro automatickou transkripci

Příspěvekod Sil » úte lis 24, 2020 20:02

Zajímavé čtení (anglicky): https://europe.naverlabs.com/blog/vital ... n-records/. Na tom webu je možnost si to i vyzkoušet, ale v době kdy jsem to zkoušel mi to úplně nefungovalo, tak třeba bude štěstí později :)

Video: https://www.youtube.com/watch?v=VGQ4SQk7QNE (neměcky ale má anglické titulky, + spousta dalších videií na tom kanále)

Video 2 ("starší" tutorial z 2018): https://www.youtube.com/watch?v=8Ei0a7WIlTI (anglicky)

Ve zkratce, rakouská společnost READ-COOP vyvíjí platformu která pomocí strojového učení (deep learning, neuronové síťe) umí číst staré texty jako matriky apod. a digitalizovat jednotlivé údaje (něco podobného jako projekt DEMOS zmíněny na tomto fóru). Pak se v nich dá elektronicky procházet/vyhledávat. Vypadá to jako poměrně čerstvý projekt, ale slibný. Například jeden takový problém co se u tohoto přístupu vyskytuje, tak že je potřeba mít velké množství dat na kterých by se algoritmus naučil, no tak tady si ten text dovedou automaticky generovat, takže mají tréninkových dat spoustu...

Je jasné že tohle je teprve začátek, takových pokusů bude víc a můžeme čekat lepší kvalitu, bude jen otázkou času kdy se to aplikuje u nás (na stránkách i ve videu zmiňují spolupráci s archivy evropských států, Česko tam zatím není no).
Sil
 
Příspěvky: 270
Registrován: úte črc 25, 2017 20:43
Oblast pátrání: Česká republika, Brno a okolí, Kanice, Babice nad Svitavou, Bílovice nad Svitavou, Měrovice nad Hanou, Uhřičice, Polkovice, Kojetín

Re: Transkribus - platforma pro automatickou transkripci

Příspěvekod zburget » úte lis 24, 2020 21:51

Když si sami vygenerují text, tak se ta neuronová síť naučí číst tak max. ten jejich generátor.

Aby se to opravdu natrénovalo dobře, tak musí někdo vzít opravdu velkou hormadu textu a přepsat. A na tom se to pak dá trénovat.
Zbyněk Burget
zburget
 
Příspěvky: 12578
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: Transkribus - platforma pro automatickou transkripci

Příspěvekod Sil » úte lis 24, 2020 21:57

Řekl bych že ten generátor je založen na reálných textech (a generovat různé varianty rukopisů zas tak těžký nebude). Zase on je tenhle příštup logickej, je mnohonásobně jednodušší text generovat než ho číst, takže pokud ten generátor mají hodně kvalitní (třeba tak že člověk ho nerozpozná od skutečnýho textu), tak to je ideální.

Každopádně je to jen jeden ze způsobů, pořád samozřejmě používají i skutečný texty (vlastně v těch videích to vypadá že ukazují jen ty). Taky je teda možný že jsem špatně pochopil jak to na tom jejich webu myslí, oni to tam zmiňujou v kontextu rozpoznávání layoutu stránky, tak možná generovali nějaký kombinace textu jen aby otestovali/naučili jen tuhle funkcionalitu, těžko říct takhle no.

Na webu taky píšou:
"Our long-term goal is to train so many different writing styles that Transkribus will be able to deal with most handwritten documents without prior training. The more users work with Transkribus for their transcription, the faster we will reach this ambitious goal!"
Sil
 
Příspěvky: 270
Registrován: úte črc 25, 2017 20:43
Oblast pátrání: Česká republika, Brno a okolí, Kanice, Babice nad Svitavou, Bílovice nad Svitavou, Měrovice nad Hanou, Uhřičice, Polkovice, Kojetín

Re: Transkribus - platforma pro automatickou transkripci

Příspěvekod Sil » úte lis 24, 2020 22:48

Tak jsem to vyzkoušel, je tam ke stažení desktopová verze použitelná pro kohokoliv kdo se registruje. Zároveň je přístup k vytrénovaným datům od jiných uživatelů, tak jsem zkusil první stránku co mi přišla pod ruku z actapublica a použil jako model "German_Kurrent_XIX_pylaia" který je naučený na více než 5 milionech slov, a dalo mi to zajímavý výsledky (dokonalý to určitě není ale začátek dobrej):

transkribus_prvni_pokus.jpg


Většinu slov to přepsalo nějak smysluplně, i když chyby tam jsou, je to první model co jsem našel, určitě se s tím dá vyhrát. Doporučuju kdo máte na to čas a chuť tak můžete zkusit. Pokud jste dobří ve čtení tak můžete i rožšiřovat ten jejich naučenej model (myslím že se jím akorát musí napsat aby to pro konkrétní účet povolili).

Have fun! :)
Sil
 
Příspěvky: 270
Registrován: úte črc 25, 2017 20:43
Oblast pátrání: Česká republika, Brno a okolí, Kanice, Babice nad Svitavou, Bílovice nad Svitavou, Měrovice nad Hanou, Uhřičice, Polkovice, Kojetín

Re: Transkribus - platforma pro automatickou transkripci

Příspěvekod zburget » stř lis 25, 2020 10:21

Když budou texty generovat z reálně naskenovaných písmenek, pořád se jedná o těch "několik" písmenek, která mají natrénovaná. Navíc pak pravděpodobně dojde k napojování způsobem, který by písař nenapsal. Pokud budou texty generovat (skládat) z celých slov, pořád budou jen trénovat to, co už mají natrénováno. Aby to fungovalo, je potřeba mít opravdu množnství unikátních rukopisů, které někdo přepíše.
Jestli si vyrobili generátor textů a na něm to trénují, tak to bude špičkově zvládat číst jen ten jejich generátor. S reálnými rukopisy pak bude problém.
Bude to stejné, jako u člověka. Když naučíte člověka číst texty, které vyrobí ten generátor, tak to ten člověk po chvíli bude číst levou zadní. Protože to pořád bude jeden a tentýž dokola se opakující typ textu. Když ale pak na stůl položíte text jiný, trochu naškrábaný, bude ten čtenář totálně mimo. Možná přečte fragmenty, ale s některými písmeny bude mít určitě problém.
Zbyněk Burget
zburget
 
Příspěvky: 12578
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: Transkribus - platforma pro automatickou transkripci

Příspěvekod Boza » stř lis 25, 2020 11:28

V aktuálním čísle Historie a vojenství (vydává VHÚ) je článek o připravovaném rozpoznávání kurentu pro účely Digitální studovny Min. Obrany. Doprovozený velmi povedeným (v dobrém slova smyslu) rozpoznáním německého textu z naškrábané pohlednice. Obrázek samozřejmě může být z Photoshopu, ale to už neovlivním.

Píšu to proto, že se naprosto jistě v následujících letech s podobnými projekty roztrhne pytel.
Romani ite domum!
Boza
 
Příspěvky: 1966
Registrován: úte říj 13, 2015 12:56
Oblast pátrání: Převážně východní Čechy

Re: Transkribus - platforma pro automatickou transkripci

Příspěvekod zburget » stř lis 25, 2020 15:21

Boza píše:…se naprosto jistě v následujících letech s podobnými projekty roztrhne pytel.
Tak, tak. Výpočetní výkon dnešních stojů je už tak vysoký, že implementace i složitějších neuronových sítí (a strojové učení) dnešní počítače zvládají už poměrně slušně. Je pravda, že naprogramovat a natrénovat něco, co se naučí číst ručně nahrabaný text je poměrně velká výzva, ale jak to jednou začnou počítače výkonnostně zvládat, nebrání nic tomu, aby to relatině rychle začalo celkem spolehlivě fungovat.
Ale jedna věc je třeba matriční záznamy přečíst, druhá věc pak bude, jestli to ty stroje dokážou i správně interpretovat. Pochopit, co je v jaké kolonce, kdy se písař sekl a kolonky přeházel, kdy už to není záznam, ale informace o vizitaci apod. Ale i toho se jednou dočkáme. Co na tom bude nejkrásnější, že když "si nebude program jistý" svým čtením, tak si rovnou a bleskově ověří jméno ženicha u jeho narození, u jeho dětí, zjistí, kdy kde byl za kmotra, kdy zemřel… Tedy za předpokladu, že bude mít k dispozici potřebné matriky.
Pak ale genealogické bádání ztratí své kouzlo. Člověk dostane rodokmen na jedno kliknutí, max. pak může projít skeny a zkontrolovat, jestli se program někde neuťal.
Zbyněk Burget
zburget
 
Příspěvky: 12578
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: Transkribus - platforma pro automatickou transkripci

Příspěvekod Sil » stř lis 25, 2020 16:02

S těma různuma rukopisama, to je jak u člověka, člověk taky dovede přečíst rukopis který nikdy neviděl ale dostatečně se podobá už jiným známým, stejným způsobem to zvládnou i ty neuronky - už teď se zdá že tam mají slušný možství dat z různých období a míst. A hlavně v tomhle odvětví platí že ta spolehlivost/přesnost nakonec je lepší než kdyby to dělal člověk, takže v tomhle směru obavy opravdu nemám. To generování dat prostě neberte jako bernou minci, opakuju že to je jen jeden střípek... (a stejně si myslím že to používají jinak než jsme to pochopili)

To že pak to bádání ztratí kouzlo vidím jako nejvetší problém, i když to asi ještě chvíli potrvá...
Sil
 
Příspěvky: 270
Registrován: úte črc 25, 2017 20:43
Oblast pátrání: Česká republika, Brno a okolí, Kanice, Babice nad Svitavou, Bílovice nad Svitavou, Měrovice nad Hanou, Uhřičice, Polkovice, Kojetín

Re: Transkribus - platforma pro automatickou transkripci

Příspěvekod Zora » stř lis 25, 2020 16:39

Asi před pěti lety tady byla nějaká kolegyně, která, když viděla písmo v matrikách, (že by se to to měla naučit) tak vysvětlila natvrdo, že si počká, až to přepíše nějaký počítač.
Neměli bychom ji upozornit? :-)
Z
Uživatelský avatar
Zora
 
Příspěvky: 29088
Registrován: čtv kvě 31, 2012 14:01
Bydliště: Ivančice
Oblast pátrání: Ivančice a okolí, Brno-Zábrdovice, jižně od Brna, Tišnovsko, Vysočina-Žďár, Křižanov, Velkobítešsko, Náměšťsko, z části Třebíč, mlynářské rody na řekách Jihlava, Oslava, matriky Rakousko z části

Re: Transkribus - platforma pro automatickou transkripci

Příspěvekod W4S3K » sob srp 19, 2023 22:22

Plánoval jsem založit vlákno k zajímavým nástrojům (ať mám taky nějakou přidanou hodnotu) , které využívají než velmi často zmiňovanou AI.

Jelikož Transkribus je z nich dost možná nezajímavější a koukám,že už vzniklo vlákno, tak ho využiju. Protože od roku 2020 prošlo celkem vývojem.

Aplikace je po registraci zdarma na webu https://app.transkribus.eu
Při registraci dostane 500 kreditů.
Přečtení jedné ručně psané stránky stojí jeden kredit.
Přečtení jedné "tištěné" stránky stojí 0,16 kreditu.
Dalších 500 kreditů (dá se koupit různé množství, čím vyšší, tim nepatrně výhodnější cena) za 66€ (cca 1450 Kč) .. stránka pak vychází cca 3 Kč.
Zajímavější ale asi může být roční předplatní za 19,9 € (cca 450 Kč)

Jinak ovládání je celkem intuitivní. Před potvrzením čtení je potřeba si vybrat jazykový model. Což je hlavní klíč a upřímně ještě pár týdnu zpátky to byl hlavní problém, kde to většinou zvládlo vytvořit nějakou možnou osnovu.
Nyní je zde ovšem model The Text Titan I a ten zatím velmi dobře zvládá němčinu (angličtinu, francouzštinu, ..)
S latinou to není až tak dobrý, ale např. kombinaci němčiny/latiny to zvláda dobře.
Co to vůbec nezvláda je čeština. Je zde sice i přímo model na češtinu, ale z toho mi taky lezou nesmysli.

Tak jako tak to má vždy nějakou chybovost, ale zejména na dlouhý dopisy, kde kolikrát ve výsledku nic extra zajímavého nemusí být je to myslím ideální.

Jinak k 30.8. by měla vyjít nová verze aplikace - patrně jen rozhraní a práce s dokumenty. Můžu kdyžtak pak rozepsat detailněji, kdyby to někoho zajímalo.
W4S3K
 
Příspěvky: 875
Registrován: pon říj 21, 2013 23:08
Oblast pátrání: Klenčí pod Čerchovem, Ledeč nad Sázavou, Klatovy, Přeštice

Re: Transkribus - platforma pro automatickou transkripci

Příspěvekod kubasyrinek » úte srp 22, 2023 15:42

Náhodou jsem se teď zrovna zamýšlel nad takovým programem. Dostala se mi do ruky přepsaná/zpracovaná gruntovnice jedné obce. Rukopis je "moderním" psacím písmem pořízený někdy kolem 1990. Je toho asi 300 stran. Chci to nějakým způsobem převést do digitálního textu, aby pak bylo samozřejmě možno fulltextově vyhledávat jména, příjmení... Nejde tedy o kurent, ale jde v tomto případě o češtinu. Zkoušel jsem online inkCapture ale nezvládá to absolutně (výsledkem je řada otazníků :D).
Pak mě napadlo, abych nemusel ručně přepisovat, že budu text diktovat. Zkoušel jsem Google Documents (nic moc), pak MS Word (lepší), ale vzhledem k povaze textu (= gruntovnice) s řadou jmen, příjmení a místních názvů je to také docela problém. Různá příjmení to různě komolí a když už zvládá 1. pád, nechápe vůbec jiné pády s koncovkami...

Transkribus kvůli češtině, jak píše kolega minimálně zatím tedy spíš nepoužitelný...

Máte někdo nějaký nápad či zkušenost, jak si přepis usnadnit?
Jakub.
kubasyrinek
 
Příspěvky: 42
Registrován: úte říj 29, 2013 21:52
Bydliště: Praha
Oblast pátrání: Frýdecko-Místecko, Těšínsko, Ostravsko
Panství: Frýdecké, Hukvaldské, Paskovské, Těšínská Komora


Zpět na Odkazy na zajímavé stránky o genealogii

Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 3 návštevníků