MATRIX-online přepis a překládání matrik

U nás používaný software. Kdo co používá, klady a zápory.

Re: MATRIX-online přepis a překládání matrik

Příspěvekod Sil » sob úno 16, 2019 9:19

V prvé řadě, snahu cením, sám jsem něco podobného zvažoval (diskuze tady viewtopic.php?f=17&t=37657), takže dovedu pochopit to nadšení a pak možná i to zklamání když se to nesetká s takovým ohlasem jakým by člověk chtěl. Na druhou stranu ono je dobře se o tom pobavit předtím než se takový projekt rozjede, obzvlášt pokud by pak spousta věcí řečených tady znamenaly kompletní předělání (rozhodně lepší než to zjistit až nad tím budete trávit rok...). Každopádně...

Vhodnejší by byla asi nějaká databáze než takhle po obrazcích, aby se s těmi daty dalo nějak rozumně pracovat a filterovat, to je přeci výhoda digitalizace (jak například v tom vašem řešení budete vyhledávat všechny výskyty daného příjmení?). Další důvod je ten, že když se za rok rozhodnete to přesnout do jiného systému, formátu, apod., budete z toho lístečkovacího způsobu schopný ty data vytáhnout automaticky?

Zároveň co mi na všech stávajících řešeních pořád tak nějak chybí je systematický přístup. Takhle když každý zadává nějaký svůj malý kousek, není absolutně jasné kolik toho vlastně je, kolik toho zbývá atd. Já si dřív představoval nějaké statistiky typu kolik je celkově knih, stránek, kolik přepsáno, kolik z jednotlivých archivu. V tom svém řešení jsem zvažoval, že by se na tom dělalo ve vlnách, v první vlně by se zmapovali původci, tj. jejich seznam defakto, možná informace o lokalitách atd. V další vlně by se zmapovali knihy (zatím pořád bez obsahu), v tehle chvíli by bylo jasno i počty stránek a tak nějak odhad usílí. Další vlny už by pak mohly být o samotné digitalizaci indexu záznamů. Například by se pak dalo jít i nějak po konkrétních původcích, třeba teď se hlavní usílí zúčastněných bude zaměřovat na přepsání indexu této knihy/knih, pak by se to dá i rozdělit mezi lidi atd (v úplném extrému si jako poslední vlny můžete představit přepis už samotního obsahu a ne jen indexu, ale za mě to je opravdu hudba budoucnosti)

Stejně tak by to chtělo mít jednoduché na zadání přímo do systému, a nebo skrz import. Možná portál kde se uživatelovi můžou i nabízet stánky k přepsání, motivační by mohl být i systém reputace jako je na stack exchange stránkách. I tak bude těžký najít lidi kteří by to jen tak pro nic dělali v takovým množství (já se pustil do přepisování čitelného indexu a když sem ho dokončil tak sem z toho byl opravdu otráven, už to dělat nechci :), a teď představa indexovat přimo samotné a často nečitelné knihy...). Proto možná když se v tom systému dalo digitalizovat na úrovni stránek, to je pak teoreticky něco čemu človek bude věnovat třeba 30 minut (i když jak kdo), člověk to zadá, a dál to nemusí řešit, někdy jindy/někdo jiný bude pokračovat. I když to pak asi utrpí kvalita když by potenciálně každou stránku dělal někdo jiný...

Pak je tu taky otázka amaterismu, určitě by to chtělo kvalitní opis, a ne někoho kdo to tam tipuje jak ho napadá, ale zavádět nějaký review process na toto, tím se to celé ještě více prodlouží.

Další věc je hosting, nevím nakolik ostatní ale osobně ve mě nebudí moc dobrý dojem .webnode.cz který je zdarma hosting, když bych něco někde zadával tak bych chtěl mít jistotu, že ta stránka za rok nezmizí, že má nějak řešené zálohování atd...

Mimochodem bylo by zajimavé fetchnout informace ze všech SoA archivu o původcích a knihách, hned by byla jasnější představa kolik toho vlastně je. Já tohle nedávno udělal s brněnských archivem, a vyšlo mi přes 1.5 milionu stránek. Teď krát 8 pro každý archiv (hodně hrubý odhad) a to jsme na více jak 12 milionech stránek, nemluvě o počtu záznamů na daných strankách. Řekl bych že jen zdigitalizovat samotné indexy by bohatě stačilo a stejně to potrvá. Co by šlo udělat v bouducnu až toho bude část zdigitalizovaná, tak použít to jako trénovací sadu pro neuronové sítě, a pak by takový vycvičený algoritmus pomohl s digitalizací zbytku. Problém je že tohle vyžaduje opravdu velký set dat právě na trénink, obzvlášť u písma kde co jiná doba a jiný člověk tak jiné písmo...

Naivně se mi ta představa pořád líbí, ale prakticky... pokud za tohle někdo nezaplatí lidské zdroje tak k tomu tímhle způsobem a tempem dojde tak nejdřív příští století. Oba dva zmíněné projekty vypadají zajímavě, ale upřímně jsou to pořád nesystematické pokusy (přestože ja za nima očividně kus práce). Každopádně budu rád když mě někdo přesvědčí o opaku.
Sil
 
Příspěvky: 247
Registrován: úte črc 25, 2017 20:43
Oblast pátrání: Česká republika, Brno a okolí, Kanice, Babice nad Svitavou, Bílovice nad Svitavou, Měrovice nad Hanou, Uhřičice, Polkovice, Kojetín

Re: MATRIX-online přepis a překládání matrik

Příspěvekod zburget » sob úno 16, 2019 12:02

Jen špetka naděje - mám informaci z důvěryhodného zdroje, že se na FIT VUT Brno pracuje na OCR systému pro čtení historických materiálů. Nemám ale tušení, v jakém stavu to je, co tím chtějí číst, jestli už jim to čte, jak velkou mají trénovací sadu, z jakých zdrojů ji mají a jestli vůbec už ji mají. Jen vím, že by se na něčem takovém mělo pracovat. Tak třeba se někdy v budoucnu dočkáme i nějaké produkční verze.

Co se týče digitalitace - vzhledem k dobré dostupnosti matrik u nás by indexy opravdu bohatě stačily. Těch otázek spojených už jen s návrhem takového systému je ale obrovské množství. Namátkou třeba jen taková drobnost, v jakém tvaru do indexu zapisovat jména jak křestní, tak příjmení. Už tohle je na dlouhou vážnou diskuzi.

A dát do databáze přepis jen tak, bez kontroly, to není úplně ideální nápad. Ani při nejlepší vůli není možné v přepisech neudělat chyby. Na to by musel být tým lidí, kteří se tím budou dlouhodobě zabývat. A to už asi prakticky není možné dělat amatérsky zadarmo. Na drouhou stranu - třeba by se na takový projekt daly sehnat nějaké dotační prostředky. Ale to by muselo být všechno velice dobře připraveno. Muselo by být jasné, co konkrétně bude v databázi. Struktura dat, formát obsahu, zmapovaný rozsah, vyřešená autorská práva na přepsané části databáze, vyčíslené náklady na HW a SW (pořízení/pronájem serveru, instalace systému, údržba, správa), vyčíslené náklady na pořízení dat... Protě tolik problémů, že by musel někdo (nějaký spolek nebo skupina lidí) mít zatraceně dobrý důvod něco takového byť jen začít připravovat. A to vůbec nemluvím o tom pořizování dat samotném...
Zbyněk Burget
zburget
 
Příspěvky: 12523
Registrován: pon dub 30, 2018 17:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: MATRIX-online přepis a překládání matrik

Příspěvekod Sil » sob čer 08, 2019 19:37

Tak pro zajímavost, rozbíhá se projekt právě na tohle téma, více tady viewtopic.php?f=12&t=47620.
Sil
 
Příspěvky: 247
Registrován: úte črc 25, 2017 20:43
Oblast pátrání: Česká republika, Brno a okolí, Kanice, Babice nad Svitavou, Bílovice nad Svitavou, Měrovice nad Hanou, Uhřičice, Polkovice, Kojetín

Předchozí

Zpět na Jaký software používáte?

Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 5 návštevníků