MATRIX-online přepis a překládání matrik

U nás používaný software. Kdo co používá, klady a zápory.

Re: MATRIX-online přepis a překládání matrik

Příspěvekod Monika » pon úno 11, 2019 10:27

Nemýlíte se, Zoro. Vidím to úplně stejně.

Nemusíte se omlouvat, zburget, chápu to.
Uživatelský avatar
Monika
 
Příspěvky: 3374
Registrován: úte lis 18, 2014 2:11
Oblast pátrání: Lounsko, Slánsko, Kladensko, Rakovnicko, Nové Strašecí, Halič

Re: MATRIX-online přepis a překládání matrik

Příspěvekod pierotto » úte úno 12, 2019 17:45

Na jednu stranu ano, nemáme úplnou potřebu to indexovat, protože si to dokážeme najít sami. Indexací se jen zjednodušuje práce což ulehčí vetšinou těm, kteří o to opravdu nemají zájem a dělají to jen proto, že je to jednoduché (tím myslím masově). Na druhou stranu, přesto, že indexy můžeme mít, mám je na requiro tak já osobně je nepoužívám (aktivně), pro pasivní použití je to ,ale naprosto geniální pomůcka. Proč? Tak například nyní řeším mou "nejlepší" shodu z Y-DNA ... dotyčný v USA má příjmení Prohaska, takže Procházka (zná ví), existují záznamy z lodních deníků, ale jsou moc obecné ... Franz narozen asi 1855, otec Franz narozen asi 1831, místo, Česká republika. Má informaci, že by mohli být z Roudnice nebo Českého Krumlova. Jo, to je fajn, Procházků je tam hodně ... jediné čemu se tedy dá věřit je najít svatbu, jméno zní německy. Zjistil jsem, že prý měli rádi Vídeň, takže svatba mohla být tam ... jenže s tím se nikam nedostanu. Můžu hledat a mít štěstí a v tomto by mi index rozhodně pomohl. Ale to je samozřejmě jen povzdech :)
pierotto
 
Příspěvky: 121
Registrován: pon říj 03, 2016 7:38
Oblast pátrání: Březůvky, Zlín, Valtice, Polsko, Syrovice, Čejkovice

Re: MATRIX-online přepis a překládání matrik

Příspěvekod Jan » úte úno 12, 2019 19:05

On autor asi nemá představu o tom co obnáší tvorba rodokmenu a kolik toho autor musí projít.
Ve skutečnosti se jedná o 10 tisíc matrik, miliony zápisů a navíc vyvěsit snímky na rajče je
totální nesmysl, provozovatel webu by to celkem jistě vymazal protože by mu to blokovalo
místo na serveru.

Jen pro zajímavost jsem kdysi vytvořil soubor odkazů na zápisy v matrikách a snímky zápisů.
Bohužel jsem některé odkazy a zápisy do toho souboru nepřipojil a tak jen to co mám
zaznamenáno.

Tady je částečný přehled:

Všechno je evidováno v GED souboru a na mém webu který si může každý prohlédnout
pokud si kliknete na ikonu Seznamy. Hierarchie míst není v GED souboru a tak jsem ji
musel vytvořit přímo na webu, ta se může uložit a na webu doplnit pokud v GED přibudou
místa a tak je pořád aktuální verze k dispozici.

Počet otevřených matrik (zdroje a archivy v GED souboru)
MZA 110
AHMP 1
Třeboň 1
VÚA 1

Počet událostí (odkazy a snímky v GED souboru)
Narození 485
Sňatek 148
Úmrtí 301
Celkem 934
Uživatelský avatar
Jan
 
Příspěvky: 692
Registrován: stř srp 09, 2006 21:35
Bydliště: Brno

Re: MATRIX-online přepis a překládání matrik

Příspěvekod Sil » sob úno 16, 2019 10:19

V prvé řadě, snahu cením, sám jsem něco podobného zvažoval (diskuze tady viewtopic.php?f=17&t=37657), takže dovedu pochopit to nadšení a pak možná i to zklamání když se to nesetká s takovým ohlasem jakým by člověk chtěl. Na druhou stranu ono je dobře se o tom pobavit předtím než se takový projekt rozjede, obzvlášt pokud by pak spousta věcí řečených tady znamenaly kompletní předělání (rozhodně lepší než to zjistit až nad tím budete trávit rok...). Každopádně...

Vhodnejší by byla asi nějaká databáze než takhle po obrazcích, aby se s těmi daty dalo nějak rozumně pracovat a filterovat, to je přeci výhoda digitalizace (jak například v tom vašem řešení budete vyhledávat všechny výskyty daného příjmení?). Další důvod je ten, že když se za rok rozhodnete to přesnout do jiného systému, formátu, apod., budete z toho lístečkovacího způsobu schopný ty data vytáhnout automaticky?

Zároveň co mi na všech stávajících řešeních pořád tak nějak chybí je systematický přístup. Takhle když každý zadává nějaký svůj malý kousek, není absolutně jasné kolik toho vlastně je, kolik toho zbývá atd. Já si dřív představoval nějaké statistiky typu kolik je celkově knih, stránek, kolik přepsáno, kolik z jednotlivých archivu. V tom svém řešení jsem zvažoval, že by se na tom dělalo ve vlnách, v první vlně by se zmapovali původci, tj. jejich seznam defakto, možná informace o lokalitách atd. V další vlně by se zmapovali knihy (zatím pořád bez obsahu), v tehle chvíli by bylo jasno i počty stránek a tak nějak odhad usílí. Další vlny už by pak mohly být o samotné digitalizaci indexu záznamů. Například by se pak dalo jít i nějak po konkrétních původcích, třeba teď se hlavní usílí zúčastněných bude zaměřovat na přepsání indexu této knihy/knih, pak by se to dá i rozdělit mezi lidi atd (v úplném extrému si jako poslední vlny můžete představit přepis už samotního obsahu a ne jen indexu, ale za mě to je opravdu hudba budoucnosti)

Stejně tak by to chtělo mít jednoduché na zadání přímo do systému, a nebo skrz import. Možná portál kde se uživatelovi můžou i nabízet stánky k přepsání, motivační by mohl být i systém reputace jako je na stack exchange stránkách. I tak bude těžký najít lidi kteří by to jen tak pro nic dělali v takovým množství (já se pustil do přepisování čitelného indexu a když sem ho dokončil tak sem z toho byl opravdu otráven, už to dělat nechci :), a teď představa indexovat přimo samotné a často nečitelné knihy...). Proto možná když se v tom systému dalo digitalizovat na úrovni stránek, to je pak teoreticky něco čemu človek bude věnovat třeba 30 minut (i když jak kdo), člověk to zadá, a dál to nemusí řešit, někdy jindy/někdo jiný bude pokračovat. I když to pak asi utrpí kvalita když by potenciálně každou stránku dělal někdo jiný...

Pak je tu taky otázka amaterismu, určitě by to chtělo kvalitní opis, a ne někoho kdo to tam tipuje jak ho napadá, ale zavádět nějaký review process na toto, tím se to celé ještě více prodlouží.

Další věc je hosting, nevím nakolik ostatní ale osobně ve mě nebudí moc dobrý dojem .webnode.cz který je zdarma hosting, když bych něco někde zadával tak bych chtěl mít jistotu, že ta stránka za rok nezmizí, že má nějak řešené zálohování atd...

Mimochodem bylo by zajimavé fetchnout informace ze všech SoA archivu o původcích a knihách, hned by byla jasnější představa kolik toho vlastně je. Já tohle nedávno udělal s brněnských archivem, a vyšlo mi přes 1.5 milionu stránek. Teď krát 8 pro každý archiv (hodně hrubý odhad) a to jsme na více jak 12 milionech stránek, nemluvě o počtu záznamů na daných strankách. Řekl bych že jen zdigitalizovat samotné indexy by bohatě stačilo a stejně to potrvá. Co by šlo udělat v bouducnu až toho bude část zdigitalizovaná, tak použít to jako trénovací sadu pro neuronové sítě, a pak by takový vycvičený algoritmus pomohl s digitalizací zbytku. Problém je že tohle vyžaduje opravdu velký set dat právě na trénink, obzvlášť u písma kde co jiná doba a jiný člověk tak jiné písmo...

Naivně se mi ta představa pořád líbí, ale prakticky... pokud za tohle někdo nezaplatí lidské zdroje tak k tomu tímhle způsobem a tempem dojde tak nejdřív příští století. Oba dva zmíněné projekty vypadají zajímavě, ale upřímně jsou to pořád nesystematické pokusy (přestože ja za nima očividně kus práce). Každopádně budu rád když mě někdo přesvědčí o opaku.
Uživatelský avatar
Sil
 
Příspěvky: 83
Registrován: úte črc 25, 2017 21:43
Oblast pátrání: Česká republika, Brno a okolí, Měrovice nad Hanou, Uhřičice, Polkovice, Kojetín

Re: MATRIX-online přepis a překládání matrik

Příspěvekod zburget » sob úno 16, 2019 13:02

Jen špetka naděje - mám informaci z důvěryhodného zdroje, že se na FIT VUT Brno pracuje na OCR systému pro čtení historických materiálů. Nemám ale tušení, v jakém stavu to je, co tím chtějí číst, jestli už jim to čte, jak velkou mají trénovací sadu, z jakých zdrojů ji mají a jestli vůbec už ji mají. Jen vím, že by se na něčem takovém mělo pracovat. Tak třeba se někdy v budoucnu dočkáme i nějaké produkční verze.

Co se týče digitalitace - vzhledem k dobré dostupnosti matrik u nás by indexy opravdu bohatě stačily. Těch otázek spojených už jen s návrhem takového systému je ale obrovské množství. Namátkou třeba jen taková drobnost, v jakém tvaru do indexu zapisovat jména jak křestní, tak příjmení. Už tohle je na dlouhou vážnou diskuzi.

A dát do databáze přepis jen tak, bez kontroly, to není úplně ideální nápad. Ani při nejlepší vůli není možné v přepisech neudělat chyby. Na to by musel být tým lidí, kteří se tím budou dlouhodobě zabývat. A to už asi prakticky není možné dělat amatérsky zadarmo. Na drouhou stranu - třeba by se na takový projekt daly sehnat nějaké dotační prostředky. Ale to by muselo být všechno velice dobře připraveno. Muselo by být jasné, co konkrétně bude v databázi. Struktura dat, formát obsahu, zmapovaný rozsah, vyřešená autorská práva na přepsané části databáze, vyčíslené náklady na HW a SW (pořízení/pronájem serveru, instalace systému, údržba, správa), vyčíslené náklady na pořízení dat... Protě tolik problémů, že by musel někdo (nějaký spolek nebo skupina lidí) mít zatraceně dobrý důvod něco takového byť jen začít připravovat. A to vůbec nemluvím o tom pořizování dat samotném...
Zbyněk Burget
zburget
 
Příspěvky: 3828
Registrován: pon dub 30, 2018 18:15
Bydliště: Nezamyslice [okr. Prostějov]
Oblast pátrání: Konicko, Protivanovsko (okres Prostějov)
Boskovicko

Re: MATRIX-online přepis a překládání matrik

Příspěvekod Sil » sob čer 08, 2019 20:37

Tak pro zajímavost, rozbíhá se projekt právě na tohle téma, více tady viewtopic.php?f=12&t=47620.
Uživatelský avatar
Sil
 
Příspěvky: 83
Registrován: úte črc 25, 2017 21:43
Oblast pátrání: Česká republika, Brno a okolí, Měrovice nad Hanou, Uhřičice, Polkovice, Kojetín

Předchozí

Zpět na Jaký software používáte?

Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 1 návštěvník