Digitalizace obsahů matrik

Máte nějaký nápad o kterýse chcete podělit, nebo radu kterou chcete přispět ostatním v jejich genealogickém úsilí? Můžete ji napsat sem.

Digitalizace obsahů matrik

Příspěvekod Sil » ned zář 10, 2017 7:45

Tak si nějaký ten měsíc brouzdám matrikami a říkám si jak je skvělé že jich je tolik digitalizovaných, za to patří rozhodně dík všem kdo se na tom podílí! Zároveň se ale nemůžu ubránit dojmu, že to je jen půlka cesty, vždyť v dnešní době velkých dat a databází by nebyl problém mít uložené i jednotlivé údaje z matrik v databází, tak že by bylo možné hledat už rovnou podle jmen, čísel domů, svědků, atd... Částečně je to vidět u záznamů které jsou uloženy ve family tree, ale pro české matriky mi to docela chybí. Nevíte jestli něco takového už existuje, nějaká iniciativa s tímhle záměrem?

Vzhledem k množství záznamů si dovedu představit například crowdsourcingovou aktivitu kde by si lidi mohli vybrat konkrétní ještě nezidenxovaný záznam z matriky a přepsat ho, případně přeložit, případně by mohli zkontrolovat záznam který před nimi někdo už přepsal/přeložil pro kontrolu. Taky, a to je možná ještě hudba budoucnosti ale mohly by být přepisy navrhované OCR enginem (automatické rozpoznávání textu, i když pro ručně psaný kurent je tohle asi ještě docela velká výzva).

Jen sem chtěl nahodit tohle téma a co si o tom myslíte.
Sil
 
Příspěvky: 12
Registrován: úte črc 25, 2017 20:43
Oblast pátrání: Česká republika, Brno a okolí

Re: Digitalizace obsahů matrik

Příspěvekod Zora » ned zář 10, 2017 8:22

matriky.msts.cz

Z
Uživatelský avatar
Zora
 
Příspěvky: 12484
Registrován: čtv kvě 31, 2012 14:01
Bydliště: Ivančice
Oblast pátrání: Ivančice a okolí, Brno-Zábrdovice, jižně od Brna, Tišnovsko, Vysočina-Žďár, Křižanov, Velkobítešsko, Náměšťsko, z části Třebíč, mlynářské rody na řekách Jihlava, Oslava, matriky Rakousko z části

Re: Digitalizace obsahů matrik

Příspěvekod Sil » ned zář 10, 2017 9:55

Ten odkaz vypadá zajímavě Zoro, něco takového je dobrý začátek. A teď si vemte kolik takových tabulek mají lide asi vytvořeno pro vlastní potřebu...

Přijde že by to chtělo jít o krok dál, mít to v jednotném systému nad kterým můžou kolaborovat další lidi. Když by podobné informace co mají různí lidé pro vlastni potřebu nahrnuli do jednoho systému, bylo by to potom mnohem rychlejší cokoliv hledat. Představte si například že vložíte příjmení do vyhledávání a vyskočí vám mapa kde všude bylo nalezeno v ČR. Taky by jako bonus bylo snadné automaticky generovat různé statistiky (co já vím, třeba četnost jmen na různých místech a v různých dobách). Těch kouzel se s tím dá dělat hodně potom..
Sil
 
Příspěvky: 12
Registrován: úte črc 25, 2017 20:43
Oblast pátrání: Česká republika, Brno a okolí

Re: Digitalizace obsahů matrik

Příspěvekod Zora » ned zář 10, 2017 10:11

Někdo musí matriky přepsat, zatím to dělá (veřejně přístupně) pouze kolega Alt, po svolení ostatních uživatelů připojuje i odkazy na jimi přepsané matriky.

Vyhledavač v tom přepsaném vytvořil Pierotto a v podstatě ho neustále vylepšuje, podle možností, které jsou dány actapublica.

Nevím, zda jste se díval - vyhledávání osob a vyhledávání obcí
http://records.pixistudio.cz/?query=1718
http://records.pixistudio.cz/location/s ... istance=25

Vše závisí na osobním čase, ochotě dalších se přidat. Zatím se nikdo další nenašel.

Pokud se s přepisování přidáte, určitě budete vítán.

Z
Uživatelský avatar
Zora
 
Příspěvky: 12484
Registrován: čtv kvě 31, 2012 14:01
Bydliště: Ivančice
Oblast pátrání: Ivančice a okolí, Brno-Zábrdovice, jižně od Brna, Tišnovsko, Vysočina-Žďár, Křižanov, Velkobítešsko, Náměšťsko, z části Třebíč, mlynářské rody na řekách Jihlava, Oslava, matriky Rakousko z části

Re: Digitalizace obsahů matrik

Příspěvekod zeter » ned zář 10, 2017 10:13

Představa je to samozřejmě úžasná a existující ostrůvky přepsaných dat v tom moři záznamů velmi usnadňují práci, ale myslím, že je namístě určitý realismus.
OCR u samotných matričních záznamů se mi zdá víceméně nemožné, stačí se podívat, s jakou chybovostí funguje OCR i na úrovni tištěného textu - jakž takž použitelné, ale většinou žádná sláva.
zeter
 
Příspěvky: 490
Registrován: čtv zář 01, 2016 6:54

Re: Digitalizace obsahů matrik

Příspěvekod Jan » ned zář 10, 2017 10:32

Představovat si může každý cokoliv, ale

1. kdo zpracuje databázovou aplikaci
2. kdo zaplatí webový prostor
4. každý archiv má jiný systém vyhledávače - vyzobávat jednotlivé záznamy ve vyhledávači je nekonečná práce
5. kdo bude databázi spravovat
6. jak zamezit duplicitám - někdo musí mít kontrolu nad tím co se už indexuje
7. jak zamezit chybám
8. máte vůbec představu o kolik matrik a záznamů se vůbec jedná
9. kolik lidí bude mít zájem se na tomto podílet
10. i když je asi několik lidí kteří si udělali vlastní indexy tak je do databáze nelze zapsat protože mají rozdílné struktury a vypracovat převodníky není jednoduché

Jen na tomto fóru je víc jak polovina jen registrovaných a už se nikdy neozvali. Z moderátorů zůstal jen jeden a další už sem vůbec nechodí.
Pro amatéry je daleko jednodušší hrát si na svém písečku, navíc u spousty lidí co sem chodí nevíte vůbec jak to s jejich daty vůbec vypadá
a svoje data považují za tajná a proč by se zajímali a nějakou indexaci. Jen na okraj, webový prostor tohoto fóra není zadarmo a platí ho Taby.
Uživatelský avatar
Jan
 
Příspěvky: 627
Registrován: stř srp 09, 2006 20:35
Bydliště: Brno

Re: Digitalizace obsahů matrik

Příspěvekod Sil » ned zář 10, 2017 10:42

Ten odkaz vypadá už hodně zajímavě, zkusím přispět co bude v mých silách.

Jinak jasně, nedělám si iluze že by to bylo snadné nebo rychlé, ale důvod proč jsou takové ostrůvky může být jednoduše ten, že neexistuje právě jednotný systém kde by lidé mohli ty záznamy zadávat - a to hlavně jednoduše, a mít přehled o tom kolik toho je zindexováno a kolik zbývá. Samozřejmě jsou tu stránky jako ten http://records.pixistudio.cz, kde je hodně dobře udělané prohlížení, ale věřím že kdyby byla jednoduchá platforma i na kolaboraci při vytváření, tak se přidá víc nadšenců a bude to prostě jen otázka času. Hlavně takový systém může právě umožnit rozložit zátěž mezi víc lidí. Například, pokud by takový systém umožňoval překládat jednotlivé stránky, tak někdo kdo má právě čas přeložit jen pár stránek tak udělá jen tolik kolik zvládne. Někdo jiný může pracovat na dalších stránkách. Přijde mi to celkem reálné, ale ano, předpokládá to jednoduše přístupný systém pro spolupráci a ochotu lidí (a ta se podle mě zvyšuje prvním bodem).

S tím OCR to berte s rezervou, nepochybuji o tom že dřív či později to nějaké neuronové sítě zvládnou (třeba ne se 100%, ale to není potřeba, stačí taková přesnost aby to už člověk zvládnul rychle zkontrolovat), ale asi to nebude v blízké době :)
Sil
 
Příspěvky: 12
Registrován: úte črc 25, 2017 20:43
Oblast pátrání: Česká republika, Brno a okolí

Re: Digitalizace obsahů matrik

Příspěvekod ozana » ned zář 10, 2017 10:49

Přepsat to zvládne leda umělá inteligence.
Ožana neznamená ženu, přestože to kdysi velmi dávno bylo ženské křestní jméno
Uživatelský avatar
ozana
 
Příspěvky: 5061
Registrován: úte kvě 12, 2009 6:01
Bydliště: Petřvald
Oblast pátrání: Slezsko, Petřvald okr.Karviná, Šenov

Re: Digitalizace obsahů matrik

Příspěvekod Sil » ned zář 10, 2017 10:52

Jane:

1. kdo zpracuje databázovou aplikaci
Vývojář, v dnešní době není problém takové sehnat i mezi dobrovolníky, já jsem například jeden z nich...
2. kdo zaplatí webový prostor
Ty ceny nejsou v dnešní době nijak závratné, toto nevidím jako problém...
4. každý archiv má jiný systém vyhledávače - vyzobávat jednotlivé záznamy ve vyhledávači je nekonečná práce
Asi nerozumím, čekal bych že člověk si vytváří index stejně tak jako to je na odkazech co poskytla Zora, jen je rozdíl v tom kam to zadá.
5. kdo bude databázi spravovat
Tohle je samozřejmě problém, ale tím že máte kolaborační mechanizmus postavený nad databázi, tak velkou část toho právě dělají lidi samotní. Jeslti myslíte údržbu a zálohování, tak od toho jsou existující služby.
6. jak zamezit duplicitám - někdo musí mít kontrolu nad tím co se už indexuje
Nevidím teď úplně problém v duplicitách záznamů...
7. jak zamezit chybám
Nic není 100%, ale lze to udělat například tak že záznamy budou mít u sebe vedeny jednotlivé stavy, a když někdo něco opíše, takže další stav bude že se na to někdo musí podívat. Tj. klasické review
8. máte vůbec představu o kolik matrik a záznamů se vůbec jedná
Proto se zminuju o crowdsourcingu a spoustě času. Nikdo nečeká že to bude dělat jeden člověk
9. kolik lidí bude mít zájem se na tomto podílet
To je otázka, to by se uvidělo :)
10. i když je asi několik lidí kteří si udělali vlastní indexy tak je do databáze nelze zapsat protože mají rozdílné struktury a vypracovat převodníky není jednoduché
Něco by šlo automatizovat, něco holt manuálně...

Já neříkám že je to jednoduchý, je to prostě projekt... Ale nepříjde mi tak neřešitelný, jen to chce zájem lidí a čas...

BTW: Nechybí bod 3. ? :)
Naposledy upravil Sil dne ned zář 10, 2017 10:54, celkově upraveno 1
Sil
 
Příspěvky: 12
Registrován: úte črc 25, 2017 20:43
Oblast pátrání: Česká republika, Brno a okolí

Re: Digitalizace obsahů matrik

Příspěvekod Zora » ned zář 10, 2017 10:53

Řekla bych to stručně tak, že teorii, co by šlo, jak by šlo, a podobně, známe, jde jen a jen o čas a o ochotu spolupracovat, podílet se a hlavně, zpřístupnit svá přepsaná data.
Zní to sice divně, ale v poslední době se objevuje tolik těch takygenealogů, co se jen vezou, přepisují nalezené předky, vyčůraně, pardon, kopírují a sami nic nepřinášejí...
Myheritage si nechává za nahlédnutí na osobní data tam uložená platit.



Co zvládnou později nějaké supersystémy, to mě zas tak nezajímá, to už tady zcela jistě nebudu.
Z
Uživatelský avatar
Zora
 
Příspěvky: 12484
Registrován: čtv kvě 31, 2012 14:01
Bydliště: Ivančice
Oblast pátrání: Ivančice a okolí, Brno-Zábrdovice, jižně od Brna, Tišnovsko, Vysočina-Žďár, Křižanov, Velkobítešsko, Náměšťsko, z části Třebíč, mlynářské rody na řekách Jihlava, Oslava, matriky Rakousko z části

Re: Digitalizace obsahů matrik

Příspěvekod Zora » ned zář 10, 2017 10:56

Sile, otevřená otázka - jste ochoten, schopen přepisovat matriky a spolupracovat na matriky.msts.cz?

Já to třeba dělat nemohu, nevidím na to. Mohu se jen podílet na věcech s databází související.

Oba kolegové jsou naprosto vytížení svou prací, rodinou, čili to, co zvládají je neuvěřitelné, ale asi jejich nyní možné maximum.

Nejužší místo jsou přepisy. Vše ostatní je zvládnuto nebo zvládnutelné.
Z
Uživatelský avatar
Zora
 
Příspěvky: 12484
Registrován: čtv kvě 31, 2012 14:01
Bydliště: Ivančice
Oblast pátrání: Ivančice a okolí, Brno-Zábrdovice, jižně od Brna, Tišnovsko, Vysočina-Žďár, Křižanov, Velkobítešsko, Náměšťsko, z části Třebíč, mlynářské rody na řekách Jihlava, Oslava, matriky Rakousko z části

Re: Digitalizace obsahů matrik

Příspěvekod Sil » ned zář 10, 2017 11:02

Zora píše:Sile, otevřená otázka - jste ochoten, schopen přepisovat matriky a spolupracovat na matriky.msts.cz?


Proč ne, ve volném čase klidně můžu - i když moje limitace je že zase ještě tolik ty písma neovládám, takže postupně (jsem rozhodně zatím amatér) :)
Sil
 
Příspěvky: 12
Registrován: úte črc 25, 2017 20:43
Oblast pátrání: Česká republika, Brno a okolí

Re: Digitalizace obsahů matrik

Příspěvekod Zora » ned zář 10, 2017 11:04

Ok, napojím Vás na kolegy, se kterými se domluvíte, co by bylo potřeba.

Z
Uživatelský avatar
Zora
 
Příspěvky: 12484
Registrován: čtv kvě 31, 2012 14:01
Bydliště: Ivančice
Oblast pátrání: Ivančice a okolí, Brno-Zábrdovice, jižně od Brna, Tišnovsko, Vysočina-Žďár, Křižanov, Velkobítešsko, Náměšťsko, z části Třebíč, mlynářské rody na řekách Jihlava, Oslava, matriky Rakousko z části

Re: Digitalizace obsahů matrik

Příspěvekod Jan » ned zář 10, 2017 12:02

Sil píše:Jane:

1. kdo zpracuje databázovou aplikaci
Vývojář, v dnešní době není problém takové sehnat i mezi dobrovolníky, já jsem například jeden z nich...
2. kdo zaplatí webový prostor
Ty ceny nejsou v dnešní době nijak závratné, toto nevidím jako problém...
4. každý archiv má jiný systém vyhledávače - vyzobávat jednotlivé záznamy ve vyhledávači je nekonečná práce
Asi nerozumím, čekal bych že člověk si vytváří index stejně tak jako to je na odkazech co poskytla Zora, jen je rozdíl v tom kam to zadá.
5. kdo bude databázi spravovat
Tohle je samozřejmě problém, ale tím že máte kolaborační mechanizmus postavený nad databázi, tak velkou část toho právě dělají lidi samotní. Jeslti myslíte údržbu a zálohování, tak od toho jsou existující služby.
6. jak zamezit duplicitám - někdo musí mít kontrolu nad tím co se už indexuje
Nevidím teď úplně problém v duplicitách záznamů...
7. jak zamezit chybám
Nic není 100%, ale lze to udělat například tak že záznamy budou mít u sebe vedeny jednotlivé stavy, a když někdo něco opíše, takže další stav bude že se na to někdo musí podívat. Tj. klasické review
8. máte vůbec představu o kolik matrik a záznamů se vůbec jedná
Proto se zminuju o crowdsourcingu a spoustě času. Nikdo nečeká že to bude dělat jeden člověk
9. kolik lidí bude mít zájem se na tomto podílet
To je otázka, to by se uvidělo :)
10. i když je asi několik lidí kteří si udělali vlastní indexy tak je do databáze nelze zapsat protože mají rozdílné struktury a vypracovat převodníky není jednoduché
Něco by šlo automatizovat, něco holt manuálně...

Já neříkám že je to jednoduchý, je to prostě projekt... Ale nepříjde mi tak neřešitelný, jen to chce zájem lidí a čas...

BTW: Nechybí bod 3. ? :)


Ano, je to jen překlep.
Asi neznáte tento projekt: http://www.gedmatch.info
Import GED souboru je daleko výhodnější, jen by se mělo zapojit víc lidí.
Uživatelský avatar
Jan
 
Příspěvky: 627
Registrován: stř srp 09, 2006 20:35
Bydliště: Brno

Re: Digitalizace obsahů matrik

Příspěvekod Sil » ned zář 10, 2017 12:17

Jan píše:Asi neznáte tento projekt: http://www.gedmatch.info
Import GED souboru je daleko výhodnější, jen by se mělo zapojit víc lidí.


Tak už se zapojilo o jednoho člověka víc. Jen teda je tu jde spíše o rodokmeny než o matriky, hodně mi to připomíná myheritage co se týče vyhledávání shod.
Sil
 
Příspěvky: 12
Registrován: úte črc 25, 2017 20:43
Oblast pátrání: Česká republika, Brno a okolí

Další

Zpět na Nápady

Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 1 návštěvník