Rodokmen 13m. lidí

Co vás při bádání překvapilo, co jste objevili, o co byste se rádi podělili?

Rodokmen 13m. lidí

Příspěvekod MMAGenea » sob bře 03, 2018 10:53

Dobrý den vespolek,
zajímavost..
https://www.novinky.cz/koktejl/465024-j ... -lidi.html
Práce s daty z Geni.com
Ještě by mohli udělat algoritmus, který by procházel, luštil a databázoval staré matriky ;)
MMAGenea
 
Příspěvky: 116
Registrován: pát úno 23, 2018 11:07
Bydliště: F-M
Oblast pátrání: Sudkov, Zábřeh, Bludov, Janoušov, Horní Heřmanice
Šurany/SK

Re: Rodokmen 13m. lidí

Příspěvekod Zora » sob bře 03, 2018 11:38

Oni určitě mají algoritmus, který spojuje kohokoliv s kýmkoliv - dost často bez ohledu na časovou logiku.

Zora,
z přízně tuším s Přemyslovcem Mnatou nebo snad dokonce Vojenem? a taky nějaký ruským carem, možná se dvěma... se spoustou Japonců ....
nějak jsem to přestala sledovat - jen se bavím nad naprosto zjevnými chybami.

Z
Uživatelský avatar
Zora
 
Příspěvky: 28990
Registrován: čtv kvě 31, 2012 14:01
Bydliště: Ivančice
Oblast pátrání: Ivančice a okolí, Brno-Zábrdovice, jižně od Brna, Tišnovsko, Vysočina-Žďár, Křižanov, Velkobítešsko, Náměšťsko, z části Třebíč, mlynářské rody na řekách Jihlava, Oslava, matriky Rakousko z části

Re: Rodokmen 13m. lidí

Příspěvekod pesovirodkm » čtv bře 08, 2018 6:32

MMAGenea píše:Dobrý den vespolek,
zajímavost..
https://www.novinky.cz/koktejl/465024-j ... -lidi.html
Práce s daty z Geni.com
Ještě by mohli udělat algoritmus, který by procházel, luštil a databázoval staré matriky ;)

Takový algoritmus už dávno existuje a je velmi jednoduchý. Luštění matrik lze celkem snadno řešit neuronovými sítěmi. Problém je ve dvou věcech. Jednak na naučení potřebujete velké množství vstupních dat, tedy řádově nejméně stovky tisíc rozluštěných stran (spíše miliony) - a to i ty špatně čitelné (jinak by algoritmus uměl konvertovat jen dobře čitelné :-) ) Pro standardní písmo se tato data získávají "distribuovaně", tedy např. prostřednictvím projektu ReCaptcha, po dobu několika let. Druhý problém je v tom, že pro efektivní naučení hluboké neuronové sítě potřebujete obrovský výpočetní výkon. Z tohoto důvodu je umělá inteligence doménou několika málo nadnárodních korporací - Google, Facebook, IBM, popř. velkých automobilek u vývoje autonomních aut, neboť jednotlivec si nemůže dovolit přístup k obřím clusterům, na nichž by mohl neuronovou síť naučit dříve než za stovky let. Pro srovnání: semestrálku s pár desítkami neuronů s jednou skrytou vrstvou na čtení dobře čitelných číslic 0-9 (použitelné tak leda na čitelně vyplněné formuláře) jsem doma učil řádově desítky minut (tehdy ještě bez grafické karty, takže dnes by to mohlo být o něco rychlejší).
Jelikož indexování starých matrik nemá komerční potenciál, patrně se v nejbližší době žádná z firem typu Facebook touto činností zaobírat nebude. Těch pár desítek tisíc zájemců o genealogii po celém světě to prostě nezaplatí, je ekonomicky výhodnější řešit cílení reklamy, či auta bez řidiče. To lze nasadit na stádo masově, čtení matrik nikoho nezajímá.

O čem jsem uvažoval, je naučení neuronové sítě vyhledávat moje příjmení. Momentálně jsem ve své větvi v koncích a hodilo by se mi též napojit druhou větev jmenovců (ČR má zhruba stovky osob s mým příjmením). Takový úkol už by reálný byl i v amatérských podmínkách, ale pochybuji, že bych přesvědčil zaměstnance SOA Plzeň, aby mi zpřístupnili veškeré dokumenty na automatickou analýzu. To by se muselo tak leda protlačit přes nějaké známé známých jako něčí diplomka.
pesovirodkm
 
Příspěvky: 119
Registrován: ned čer 21, 2015 11:04

Re: Rodokmen 13m. lidí

Příspěvekod kolsi » pon bře 12, 2018 19:21

pesovirodkm píše:
MMAGenea píše:Dobrý den vespolek,
zajímavost..
https://www.novinky.cz/koktejl/465024-j ... -lidi.html
Práce s daty z Geni.com
Ještě by mohli udělat algoritmus, který by procházel, luštil a databázoval staré matriky ;)

Takový algoritmus už dávno existuje a je velmi jednoduchý. Luštění matrik lze celkem snadno řešit neuronovými sítěmi. Problém je ve dvou věcech. Jednak na naučení potřebujete velké množství vstupních dat, tedy řádově nejméně stovky tisíc rozluštěných stran (spíše miliony) - a to i ty špatně čitelné (jinak by algoritmus uměl konvertovat jen dobře čitelné :-) )

A pokud to přenesu z teorie do praxe, co by to vlastně znamenalo? Vzhledem k tomu, že téměř každá matrika je psaná jinou rukou, jiným typem písma, jiným jazykem i jiných stylem zápisu (a to i jedna kniha několika), neznamenalo by to, že "velké množství vstupních dat" = téměř všechny matriky? Čili by takový algoritmus byl vlastně k ničemu?

Takový úkol už by reálný byl i v amatérských podmínkách, ale pochybuji, že bych přesvědčil zaměstnance SOA Plzeň, aby mi zpřístupnili veškeré dokumenty na automatickou analýzu. To by se muselo tak leda protlačit přes nějaké známé známých jako něčí diplomka.

Nevím jak z právního hlediska, ale z technického by toto zase problém nebyl. Vzhledem k tomu, že moje utilitka umí stáhnout každou matriku ze SOA Plzeň/Litoměřice/AHMP, tak už by nebyl problém dodělat, aby stáhnul všechny (resp. určitou oblast zájmu).
Tomáš
Rodokmen: https://www.myheritage.cz/site-55200902/
Pátrání po rodu Ortcigr / Holtziger: viewtopic.php?f=5&t=28607
kolsi
 
Příspěvky: 725
Registrován: stř pro 16, 2015 11:32
Oblast pátrání: Teplicko, sev. Plzeňsko, Rokycansko, Podřipsko


Zpět na Vlastní poznatky

Kdo je online

Uživatelé procházející toto fórum: Žádní registrovaní uživatelé a 6 návštevníků