Stránka 1 z 1

Rodokmen 13m. lidí

PříspěvekNapsal: sob bře 03, 2018 10:53
od MMAGenea
Dobrý den vespolek,
zajímavost..
https://www.novinky.cz/koktejl/465024-j ... -lidi.html
Práce s daty z Geni.com
Ještě by mohli udělat algoritmus, který by procházel, luštil a databázoval staré matriky ;)

Re: Rodokmen 13m. lidí

PříspěvekNapsal: sob bře 03, 2018 11:38
od Zora
Oni určitě mají algoritmus, který spojuje kohokoliv s kýmkoliv - dost často bez ohledu na časovou logiku.

Zora,
z přízně tuším s Přemyslovcem Mnatou nebo snad dokonce Vojenem? a taky nějaký ruským carem, možná se dvěma... se spoustou Japonců ....
nějak jsem to přestala sledovat - jen se bavím nad naprosto zjevnými chybami.

Z

Re: Rodokmen 13m. lidí

PříspěvekNapsal: čtv bře 08, 2018 6:32
od pesovirodkm
MMAGenea píše:Dobrý den vespolek,
zajímavost..
https://www.novinky.cz/koktejl/465024-j ... -lidi.html
Práce s daty z Geni.com
Ještě by mohli udělat algoritmus, který by procházel, luštil a databázoval staré matriky ;)

Takový algoritmus už dávno existuje a je velmi jednoduchý. Luštění matrik lze celkem snadno řešit neuronovými sítěmi. Problém je ve dvou věcech. Jednak na naučení potřebujete velké množství vstupních dat, tedy řádově nejméně stovky tisíc rozluštěných stran (spíše miliony) - a to i ty špatně čitelné (jinak by algoritmus uměl konvertovat jen dobře čitelné :-) ) Pro standardní písmo se tato data získávají "distribuovaně", tedy např. prostřednictvím projektu ReCaptcha, po dobu několika let. Druhý problém je v tom, že pro efektivní naučení hluboké neuronové sítě potřebujete obrovský výpočetní výkon. Z tohoto důvodu je umělá inteligence doménou několika málo nadnárodních korporací - Google, Facebook, IBM, popř. velkých automobilek u vývoje autonomních aut, neboť jednotlivec si nemůže dovolit přístup k obřím clusterům, na nichž by mohl neuronovou síť naučit dříve než za stovky let. Pro srovnání: semestrálku s pár desítkami neuronů s jednou skrytou vrstvou na čtení dobře čitelných číslic 0-9 (použitelné tak leda na čitelně vyplněné formuláře) jsem doma učil řádově desítky minut (tehdy ještě bez grafické karty, takže dnes by to mohlo být o něco rychlejší).
Jelikož indexování starých matrik nemá komerční potenciál, patrně se v nejbližší době žádná z firem typu Facebook touto činností zaobírat nebude. Těch pár desítek tisíc zájemců o genealogii po celém světě to prostě nezaplatí, je ekonomicky výhodnější řešit cílení reklamy, či auta bez řidiče. To lze nasadit na stádo masově, čtení matrik nikoho nezajímá.

O čem jsem uvažoval, je naučení neuronové sítě vyhledávat moje příjmení. Momentálně jsem ve své větvi v koncích a hodilo by se mi též napojit druhou větev jmenovců (ČR má zhruba stovky osob s mým příjmením). Takový úkol už by reálný byl i v amatérských podmínkách, ale pochybuji, že bych přesvědčil zaměstnance SOA Plzeň, aby mi zpřístupnili veškeré dokumenty na automatickou analýzu. To by se muselo tak leda protlačit přes nějaké známé známých jako něčí diplomka.

Re: Rodokmen 13m. lidí

PříspěvekNapsal: pon bře 12, 2018 19:21
od kolsi
pesovirodkm píše:
MMAGenea píše:Dobrý den vespolek,
zajímavost..
https://www.novinky.cz/koktejl/465024-j ... -lidi.html
Práce s daty z Geni.com
Ještě by mohli udělat algoritmus, který by procházel, luštil a databázoval staré matriky ;)

Takový algoritmus už dávno existuje a je velmi jednoduchý. Luštění matrik lze celkem snadno řešit neuronovými sítěmi. Problém je ve dvou věcech. Jednak na naučení potřebujete velké množství vstupních dat, tedy řádově nejméně stovky tisíc rozluštěných stran (spíše miliony) - a to i ty špatně čitelné (jinak by algoritmus uměl konvertovat jen dobře čitelné :-) )

A pokud to přenesu z teorie do praxe, co by to vlastně znamenalo? Vzhledem k tomu, že téměř každá matrika je psaná jinou rukou, jiným typem písma, jiným jazykem i jiných stylem zápisu (a to i jedna kniha několika), neznamenalo by to, že "velké množství vstupních dat" = téměř všechny matriky? Čili by takový algoritmus byl vlastně k ničemu?

Takový úkol už by reálný byl i v amatérských podmínkách, ale pochybuji, že bych přesvědčil zaměstnance SOA Plzeň, aby mi zpřístupnili veškeré dokumenty na automatickou analýzu. To by se muselo tak leda protlačit přes nějaké známé známých jako něčí diplomka.

Nevím jak z právního hlediska, ale z technického by toto zase problém nebyl. Vzhledem k tomu, že moje utilitka umí stáhnout každou matriku ze SOA Plzeň/Litoměřice/AHMP, tak už by nebyl problém dodělat, aby stáhnul všechny (resp. určitou oblast zájmu).