Re: MATRIX-online přepis a překládání matrik
Napsal: sob úno 16, 2019 9:19
V prvé řadě, snahu cením, sám jsem něco podobného zvažoval (diskuze tady viewtopic.php?f=17&t=37657), takže dovedu pochopit to nadšení a pak možná i to zklamání když se to nesetká s takovým ohlasem jakým by člověk chtěl. Na druhou stranu ono je dobře se o tom pobavit předtím než se takový projekt rozjede, obzvlášt pokud by pak spousta věcí řečených tady znamenaly kompletní předělání (rozhodně lepší než to zjistit až nad tím budete trávit rok...). Každopádně...
Vhodnejší by byla asi nějaká databáze než takhle po obrazcích, aby se s těmi daty dalo nějak rozumně pracovat a filterovat, to je přeci výhoda digitalizace (jak například v tom vašem řešení budete vyhledávat všechny výskyty daného příjmení?). Další důvod je ten, že když se za rok rozhodnete to přesnout do jiného systému, formátu, apod., budete z toho lístečkovacího způsobu schopný ty data vytáhnout automaticky?
Zároveň co mi na všech stávajících řešeních pořád tak nějak chybí je systematický přístup. Takhle když každý zadává nějaký svůj malý kousek, není absolutně jasné kolik toho vlastně je, kolik toho zbývá atd. Já si dřív představoval nějaké statistiky typu kolik je celkově knih, stránek, kolik přepsáno, kolik z jednotlivých archivu. V tom svém řešení jsem zvažoval, že by se na tom dělalo ve vlnách, v první vlně by se zmapovali původci, tj. jejich seznam defakto, možná informace o lokalitách atd. V další vlně by se zmapovali knihy (zatím pořád bez obsahu), v tehle chvíli by bylo jasno i počty stránek a tak nějak odhad usílí. Další vlny už by pak mohly být o samotné digitalizaci indexu záznamů. Například by se pak dalo jít i nějak po konkrétních původcích, třeba teď se hlavní usílí zúčastněných bude zaměřovat na přepsání indexu této knihy/knih, pak by se to dá i rozdělit mezi lidi atd (v úplném extrému si jako poslední vlny můžete představit přepis už samotního obsahu a ne jen indexu, ale za mě to je opravdu hudba budoucnosti)
Stejně tak by to chtělo mít jednoduché na zadání přímo do systému, a nebo skrz import. Možná portál kde se uživatelovi můžou i nabízet stánky k přepsání, motivační by mohl být i systém reputace jako je na stack exchange stránkách. I tak bude těžký najít lidi kteří by to jen tak pro nic dělali v takovým množství (já se pustil do přepisování čitelného indexu a když sem ho dokončil tak sem z toho byl opravdu otráven, už to dělat nechci , a teď představa indexovat přimo samotné a často nečitelné knihy...). Proto možná když se v tom systému dalo digitalizovat na úrovni stránek, to je pak teoreticky něco čemu človek bude věnovat třeba 30 minut (i když jak kdo), člověk to zadá, a dál to nemusí řešit, někdy jindy/někdo jiný bude pokračovat. I když to pak asi utrpí kvalita když by potenciálně každou stránku dělal někdo jiný...
Pak je tu taky otázka amaterismu, určitě by to chtělo kvalitní opis, a ne někoho kdo to tam tipuje jak ho napadá, ale zavádět nějaký review process na toto, tím se to celé ještě více prodlouží.
Další věc je hosting, nevím nakolik ostatní ale osobně ve mě nebudí moc dobrý dojem .webnode.cz který je zdarma hosting, když bych něco někde zadával tak bych chtěl mít jistotu, že ta stránka za rok nezmizí, že má nějak řešené zálohování atd...
Mimochodem bylo by zajimavé fetchnout informace ze všech SoA archivu o původcích a knihách, hned by byla jasnější představa kolik toho vlastně je. Já tohle nedávno udělal s brněnských archivem, a vyšlo mi přes 1.5 milionu stránek. Teď krát 8 pro každý archiv (hodně hrubý odhad) a to jsme na více jak 12 milionech stránek, nemluvě o počtu záznamů na daných strankách. Řekl bych že jen zdigitalizovat samotné indexy by bohatě stačilo a stejně to potrvá. Co by šlo udělat v bouducnu až toho bude část zdigitalizovaná, tak použít to jako trénovací sadu pro neuronové sítě, a pak by takový vycvičený algoritmus pomohl s digitalizací zbytku. Problém je že tohle vyžaduje opravdu velký set dat právě na trénink, obzvlášť u písma kde co jiná doba a jiný člověk tak jiné písmo...
Naivně se mi ta představa pořád líbí, ale prakticky... pokud za tohle někdo nezaplatí lidské zdroje tak k tomu tímhle způsobem a tempem dojde tak nejdřív příští století. Oba dva zmíněné projekty vypadají zajímavě, ale upřímně jsou to pořád nesystematické pokusy (přestože ja za nima očividně kus práce). Každopádně budu rád když mě někdo přesvědčí o opaku.
Vhodnejší by byla asi nějaká databáze než takhle po obrazcích, aby se s těmi daty dalo nějak rozumně pracovat a filterovat, to je přeci výhoda digitalizace (jak například v tom vašem řešení budete vyhledávat všechny výskyty daného příjmení?). Další důvod je ten, že když se za rok rozhodnete to přesnout do jiného systému, formátu, apod., budete z toho lístečkovacího způsobu schopný ty data vytáhnout automaticky?
Zároveň co mi na všech stávajících řešeních pořád tak nějak chybí je systematický přístup. Takhle když každý zadává nějaký svůj malý kousek, není absolutně jasné kolik toho vlastně je, kolik toho zbývá atd. Já si dřív představoval nějaké statistiky typu kolik je celkově knih, stránek, kolik přepsáno, kolik z jednotlivých archivu. V tom svém řešení jsem zvažoval, že by se na tom dělalo ve vlnách, v první vlně by se zmapovali původci, tj. jejich seznam defakto, možná informace o lokalitách atd. V další vlně by se zmapovali knihy (zatím pořád bez obsahu), v tehle chvíli by bylo jasno i počty stránek a tak nějak odhad usílí. Další vlny už by pak mohly být o samotné digitalizaci indexu záznamů. Například by se pak dalo jít i nějak po konkrétních původcích, třeba teď se hlavní usílí zúčastněných bude zaměřovat na přepsání indexu této knihy/knih, pak by se to dá i rozdělit mezi lidi atd (v úplném extrému si jako poslední vlny můžete představit přepis už samotního obsahu a ne jen indexu, ale za mě to je opravdu hudba budoucnosti)
Stejně tak by to chtělo mít jednoduché na zadání přímo do systému, a nebo skrz import. Možná portál kde se uživatelovi můžou i nabízet stánky k přepsání, motivační by mohl být i systém reputace jako je na stack exchange stránkách. I tak bude těžký najít lidi kteří by to jen tak pro nic dělali v takovým množství (já se pustil do přepisování čitelného indexu a když sem ho dokončil tak sem z toho byl opravdu otráven, už to dělat nechci , a teď představa indexovat přimo samotné a často nečitelné knihy...). Proto možná když se v tom systému dalo digitalizovat na úrovni stránek, to je pak teoreticky něco čemu človek bude věnovat třeba 30 minut (i když jak kdo), člověk to zadá, a dál to nemusí řešit, někdy jindy/někdo jiný bude pokračovat. I když to pak asi utrpí kvalita když by potenciálně každou stránku dělal někdo jiný...
Pak je tu taky otázka amaterismu, určitě by to chtělo kvalitní opis, a ne někoho kdo to tam tipuje jak ho napadá, ale zavádět nějaký review process na toto, tím se to celé ještě více prodlouží.
Další věc je hosting, nevím nakolik ostatní ale osobně ve mě nebudí moc dobrý dojem .webnode.cz který je zdarma hosting, když bych něco někde zadával tak bych chtěl mít jistotu, že ta stránka za rok nezmizí, že má nějak řešené zálohování atd...
Mimochodem bylo by zajimavé fetchnout informace ze všech SoA archivu o původcích a knihách, hned by byla jasnější představa kolik toho vlastně je. Já tohle nedávno udělal s brněnských archivem, a vyšlo mi přes 1.5 milionu stránek. Teď krát 8 pro každý archiv (hodně hrubý odhad) a to jsme na více jak 12 milionech stránek, nemluvě o počtu záznamů na daných strankách. Řekl bych že jen zdigitalizovat samotné indexy by bohatě stačilo a stejně to potrvá. Co by šlo udělat v bouducnu až toho bude část zdigitalizovaná, tak použít to jako trénovací sadu pro neuronové sítě, a pak by takový vycvičený algoritmus pomohl s digitalizací zbytku. Problém je že tohle vyžaduje opravdu velký set dat právě na trénink, obzvlášť u písma kde co jiná doba a jiný člověk tak jiné písmo...
Naivně se mi ta představa pořád líbí, ale prakticky... pokud za tohle někdo nezaplatí lidské zdroje tak k tomu tímhle způsobem a tempem dojde tak nejdřív příští století. Oba dva zmíněné projekty vypadají zajímavě, ale upřímně jsou to pořád nesystematické pokusy (přestože ja za nima očividně kus práce). Každopádně budu rád když mě někdo přesvědčí o opaku.