Hi,
On 10/14/20 11:17 AM, Ondrej Beranek wrote:
toliko novinky. Děláte někdo na něčem ?
Ano, jako obvykle na softwaru, a jako obvykle mi chybí hardware... :-)
Pro https://www.hlidacstatu.cz/ stahuju majetková přiznání veřejných činitelů z https://cro.justice.cz/ (což není takový problém) obohacené z https://www.wikidata.org/wiki/Wikidata:Main_Page (což je výzva, protože na 99% tam ty osoby prostě nejsou, a když už jsou, je ten graf dost velký, složitý, chybný a nestabilní), a jak tak přidávám nové a nové dotazy, trvá mi teď jeden run (cca. 5e4 přiznání + 1e5 dynamických dotazů) 4 dny, což směřuje mé myšlenky k optimalizaci... Bottleneck je patrně hledání ve wikidatech (na objem se stahuje jen pár mega); jeho zjevnou optimalizací je paralelizace, kterou ovšem wikidata nerada vidí (HTTP 429) - takže je otázkou viděla-li by paralelizaci přes více IP, které ovšem nemám...
Uvažoval jsem o cloudu, ale moje poslední pokusy na AWS vedly akorát k výdajům za nezrušené předplatné, takže přemýšlím o komunitnějších variantách - nenašlo by se v Brmlabu pár linuxových VPN s veřejnými adresami, na kterých by se dal můj crawler zprovoznit? Multi-host setup je už téměř implementován... :-)
Bye Vašek
Nemyslím si, že je dobré zatěžovat tu veřejnou databázi mnoha dotazy. Nedá se stáhnout vybraný podgraf (nebo v nejhorším celá wikidata), pustit si to u sebe a dělat si ty dotazy lokálně?
On 15. 10. 20 12:46, Václav Bárta wrote:
Hi,
On 10/14/20 11:17 AM, Ondrej Beranek wrote:
toliko novinky. Děláte někdo na něčem ?
Ano, jako obvykle na softwaru, a jako obvykle mi chybí hardware... :-)
Pro https://www.hlidacstatu.cz/ stahuju majetková přiznání veřejných činitelů z https://cro.justice.cz/ (což není takový problém) obohacené z https://www.wikidata.org/wiki/Wikidata:Main_Page (což je výzva, protože na 99% tam ty osoby prostě nejsou, a když už jsou, je ten graf dost velký, složitý, chybný a nestabilní), a jak tak přidávám nové a nové dotazy, trvá mi teď jeden run (cca. 5e4 přiznání + 1e5 dynamických dotazů) 4 dny, což směřuje mé myšlenky k optimalizaci... Bottleneck je patrně hledání ve wikidatech (na objem se stahuje jen pár mega); jeho zjevnou optimalizací je paralelizace, kterou ovšem wikidata nerada vidí (HTTP 429) - takže je otázkou viděla-li by paralelizaci přes více IP, které ovšem nemám...
Uvažoval jsem o cloudu, ale moje poslední pokusy na AWS vedly akorát k výdajům za nezrušené předplatné, takže přemýšlím o komunitnějších variantách - nenašlo by se v Brmlabu pár linuxových VPN s veřejnými adresami, na kterých by se dal můj crawler zprovoznit? Multi-host setup je už téměř implementován... :-)
Bye Vašek _______________________________________________ Brmlab mailing list Brmlab@brmlab.cz https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
No, celá wikidata budou asi větší než pár mega... Vybraný podgraf (např. čeští občané kteří ještě neumřeli, případně umřeli zcela nedávno) by možná dával smysl (ale je to otázka: veřejní činitelé budou ještě dost malou podmnožinou veřejně známých lidí, a definovat veřejného činitele podle CRO v terminologii wikidat není tak jednoduché), akorát mě vůbec nenapadlo že by něco takového šlo - jak se to dělá?
______________________________________________________________
Od: "Jan Hrach" jenda@hrach.eu Komu: brmlab@brmlab.cz Datum: 15.10.2020 17:03 Předmět: Re: [Brmlab] Centrální registr oznámení (was: VFD displeje)
Nemyslím si, že je dobré zatěžovat tu veřejnou databázi mnoha dotazy. Nedá se stáhnout vybraný podgraf (nebo v nejhorším celá wikidata), pustit si to u sebe a dělat si ty dotazy lokálně?
On 15. 10. 20 12:46, Václav Bárta wrote:
Hi,
On 10/14/20 11:17 AM, Ondrej Beranek wrote:
toliko novinky. Děláte někdo na něčem ?
Ano, jako obvykle na softwaru, a jako obvykle mi chybí hardware... :-)
Pro https://www.hlidacstatu.cz/ stahuju majetková přiznání veřejných činitelů z https://cro.justice.cz/ (což není takový problém) obohacené z https://www.wikidata.org/wiki/Wikidata:Main_Page (což je výzva, protože na 99% tam ty osoby prostě nejsou, a když už jsou, je ten graf dost velký, složitý, chybný a nestabilní), a jak tak přidávám nové a nové dotazy, trvá mi teď jeden run (cca. 5e4 přiznání + 1e5 dynamických dotazů) 4 dny, což směřuje mé myšlenky k optimalizaci... Bottleneck je patrně hledání ve wikidatech (na objem se stahuje jen pár mega); jeho zjevnou optimalizací je paralelizace, kterou ovšem wikidata nerada vidí (HTTP 429) - takže je otázkou viděla-li by paralelizaci přes více IP, které ovšem nemám...
Uvažoval jsem o cloudu, ale moje poslední pokusy na AWS vedly akorát k výdajům za nezrušené předplatné, takže přemýšlím o komunitnějších variantách - nenašlo by se v Brmlabu pár linuxových VPN s veřejnými adresami, na kterých by se dal můj crawler zprovoznit? Multi-host setup je už téměř implementován... :-)
Bye Vašek _______________________________________________ Brmlab mailing list Brmlab@brmlab.cz https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
-- Jan Hrach | https://jenda.hrach.eu/ _______________________________________________ Brmlab mailing list Brmlab@brmlab.cz https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
No, celá wikidata budou asi větší než pár mega...
Jo, ale od určité chvíle začne převažovat cena zpracování nad cenou toho trafficu. Navíc to není zas _tak_ velké, tady https://www.wikidata.org/wiki/Wikidata:Database_download to má 26 nebo 56 GB zabzipované (nevím které z toho je to správné a jestli je to teda ono). No a to si pak naloaduješ do nějaké své grafové databáze.
akorát mě vůbec nenapadlo že by něco takového šlo - jak se to dělá?
No to já nevím, tohle znám jenom dost teoreticky :). Ale subgraph query by to mohlo umět, ne? (otázka je, jestli nebude omezená velikostí) Našel jsem třeba https://wdumps.toolforge.org/, ale nezkoušel jsem.
On 15. 10. 20 17:21, Václav Bárta wrote:
No, celá wikidata budou asi větší než pár mega... Vybraný podgraf (např. čeští občané kteří ještě neumřeli, případně umřeli zcela nedávno) by možná dával smysl (ale je to otázka: veřejní činitelé budou ještě dost malou podmnožinou veřejně známých lidí, a definovat veřejného činitele podle CRO v terminologii wikidat není tak jednoduché), akorát mě vůbec nenapadlo že by něco takového šlo - jak se to dělá?
Od: "Jan Hrach" jenda@hrach.eu Komu: brmlab@brmlab.cz Datum: 15.10.2020 17:03 Předmět: Re: [Brmlab] Centrální registr oznámení (was: VFD displeje)
Nemyslím si, že je dobré zatěžovat tu veřejnou databázi mnoha dotazy. Nedá se stáhnout vybraný podgraf (nebo v nejhorším celá wikidata), pustit si to u sebe a dělat si ty dotazy lokálně?
On 15. 10. 20 12:46, Václav Bárta wrote:
Hi,
On 10/14/20 11:17 AM, Ondrej Beranek wrote:
toliko novinky. Děláte někdo na něčem ?
Ano, jako obvykle na softwaru, a jako obvykle mi chybí hardware... :-)
Pro https://www.hlidacstatu.cz/ stahuju majetková přiznání veřejných činitelů z https://cro.justice.cz/ (což není takový problém) obohacené z https://www.wikidata.org/wiki/Wikidata:Main_Page (což je výzva, protože na 99% tam ty osoby prostě nejsou, a když už jsou, je ten graf dost velký, složitý, chybný a nestabilní), a jak tak přidávám nové a nové dotazy, trvá mi teď jeden run (cca. 5e4 přiznání + 1e5 dynamických dotazů) 4 dny, což směřuje mé myšlenky k optimalizaci... Bottleneck je patrně hledání ve wikidatech (na objem se stahuje jen pár mega); jeho zjevnou optimalizací je paralelizace, kterou ovšem wikidata nerada vidí (HTTP 429) - takže je otázkou viděla-li by paralelizaci přes více IP, které ovšem nemám...
Uvažoval jsem o cloudu, ale moje poslední pokusy na AWS vedly akorát k výdajům za nezrušené předplatné, takže přemýšlím o komunitnějších variantách - nenašlo by se v Brmlabu pár linuxových VPN s veřejnými adresami, na kterých by se dal můj crawler zprovoznit? Multi-host setup je už téměř implementován... :-)
Bye Vašek _______________________________________________ Brmlab mailing list Brmlab@brmlab.cz https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
-- Jan Hrach | https://jenda.hrach.eu/ _______________________________________________ Brmlab mailing list Brmlab@brmlab.cz https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
Brmlab mailing list Brmlab@brmlab.cz https://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
No, celá wikidata budou asi větší než pár mega...
Jo, ale od určité chvíle začne převažovat cena zpracování nad cenou toho trafficu. Navíc to není zas _tak_ velké, tady https://www.wikidata.org/wiki/Wikidata:Database_download to má 26 nebo 56 GB zabzipované (nevím které z toho je to
No asymptoticky je to pravda, ale stažená data (včetně stránek cro.justice.cz) u mně mají 1.3 GB, což tedy není úplně pár mega (špatně jsem se díval), ale pořád je to o víc než řád menší, rozbalené... Navíc ten živý graf je aktualizován, a to způsobem relevantním pro moje zpracování - čím víc je Prymula v televizi, tím pravděpodobnější je že mu někdo aktualizuje záznam...
správné a jestli je to teda ono). No a to si pak naloaduješ do nějaké své grafové databáze.
Což je taky otázka do které... Já o tom taky moc nevím, ale wikidata AFAIK mají cosi placeného, a když jsem naposledy hledal SPARQL store, skončilo to tím že to odložíme - a to bylo pro zatraceně menší databázi než wikidata...
akorát mě vůbec nenapadlo že by něco takového šlo - jak se to dělá?
No to já nevím, tohle znám jenom dost teoreticky :). Ale subgraph query by to mohlo umět, ne? (otázka je, jestli nebude omezená velikostí) Našel jsem třeba https://wdumps.toolforge.org/, ale nezkoušel jsem.
Hmm, to můžu zkusit, akorát zformulovat ty filtry bude pro SPARQL samouka jako jsem já netriviální... A omezené to AFAIK bude. Na query.wikidata.com taky nelze dát dotaz na všechno; fakticky mi timeoutují i individuální dotazy - nemůžu např. hledat osobu jen podle jména, musím mít nastavené že je to český občan (což mě mrzí, protože řada Čechů to fakticky nastavené nemá, a já to pak musím přidávat ručně)...
Bye Vašek
Zdravím všechny,
pořád přemýšlím o startupovém klastru (www.facebook.com/groups/startupklastr (http://www.facebook.com/groups/startupklastr)), na něký jsem zatím sím, což na tak velkou vizi nemůže stačit. Pod vlivem včerejší debaty (Talk Night) mám dojem, že by bylo dobré tu vizi trochu „zveřejnit“, což asi učiním příští týden, Artem mi naaranžuje přenos a třeba někdo přijde i osobně. Přišli byste ve středu od 18?
Ultimátní maturita (www.facebook.com/Ultim%C3%A1tn%C3%AD-maturita- 252886712069331 (http://www.facebook.com/Ultim%C3%A1tn%C3%AD-maturita-252886712069331)) zatím spí, to asi začne v lednu, leč potřeboval bych lektory (M, AJ) a natíáecí prostor.