Re: [Brmlab] Centrální registr oznámení (was: VFD displeje)

15 Oct 2020


      ...
...
No, celá wikidata budou asi větší než pár mega...
Jo, ale od určité chvíle začne převažovat cena zpracování nad cenou toho trafficu. Navíc to není zas _tak_ velké, tady 
https://www.wikidata.org/wiki/Wikidata:Database_download to má 26 nebo 56 GB zabzipované (nevím které z toho je to
No asymptoticky je to pravda, ale stažená data (včetně stránek cro.justice.cz) u mně mají 1.3 GB, což tedy není úplně pár mega (špatně jsem se díval), ale pořád je to o víc než řád menší, rozbalené... Navíc ten živý graf je aktualizován, a to způsobem relevantním pro moje zpracování - čím víc je Prymula v televizi, tím pravděpodobnější je že mu někdo aktualizuje záznam...
...
správné a jestli je to teda ono). No a to si pak naloaduješ do nějaké své grafové databáze.
Což je taky otázka do které... Já o tom taky moc nevím, ale wikidata AFAIK mají cosi placeného, a když jsem naposledy hledal SPARQL store, skončilo to tím že to odložíme - a to bylo pro zatraceně menší databázi než wikidata...
...
...
akorát mě vůbec nenapadlo že by něco takového šlo - jak se to dělá?
No to já nevím, tohle znám jenom dost teoreticky :). Ale subgraph query by to mohlo umět, ne? (otázka je, jestli nebude omezená velikostí) Našel jsem třeba https://wdumps.toolforge.org/, ale nezkoušel jsem.
Hmm, to můžu zkusit, akorát zformulovat ty filtry bude pro SPARQL samouka jako jsem já netriviální... A omezené to AFAIK bude. Na query.wikidata.com taky nelze dát dotaz na všechno; fakticky mi timeoutují i individuální dotazy - nemůžu např. hledat osobu jen podle jména, musím mít nastavené že je to český občan (což mě mrzí, protože řada Čechů to fakticky nastavené nemá, a já to pak musím přidávat ručně)...
Bye
    Vašek

2025

2024

2023

2022

2021

2020

2019

2018

2017

2016

2015

2014

2013

2012

2011

2010

Re: [Brmlab] Centrální registr oznámení (was: VFD displeje)