No, celá wikidata budou asi větší než pár mega...
Jo, ale od určité chvíle začne převažovat cena zpracování nad cenou toho trafficu. Navíc to není zas _tak_ velké, tady https://www.wikidata.org/wiki/Wikidata:Database_download to má 26 nebo 56 GB zabzipované (nevím které z toho je to
No asymptoticky je to pravda, ale stažená data (včetně stránek cro.justice.cz) u mně mají 1.3 GB, což tedy není úplně pár mega (špatně jsem se díval), ale pořád je to o víc než řád menší, rozbalené... Navíc ten živý graf je aktualizován, a to způsobem relevantním pro moje zpracování - čím víc je Prymula v televizi, tím pravděpodobnější je že mu někdo aktualizuje záznam...
správné a jestli je to teda ono). No a to si pak naloaduješ do nějaké své grafové databáze.
Což je taky otázka do které... Já o tom taky moc nevím, ale wikidata AFAIK mají cosi placeného, a když jsem naposledy hledal SPARQL store, skončilo to tím že to odložíme - a to bylo pro zatraceně menší databázi než wikidata...
akorát mě vůbec nenapadlo že by něco takového šlo - jak se to dělá?
No to já nevím, tohle znám jenom dost teoreticky :). Ale subgraph query by to mohlo umět, ne? (otázka je, jestli nebude omezená velikostí) Našel jsem třeba https://wdumps.toolforge.org/, ale nezkoušel jsem.
Hmm, to můžu zkusit, akorát zformulovat ty filtry bude pro SPARQL samouka jako jsem já netriviální... A omezené to AFAIK bude. Na query.wikidata.com taky nelze dát dotaz na všechno; fakticky mi timeoutují i individuální dotazy - nemůžu např. hledat osobu jen podle jména, musím mít nastavené že je to český občan (což mě mrzí, protože řada Čechů to fakticky nastavené nemá, a já to pak musím přidávat ručně)...
Bye Vašek