psané dost na poslední chvíli, za chvíli do tisku [ua, never more!], bugreporty více než vítány. klo
-----------
Hoď ho do stroje ================
S rostoucím zapojením počítačů do všech lidských činností začínají být získané záznamy o našem životě nepříjemně přesné, tím spíše, že jejich sběr často probíhá bez našeho vědomí. V průzkumu sexuálního chování můžete lhát o počtu orgasmů na jeden sex. Ale počet a místa plateb kartou, pohyb mobilního telefonu nebo lidi, kterým píšete e-maily, si nevymyslíte. Stroje data tiše sbírají s trpělivou přesností.
Analýza ohromného množství dat ("big data") za pomoci sofistikovaných metod, které se také říká data-mining, dolování dat, zajímá v první řadě banky a pojišťovny, které přemýšlejí, zda vám mají navýšit úvěrový limit, zvednout pojistku, nebo vám naopak peníze nepůjčit. A markeťáky! Když se v roce 2004 k USA blížil hurikán Frances, sešli se informační mágové obchodního řetězce Wal-Mart a rozhodli se ozkoušet svůj nový trumf: za pomoci data-miningu zjistit, co by lidé mohli před katastrofou kupovat. Analyzovali data z prodejů před nedávným hurikánem Charley a překvapeně zjistili, že kromě očekávatelného zboží jako baterky a pršipláště seznamu dominuje pivo a jahodové „pop-tarts“, taštičky plněné ovocnou náplní. Nakonec se rozhodli svým databázím věřit -- obsahovaly totiž 460 terabytů dat, což podle odhadů listu The New York Times činilo dvojnásobek obsahu tehdejšího Internetu -- a vyslali hurikánu vstříc náklaďáky s pivem, taštičkami a výbavou pro přežití. Vyplatilo se.
IBM nejen že dodávala Hitlerovi stroje na zpracování děrných štítků, které umožily bleskové předválečné sčítání lidu a identifikaci Židů, ale servis mu poskytovala skrze svou německou dceřinnou společnost celou válku a její stroje dodaly efektivitu i evidenci židovského majetku, logistice transportů i „konečnému řešení“. Hitlerovské Německo tak bylo bez nadsázky první informační společností. Československá StB používala počítače v omezené míře, většinu dat zpracovávala v papírové podobě, dosahovala v tom však takové dokonalosti, že to budí trochu tajený obdiv i dnešních badatelů. Estébáci potřebovali obzvlášť informace o sociálních vazbách, a k vytvoření dojmu že o člověku vědí vše využívali i zdánlivě nenápadné detaily z běžného života. Archivy východoněmecké Stasi vydaly ručně kreslenou mapu jedné takové sociální sítě. K jejímu vytvoření byly nejspíš zapotřebí desítky hodin sledování v terénu, zprávy udavačů, jenž bylo nutno přesvědčit ke spolupráci, riskantní nasazování štěnic, odposlechy se sluchátky na uších a rešeršní práce v kartotékách a archivech. Dnes podobné grafy vytvářejí počítače automaticky a za pár okamžiků, z ohromného množství dat, které o sobě poskytujeme často nevědomky.
Proč je Facebook jako chřipka? ------------------------------
Matematickou teorii grafů založil Leonhard Euler, když v roce 1736 elegantně vyřešil oblíbený hlavolam „královeckých mostů“: zda je možné přejít všech sedm mostů v pruském Královci a vrátit se do původního místa, aniž by člověk nějaký most přešel dvakrát. Euler všechny části pevniny oddělené vodou nakreslil jako body (uzly) a mosty jako jejich spojnice (vazby). Jednoduchou úvahou pak dospěl k tomu, že uzel se třemi vazbami musí být pouze výchozí nebo konečný, přičemž všechny uzly v jeho grafu mají tři vazby, a tedy že se sedmi mosty problém nemá řešení. Jako podobnou síť můžeme zobrazit leccos -- vztah molekul v buňce, síť sexuálních partnerů nebo třeba celou lidskou společnost. Každý člověk je pak uzlem a to, že někoho zná, vytvoří vazbu, spojnici mezi dvěma uzly. V šedesátých letech se přišlo na to, že valná většina uzlů má vazeb něco kolem průměru a několik málo uzlů je naopak vysoce propojených. Matematik Albert-László Barabási, který stál u nového boomu zájmu o sítě, pro ně zavedl pojem bezškálové sítě.
Říká se, že od každého člověka na planetě nás dělí průměrně šest přeskoků. Kolega zná člověka, který pomáhal imigrantům z Iráku, ten jednal s iráckým ambassadorem, s nímž údajně v té době jednal i Mohammad Atta, ten jednal s někým jiným a ten s bin Ládinem. Většina lidí má zhruba podobné množství kontaktů, pak se ale vyskytují lidé, kteří znají tisíce jiných (Kdo nezná Ondřeje Kobzu, brzy ho pozná). Bohuslav Blažek jim říkal komunikátoři, obecně se používá pojem centrum nebo hub. Novinář Malcolm Gladwell ve své knize Bod zlomu popisuje tyto lidi jako doslova posedlé komunikací, shromažďováním kontaktů, seznamováním druhých, kterým spíš než o obsah komunikace jde o komunikaci samou. Bohuslav Blažek jim říkal komunikátoři, obecně se používá pojem centrum nebo hub. Informace (stejně tak kapavka, módní slovo nebo používání mobilního telefonu či Facebooku) se pak sítí šíří z jednoho konce na druhý: nejprve poměrně normálně z uzlu na uzel, dokud nenarazí na hub a odtud se rozprskne do všech stran a nabere na rychlosti. Bezškálová síť je poměrně odolná vůči náhodným výpadkům jednotlivých uzlů, ale při odstranění těchto vysoce propojených uzlů se může snadno rozpadnout na vzájemně oddělené ostrůvky. Jinými slovy, víte koho zavřít, až bude hrozit, že se něco semele.
To je skutečná podstata sporu o „data retention“, povinnosti telekomunikačních operátorů uchovávat data o proběhlé komunikaci. Její obránci argumentují tím, že se neuchovává samotný obsah vašeho hovoru nebo SMSky (data), ale jenom záznam o tom, že komunikace proběhla (metadata). To ale stačí. Uzlem je telefonní číslo a záznam o komunikaci s číslem jiným vytváří vazbu. Specializovaný software typu Analyst's Notebook pak z výpisu hovorů (nebo třeba bankovních operací) vytvoří podrobnou mapu sociální sítě. Ve shlucích se společně octnou lidé, kteří k sobě patří, aniž by spolu komunikovali přímo -- stačí, že mají jistý počet společných známých. Zbraň je to broušená na obě strany -- nespokojení občané si mohou například z obchodního rejstříku vytahat data o firmách podezřelých z korupce a zobrazit jejich pavučinu, byť by je oficiálně nevlastnili politici sami. Proto neziskovky tolik tlačí na to, aby stát zveřejňoval svá data ve strojově zpracovatelné podobě.
Precrime -------- Ve známé povídce P. K. Dicka Minority Report z roku 1956 pracuje hlavní hrdina v policejním oddělení „pre-crime“, které má na starosti předpovídání zločinů ještě předtím, než se stanou, aby mohlo preventivně eliminovat budoucí zločince. Dnes už nejde o fikci. Náhodná kontrola dokladů na ulici, statistiky trestných činů spojené s geografickou lokalitou, ale i záznamy z dopravních kamer, jež umí číst poznávací značky automobilů -- to vše řádek po řádce plní policejní databáze. Prvním nápadem bylo zanášení těchto informací do map a sestavování jakýchsi map zločinu. Přidáme-li k těmto informacím údaje o čase, můžeme data z minulosti extrapolovat do budoucnosti -- podobně jako se počítačově modeluje předpověď počasí nebo výskyt dotřesů po zemětřesní -- a získat místo a čas, kde s vyšší pravděpodobností dojde ke zločinu. Podobné mapy sestavili už před lety například v Santa Cruz, Memphisu nebo Richmondu.
V Chicagu, kde se sociální problémy přetavily do alarmujícího množství vražd, získala místní policie několikamilionový grant na projekt mapování zločinu, jenž se Dickově temné vizi blíží ještě víc. Inspirovala se výzkumy yaleského sociologa Andrewa Papachrista, který v akademické sféře analyzoval sociální sítě lidí zapletených do násilných zločinů a zjistil, že pravděpodobnost vaší vraždy je tím vyšší, čím blíže jste v sociální síti k někomu, kdo byl zavražděn (a stejně to funguje i s vrahy). Policie najala bývalého armádního analytika Milese Wernicka a začala zpracovávat data ze svých velice rozsáhlých databází. „Nákaza násilím“ je podle Papachrista nejpodobnější šíření AIDS nebo jiných nemocí -- důležité je, s kým se stýkáme. Podstatné proto byly sociální vazby, jejichž zdrojem je například společné zatčení při drobnějším deliktu, ale i to, že vás s někým policajti potkali na ulici a tuto událost zaznamenali.
Policie pak ze získané sociální sítě vyrobila „hotlist“ asi 420 lidí, kteří by mohli v budoucnu spáchat vraždu, nebo se naopak stát její obětí. Dotyčné pak začala obcházet. Média publikovala rozhořčenou reakci dvaadvacetiletého Roberta McDaniela, u něhož jednoho dne zaklepala policie a oznámila mu, že je v jejím hledáčku a ať si dává pozor. Protipříběhem je Jacobi Herring, který byl na seznamu potenciálních obětí a byl zastřelen ještě před návštěvou policie. Přestože se zvedla vlna reakcí, které autory seznamu obviňují z rasismu (velké množství navštívených „budoucích podezřelých“ jsou černoši) a neopodstatněných zásahů do rovnosti před zákonem, je zatím prevencí jenom domluva, případně nabídka služeb sociálních pracovníků -- nikoliv zatýkání. A policejní velitel Jonathan Lewin si slibuje, že její příklad ukáže celému světu, jak se to má dělat.
V České republice jsou zatím podobné výzkumy zdá se v počátcích a je to spíš sama veřejnost, kdo podobné analýzy vytváří. Velký kus práce na analýzách odvedl pečlivý průkopník datové žurnalistiky Jan Cibulka, který se svým týmem nejen sestavil mapu českého zločinu, ale srovnával jeho míru i s výskytem heren nebo laciných bytů. Problémem jsou nepřesná zdrojová data -- statistiky se například evidují ke konkrétním policejním okrskům, nikoliv však k přesným geografickým lokalitám a je třeba je složitě přepočítávat na hustotu obyvatel, aby data vůbec dávala smysl. Online mapu kriminality aktualizuje sdružení ProPolice/Otevřená společnost, a ostravskou „heatmapu“ nejnebezpečnějších míst sestavil výzkumný tým VŠB. Nejvíce na ní „svítí“ Stodolní ulice a její okolí.
Co vzniká pod pokličkou české policie, která je považována za spíš byrokratickou a nepružnou, se můžeme jen domnívat. Jisté však je, že software typu Analyst's Notebook, který vykreslí mapu sociální sítě třeba z bankovních operací nebo výpisů od operátora, používají české tajné služby již dlouhá léta. Na druhé straně oceánu byly publikovány četné studie sociálních sítí ve vztahu k analýze terorismu, poháněné obrovskými finančními prostředky investovanými po 11. září. A právě nějaký typ „vazby“ k osobě podezřelé z terorismu je podle Williama Binneyho, odpadlíka NSA, důvodem k zařazení na seznam osob, jejichž komunikace se sleduje a analyzuje. Stačí, že jste si s někým poslali mail. Nebo jeho kámošovi.
-----------
tak diky za mail :D skvely text jako vzdy. no comments z me strany, i kdyz je mi divno kolik dat ma ten WalMart :)
ruza
On 02/21/2014 02:46 PM, Honza Klokanek Sipek wrote:
finančními prostředky investovanými po 11. září. A právě nějaký typ „vazby“ k osobě podezřelé z terorismu je podle Williama Binneyho, odpadlíka NSA, důvodem k zařazení na seznam osob, jejichž komunikace se sleduje a analyzuje. Stačí, že jste si s někým poslali mail. Nebo jeho kámošovi.
Fri, Feb 21, 2014 at 04:02:24PM +0100, Pavel Ruzicka pise:
tak diky za mail :D
napodobne ;-) ted uz to je nabeton.
skvely text jako vzdy.
dik!
no comments z me strany, i kdyz je mi divno kolik dat ma ten WalMart :)
to je tehdy -- 2004. podle odhadu New York Times v citovanem textu. ale dik za poznamku, jeste to zkusim s necim pomerit, pripadne zduraznit, ze to je tehdejsi objem.
ruza
On 02/21/2014 02:46 PM, Honza Klokanek Sipek wrote:
finančními prostředky investovanými po 11. září. A právě nějaký typ „vazby“ k osobě podezřelé z terorismu je podle Williama Binneyho, odpadlíka NSA, důvodem k zařazení na seznam osob, jejichž komunikace se sleduje a analyzuje. Stačí, že jste si s někým poslali mail. Nebo jeho kámošovi.
Brmlab mailing list Brmlab@brmlab.cz http://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
Ahoj,
necetl jsem to uplne cele, ale protoze spechas, tak to rovnou napisu: opakuje se ti tam veta: "Bohuslav Blažek jim říkal komunikátoři, obecně se používá pojem centrum nebo hub."
eddy
On Fri, 21 Feb 2014 14:46:00 +0100, Honza Klokanek Sipek klokanek@eldar.cz wrote:
psané dost na poslední chvíli, za chvíli do tisku [ua, never more!], bugreporty více než vítány. klo
Hoď ho do stroje
S rostoucím zapojením počítačů do všech lidských činností začínají být získané záznamy o našem životě nepříjemně přesné, tím spíše, že jejich sběr často probíhá bez našeho vědomí. V průzkumu sexuálního chování můžete lhát o počtu orgasmů na jeden sex. Ale počet a místa plateb kartou, pohyb mobilního telefonu nebo lidi, kterým píšete e-maily, si nevymyslíte. Stroje data tiše sbírají s trpělivou přesností.
Analýza ohromného množství dat ("big data") za pomoci sofistikovaných metod, které se také říká data-mining, dolování dat, zajímá v první řadě banky a pojišťovny, které přemýšlejí, zda vám mají navýšit úvěrový limit, zvednout pojistku, nebo vám naopak peníze nepůjčit. A markeťáky! Když se v roce 2004 k USA blížil hurikán Frances, sešli se informační mágové obchodního řetězce Wal-Mart a rozhodli se ozkoušet svůj nový trumf: za pomoci data-miningu zjistit, co by lidé mohli před katastrofou kupovat. Analyzovali data z prodejů před nedávným hurikánem Charley a překvapeně zjistili, že kromě očekávatelného zboží jako baterky a pršipláště seznamu dominuje pivo a jahodové „pop-tarts“, taštičky plněné ovocnou náplní. Nakonec se rozhodli svým databázím věřit -- obsahovaly totiž 460 terabytů dat, což podle odhadů listu The New York Times činilo dvojnásobek obsahu tehdejšího Internetu -- a vyslali hurikánu vstříc náklaďáky s pivem, taštičkami a výbavou pro přežití. Vyplatilo se.
IBM nejen že dodávala Hitlerovi stroje na zpracování děrných štítků, které umožily bleskové předválečné sčítání lidu a identifikaci Židů, ale servis mu poskytovala skrze svou německou dceřinnou společnost celou válku a její stroje dodaly efektivitu i evidenci židovského majetku, logistice transportů i „konečnému řešení“. Hitlerovské Německo tak bylo bez nadsázky první informační společností. Československá StB používala počítače v omezené míře, většinu dat zpracovávala v papírové podobě, dosahovala v tom však takové dokonalosti, že to budí trochu tajený obdiv i dnešních badatelů. Estébáci potřebovali obzvlášť informace o sociálních vazbách, a k vytvoření dojmu že o člověku vědí vše využívali i zdánlivě nenápadné detaily z běžného života. Archivy východoněmecké Stasi vydaly ručně kreslenou mapu jedné takové sociální sítě. K jejímu vytvoření byly nejspíš zapotřebí desítky hodin sledování v terénu, zprávy udavačů, jenž bylo nutno přesvědčit ke spolupráci, riskantní nasazování štěnic, odposlechy se sluchátky na uších a rešeršní práce v kartotékách a archivech. Dnes podobné grafy vytvářejí počítače automaticky a za pár okamžiků, z ohromného množství dat, které o sobě poskytujeme často nevědomky.
Proč je Facebook jako chřipka?
Matematickou teorii grafů založil Leonhard Euler, když v roce 1736 elegantně vyřešil oblíbený hlavolam „královeckých mostů“: zda je možné přejít všech sedm mostů v pruském Královci a vrátit se do původního místa, aniž by člověk nějaký most přešel dvakrát. Euler všechny části pevniny oddělené vodou nakreslil jako body (uzly) a mosty jako jejich spojnice (vazby). Jednoduchou úvahou pak dospěl k tomu, že uzel se třemi vazbami musí být pouze výchozí nebo konečný, přičemž všechny uzly v jeho grafu mají tři vazby, a tedy že se sedmi mosty problém nemá řešení. Jako podobnou síť můžeme zobrazit leccos -- vztah molekul v buňce, síť sexuálních partnerů nebo třeba celou lidskou společnost. Každý člověk je pak uzlem a to, že někoho zná, vytvoří vazbu, spojnici mezi dvěma uzly. V šedesátých letech se přišlo na to, že valná většina uzlů má vazeb něco kolem průměru a několik málo uzlů je naopak vysoce propojených. Matematik Albert-László Barabási, který stál u nového boomu zájmu o sítě, pro ně zavedl pojem bezškálové sítě.
Říká se, že od každého člověka na planetě nás dělí průměrně šest přeskoků. Kolega zná člověka, který pomáhal imigrantům z Iráku, ten jednal s iráckým ambassadorem, s nímž údajně v té době jednal i Mohammad Atta, ten jednal s někým jiným a ten s bin Ládinem. Většina lidí má zhruba podobné množství kontaktů, pak se ale vyskytují lidé, kteří znají tisíce jiných (Kdo nezná Ondřeje Kobzu, brzy ho pozná). Bohuslav Blažek jim říkal komunikátoři, obecně se používá pojem centrum nebo hub. Novinář Malcolm Gladwell ve své knize Bod zlomu popisuje tyto lidi jako doslova posedlé komunikací, shromažďováním kontaktů, seznamováním druhých, kterým spíš než o obsah komunikace jde o komunikaci samou. Bohuslav Blažek jim říkal komunikátoři, obecně se používá pojem centrum nebo hub. Informace (stejně tak kapavka, módní slovo nebo používání mobilního telefonu či Facebooku) se pak sítí šíří z jednoho konce na druhý: nejprve poměrně normálně z uzlu na uzel, dokud nenarazí na hub a odtud se rozprskne do všech stran a nabere na rychlosti. Bezškálová síť je poměrně odolná vůči náhodným výpadkům jednotlivých uzlů, ale při odstranění těchto vysoce propojených uzlů se může snadno rozpadnout na vzájemně oddělené ostrůvky. Jinými slovy, víte koho zavřít, až bude hrozit, že se něco semele.
To je skutečná podstata sporu o „data retention“, povinnosti telekomunikačních operátorů uchovávat data o proběhlé komunikaci. Její obránci argumentují tím, že se neuchovává samotný obsah vašeho hovoru nebo SMSky (data), ale jenom záznam o tom, že komunikace proběhla (metadata). To ale stačí. Uzlem je telefonní číslo a záznam o komunikaci s číslem jiným vytváří vazbu. Specializovaný software typu Analyst's Notebook pak z výpisu hovorů (nebo třeba bankovních operací) vytvoří podrobnou mapu sociální sítě. Ve shlucích se společně octnou lidé, kteří k sobě patří, aniž by spolu komunikovali přímo -- stačí, že mají jistý počet společných známých. Zbraň je to broušená na obě strany -- nespokojení občané si mohou například z obchodního rejstříku vytahat data o firmách podezřelých z korupce a zobrazit jejich pavučinu, byť by je oficiálně nevlastnili politici sami. Proto neziskovky tolik tlačí na to, aby stát zveřejňoval svá data ve strojově zpracovatelné podobě.
Precrime
Ve známé povídce P. K. Dicka Minority Report z roku 1956 pracuje hlavní hrdina v policejním oddělení „pre-crime“, které má na starosti předpovídání zločinů ještě předtím, než se stanou, aby mohlo preventivně eliminovat budoucí zločince. Dnes už nejde o fikci. Náhodná kontrola dokladů na ulici, statistiky trestných činů spojené s geografickou lokalitou, ale i záznamy z dopravních kamer, jež umí číst poznávací značky automobilů -- to vše řádek po řádce plní policejní databáze. Prvním nápadem bylo zanášení těchto informací do map a sestavování jakýchsi map zločinu. Přidáme-li k těmto informacím údaje o čase, můžeme data z minulosti extrapolovat do budoucnosti -- podobně jako se počítačově modeluje předpověď počasí nebo výskyt dotřesů po zemětřesní -- a získat místo a čas, kde s vyšší pravděpodobností dojde ke zločinu. Podobné mapy sestavili už před lety například v Santa Cruz, Memphisu nebo Richmondu.
V Chicagu, kde se sociální problémy přetavily do alarmujícího množství vražd, získala místní policie několikamilionový grant na projekt mapování zločinu, jenž se Dickově temné vizi blíží ještě víc. Inspirovala se výzkumy yaleského sociologa Andrewa Papachrista, který v akademické sféře analyzoval sociální sítě lidí zapletených do násilných zločinů a zjistil, že pravděpodobnost vaší vraždy je tím vyšší, čím blíže jste v sociální síti k někomu, kdo byl zavražděn (a stejně to funguje i s vrahy). Policie najala bývalého armádního analytika Milese Wernicka a začala zpracovávat data ze svých velice rozsáhlých databází. „Nákaza násilím“ je podle Papachrista nejpodobnější šíření AIDS nebo jiných nemocí -- důležité je, s kým se stýkáme. Podstatné proto byly sociální vazby, jejichž zdrojem je například společné zatčení při drobnějším deliktu, ale i to, že vás s někým policajti potkali na ulici a tuto událost zaznamenali.
Policie pak ze získané sociální sítě vyrobila „hotlist“ asi 420 lidí, kteří by mohli v budoucnu spáchat vraždu, nebo se naopak stát její obětí. Dotyčné pak začala obcházet. Média publikovala rozhořčenou reakci dvaadvacetiletého Roberta McDaniela, u něhož jednoho dne zaklepala policie a oznámila mu, že je v jejím hledáčku a ať si dává pozor. Protipříběhem je Jacobi Herring, který byl na seznamu potenciálních obětí a byl zastřelen ještě před návštěvou policie. Přestože se zvedla vlna reakcí, které autory seznamu obviňují z rasismu (velké množství navštívených „budoucích podezřelých“ jsou černoši) a neopodstatněných zásahů do rovnosti před zákonem, je zatím prevencí jenom domluva, případně nabídka služeb sociálních pracovníků -- nikoliv zatýkání. A policejní velitel Jonathan Lewin si slibuje, že její příklad ukáže celému světu, jak se to má dělat.
V České republice jsou zatím podobné výzkumy zdá se v počátcích a je to spíš sama veřejnost, kdo podobné analýzy vytváří. Velký kus práce na analýzách odvedl pečlivý průkopník datové žurnalistiky Jan Cibulka, který se svým týmem nejen sestavil mapu českého zločinu, ale srovnával jeho míru i s výskytem heren nebo laciných bytů. Problémem jsou nepřesná zdrojová data -- statistiky se například evidují ke konkrétním policejním okrskům, nikoliv však k přesným geografickým lokalitám a je třeba je složitě přepočítávat na hustotu obyvatel, aby data vůbec dávala smysl. Online mapu kriminality aktualizuje sdružení ProPolice/Otevřená společnost, a ostravskou „heatmapu“ nejnebezpečnějších míst sestavil výzkumný tým VŠB. Nejvíce na ní „svítí“ Stodolní ulice a její okolí.
Co vzniká pod pokličkou české policie, která je považována za spíš byrokratickou a nepružnou, se můžeme jen domnívat. Jisté však je, že software typu Analyst's Notebook, který vykreslí mapu sociální sítě třeba z bankovních operací nebo výpisů od operátora, používají české tajné služby již dlouhá léta. Na druhé straně oceánu byly publikovány četné studie sociálních sítí ve vztahu k analýze terorismu, poháněné obrovskými finančními prostředky investovanými po 11. září. A právě nějaký typ „vazby“ k osobě podezřelé z terorismu je podle Williama Binneyho, odpadlíka NSA, důvodem k zařazení na seznam osob, jejichž komunikace se sleduje a analyzuje. Stačí, že jste si s někým poslali mail. Nebo jeho kámošovi.
Brmlab mailing list Brmlab@brmlab.cz http://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
Velmi zajimave, dekuji.
Z Jeju,
Frantisek Algoldor Apfelbeck
biotechnologist&kvasir and hacker
http://www.frantisekapfelbeck.org
"There is no way to peace, peace is the way." Mohandas Karamchand Gandhi
On Saturday, February 22, 2014 1:37 AM, Dominik Taborsky bremby@seznam.cz wrote:
Ahoj,
necetl jsem to uplne cele, ale protoze spechas, tak to rovnou napisu: opakuje se ti tam veta: "Bohuslav Blažek jim říkal komunikátoři, obecně se používá pojem centrum nebo hub."
eddy
On Fri, 21 Feb 2014 14:46:00 +0100, Honza Klokanek Sipek klokanek@eldar.cz wrote:
psané dost na poslední chvíli, za chvíli do tisku [ua, never more!], bugreporty více než vítány. klo
Hoď ho do stroje
S rostoucím zapojením počítačů do všech lidských činností začínají být získané záznamy o našem životě nepříjemně přesné, tím spíše, že jejich sběr často probíhá bez našeho vědomí. V průzkumu sexuálního chování můžete lhát o počtu orgasmů na jeden sex. Ale počet a místa plateb kartou, pohyb mobilního telefonu nebo lidi, kterým píšete e-maily, si nevymyslíte. Stroje data tiše sbírají s trpělivou přesností.
Analýza ohromného množství dat ("big data") za pomoci sofistikovaných metod, které se také říká data-mining, dolování dat, zajímá v první řadě banky a pojišťovny, které přemýšlejí, zda vám mají navýšit úvěrový limit, zvednout pojistku, nebo vám naopak peníze nepůjčit. A markeťáky! Když se v roce 2004 k USA blížil hurikán Frances, sešli se informační mágové obchodního řetězce Wal-Mart a rozhodli se ozkoušet svůj nový trumf: za pomoci data-miningu zjistit, co by lidé mohli před katastrofou kupovat. Analyzovali data z prodejů před nedávným hurikánem Charley a překvapeně zjistili, že kromě očekávatelného zboží jako baterky a pršipláště seznamu dominuje pivo a jahodové „pop-tarts“, taštičky plněné ovocnou náplní. Nakonec se rozhodli svým databázím věřit -- obsahovaly totiž 460 terabytů dat, což podle odhadů listu The New York Times činilo dvojnásobek obsahu tehdejšího Internetu -- a vyslali hurikánu vstříc náklaďáky s pivem, taštičkami a výbavou pro přežití. Vyplatilo se.
IBM nejen že dodávala Hitlerovi stroje na zpracování děrných štítků, které umožily bleskové předválečné sčítání lidu a identifikaci Židů, ale servis mu poskytovala skrze svou německou dceřinnou společnost celou válku a její stroje dodaly efektivitu i evidenci židovského majetku, logistice transportů i „konečnému řešení“. Hitlerovské Německo tak bylo bez nadsázky první informační společností. Československá StB používala počítače v omezené míře, většinu dat zpracovávala v papírové podobě, dosahovala v tom však takové dokonalosti, že to budí trochu tajený obdiv i dnešních badatelů. Estébáci potřebovali obzvlášť informace o sociálních vazbách, a k vytvoření dojmu že o člověku vědí vše využívali i zdánlivě nenápadné detaily z běžného života. Archivy východoněmecké Stasi vydaly ručně kreslenou mapu jedné takové sociální sítě. K jejímu vytvoření byly nejspíš zapotřebí desítky hodin sledování v terénu, zprávy udavačů, jenž bylo nutno přesvědčit ke spolupráci, riskantní nasazování štěnic, odposlechy se sluchátky na uších a rešeršní práce v kartotékách a archivech. Dnes podobné grafy vytvářejí počítače automaticky a za pár okamžiků, z ohromného množství dat, které o sobě poskytujeme často nevědomky.
Proč je Facebook jako chřipka?
Matematickou teorii grafů založil Leonhard Euler, když v roce 1736 elegantně vyřešil oblíbený hlavolam „královeckých mostů“: zda je možné přejít všech sedm mostů v pruském Královci a vrátit se do původního místa, aniž by člověk nějaký most přešel dvakrát. Euler všechny části pevniny oddělené vodou nakreslil jako body (uzly) a mosty jako jejich spojnice (vazby). Jednoduchou úvahou pak dospěl k tomu, že uzel se třemi vazbami musí být pouze výchozí nebo konečný, přičemž všechny uzly v jeho grafu mají tři vazby, a tedy že se sedmi mosty problém nemá řešení. Jako podobnou síť můžeme zobrazit leccos -- vztah molekul v buňce, síť sexuálních partnerů nebo třeba celou lidskou společnost. Každý člověk je pak uzlem a to, že někoho zná, vytvoří vazbu, spojnici mezi dvěma uzly. V šedesátých letech se přišlo na to, že valná většina uzlů má vazeb něco kolem průměru a několik málo uzlů je naopak vysoce propojených. Matematik Albert-László Barabási, který stál u nového boomu zájmu o sítě, pro ně zavedl pojem bezškálové sítě.
Říká se, že od každého člověka na planetě nás dělí průměrně šest přeskoků. Kolega zná člověka, který pomáhal imigrantům z Iráku, ten jednal s iráckým ambassadorem, s nímž údajně v té době jednal i Mohammad Atta, ten jednal s někým jiným a ten s bin Ládinem. Většina lidí má zhruba podobné množství kontaktů, pak se ale vyskytují lidé, kteří znají tisíce jiných (Kdo nezná Ondřeje Kobzu, brzy ho pozná). Bohuslav Blažek jim říkal komunikátoři, obecně se používá pojem centrum nebo hub. Novinář Malcolm Gladwell ve své knize Bod zlomu popisuje tyto lidi jako doslova posedlé komunikací, shromažďováním kontaktů, seznamováním druhých, kterým spíš než o obsah komunikace jde o komunikaci samou. Bohuslav Blažek jim říkal komunikátoři, obecně se používá pojem centrum nebo hub. Informace (stejně tak kapavka, módní slovo nebo používání mobilního telefonu či Facebooku) se pak sítí šíří z jednoho konce na druhý: nejprve poměrně normálně z uzlu na uzel, dokud nenarazí na hub a odtud se rozprskne do všech stran a nabere na rychlosti. Bezškálová síť je poměrně odolná vůči náhodným výpadkům jednotlivých uzlů, ale při odstranění těchto vysoce propojených uzlů se může snadno rozpadnout na vzájemně oddělené ostrůvky. Jinými slovy, víte koho zavřít, až bude hrozit, že se něco semele.
To je skutečná podstata sporu o „data retention“, povinnosti telekomunikačních operátorů uchovávat data o proběhlé komunikaci. Její obránci argumentují tím, že se neuchovává samotný obsah vašeho hovoru nebo SMSky (data), ale jenom záznam o tom, že komunikace proběhla (metadata). To ale stačí. Uzlem je telefonní číslo a záznam o komunikaci s číslem jiným vytváří vazbu. Specializovaný software typu Analyst's Notebook pak z výpisu hovorů (nebo třeba bankovních operací) vytvoří podrobnou mapu sociální sítě. Ve shlucích se společně octnou lidé, kteří k sobě patří, aniž by spolu komunikovali přímo -- stačí, že mají jistý počet společných známých. Zbraň je to broušená na obě strany -- nespokojení občané si mohou například z obchodního rejstříku vytahat data o firmách podezřelých z korupce a zobrazit jejich pavučinu, byť by je oficiálně nevlastnili politici sami. Proto neziskovky tolik tlačí na to, aby stát zveřejňoval svá data ve strojově zpracovatelné podobě.
Precrime
Ve známé povídce P. K. Dicka Minority Report z roku 1956 pracuje hlavní hrdina v policejním oddělení „pre-crime“, které má na starosti předpovídání zločinů ještě předtím, než se stanou, aby mohlo preventivně eliminovat budoucí zločince. Dnes už nejde o fikci. Náhodná kontrola dokladů na ulici, statistiky trestných činů spojené s geografickou lokalitou, ale i záznamy z dopravních kamer, jež umí číst poznávací značky automobilů -- to vše řádek po řádce plní policejní databáze. Prvním nápadem bylo zanášení těchto informací do map a sestavování jakýchsi map zločinu. Přidáme-li k těmto informacím údaje o čase, můžeme data z minulosti extrapolovat do budoucnosti -- podobně jako se počítačově modeluje předpověď počasí nebo výskyt dotřesů po zemětřesní -- a získat místo a čas, kde s vyšší pravděpodobností dojde ke zločinu. Podobné mapy sestavili už před lety například v Santa Cruz, Memphisu nebo Richmondu.
V Chicagu, kde se sociální problémy přetavily do alarmujícího množství vražd, získala místní policie několikamilionový grant na projekt mapování zločinu, jenž se Dickově temné vizi blíží ještě víc. Inspirovala se výzkumy yaleského sociologa Andrewa Papachrista, který v akademické sféře analyzoval sociální sítě lidí zapletených do násilných zločinů a zjistil, že pravděpodobnost vaší vraždy je tím vyšší, čím blíže jste v sociální síti k někomu, kdo byl zavražděn (a stejně to funguje i s vrahy). Policie najala bývalého armádního analytika Milese Wernicka a začala zpracovávat data ze svých velice rozsáhlých databází. „Nákaza násilím“ je podle Papachrista nejpodobnější šíření AIDS nebo jiných nemocí -- důležité je, s kým se stýkáme. Podstatné proto byly sociální vazby, jejichž zdrojem je například společné zatčení při drobnějším deliktu, ale i to, že vás s někým policajti potkali na ulici a tuto událost zaznamenali.
Policie pak ze získané sociální sítě vyrobila „hotlist“ asi 420 lidí, kteří by mohli v budoucnu spáchat vraždu, nebo se naopak stát její obětí. Dotyčné pak začala obcházet. Média publikovala rozhořčenou reakci dvaadvacetiletého Roberta McDaniela, u něhož jednoho dne zaklepala policie a oznámila mu, že je v jejím hledáčku a ať si dává pozor. Protipříběhem je Jacobi Herring, který byl na seznamu potenciálních obětí a byl zastřelen ještě před návštěvou policie. Přestože se zvedla vlna reakcí, které autory seznamu obviňují z rasismu (velké množství navštívených „budoucích podezřelých“ jsou černoši) a neopodstatněných zásahů do rovnosti před zákonem, je zatím prevencí jenom domluva, případně nabídka služeb sociálních pracovníků -- nikoliv zatýkání. A policejní velitel Jonathan Lewin si slibuje, že její příklad ukáže celému světu, jak se to má dělat.
V České republice jsou zatím podobné výzkumy zdá se v počátcích a je to spíš sama veřejnost, kdo podobné analýzy vytváří. Velký kus práce na analýzách odvedl pečlivý průkopník datové žurnalistiky Jan Cibulka, který se svým týmem nejen sestavil mapu českého zločinu, ale srovnával jeho míru i s výskytem heren nebo laciných bytů. Problémem jsou nepřesná zdrojová data -- statistiky se například evidují ke konkrétním policejním okrskům, nikoliv však k přesným geografickým lokalitám a je třeba je složitě přepočítávat na hustotu obyvatel, aby data vůbec dávala smysl. Online mapu kriminality aktualizuje sdružení ProPolice/Otevřená společnost, a ostravskou „heatmapu“ nejnebezpečnějších míst sestavil výzkumný tým VŠB. Nejvíce na ní „svítí“ Stodolní ulice a její okolí.
Co vzniká pod pokličkou české policie, která je považována za spíš byrokratickou a nepružnou, se můžeme jen domnívat. Jisté však je, že software typu Analyst's Notebook, který vykreslí mapu sociální sítě třeba z bankovních operací nebo výpisů od operátora, používají české tajné služby již dlouhá léta. Na druhé straně oceánu byly publikovány četné studie sociálních sítí ve vztahu k analýze terorismu, poháněné obrovskými finančními prostředky investovanými po 11. září. A právě nějaký typ „vazby“ k osobě podezřelé z terorismu je podle Williama Binneyho, odpadlíka NSA, důvodem k zařazení na seznam osob, jejichž komunikace se sleduje a analyzuje. Stačí, že jste si s někým poslali mail. Nebo jeho kámošovi.
Brmlab mailing list Brmlab@brmlab.cz http://brmlab.cz/cgi-bin/mailman/listinfo/brmlab
_______________________________________________ Brmlab mailing list Brmlab@brmlab.cz http://brmlab.cz/cgi-bin/mailman/listinfo/brmlab