psané dost na poslední chvíli, za chvíli do tisku [ua, never more!],
bugreporty více než vítány.
klo
-----------
Hoď ho do stroje
================
S rostoucím zapojením počítačů do všech lidských činností začínají být
získané záznamy o našem životě nepříjemně přesné, tím spíše, že jejich sběr
často probíhá bez našeho vědomí. V průzkumu sexuálního chování můžete lhát o
počtu orgasmů na jeden sex. Ale počet a místa plateb kartou, pohyb mobilního
telefonu nebo lidi, kterým píšete e-maily, si nevymyslíte. Stroje data tiše
sbírají s trpělivou přesností.
Analýza ohromného množství dat ("big data") za pomoci sofistikovaných metod,
které se také říká data-mining, dolování dat, zajímá v první řadě banky a
pojišťovny, které přemýšlejí, zda vám mají navýšit úvěrový limit, zvednout
pojistku, nebo vám naopak peníze nepůjčit. A markeťáky! Když se v roce 2004
k USA blížil hurikán Frances, sešli se informační mágové obchodního řetězce
Wal-Mart a rozhodli se ozkoušet svůj nový trumf: za pomoci data-miningu
zjistit, co by lidé mohli před katastrofou kupovat. Analyzovali data z
prodejů před nedávným hurikánem Charley a překvapeně zjistili, že kromě
očekávatelného zboží jako baterky a pršipláště seznamu dominuje pivo a
jahodové „pop-tarts“, taštičky plněné ovocnou náplní. Nakonec se rozhodli
svým databázím věřit -- obsahovaly totiž 460 terabytů dat, což podle odhadů
listu The New York Times činilo dvojnásobek obsahu tehdejšího Internetu -- a
vyslali hurikánu vstříc náklaďáky s pivem, taštičkami a výbavou pro přežití.
Vyplatilo se.
IBM nejen že dodávala Hitlerovi stroje na zpracování děrných štítků, které
umožily bleskové předválečné sčítání lidu a identifikaci Židů, ale servis mu
poskytovala skrze svou německou dceřinnou společnost celou válku a její
stroje dodaly efektivitu i evidenci židovského majetku, logistice transportů
i „konečnému řešení“. Hitlerovské Německo tak bylo bez nadsázky první
informační společností. Československá StB používala počítače v omezené
míře, většinu dat zpracovávala v papírové podobě, dosahovala v tom však
takové dokonalosti, že to budí trochu tajený obdiv i dnešních badatelů.
Estébáci potřebovali obzvlášť informace o sociálních vazbách, a k vytvoření
dojmu že o člověku vědí vše využívali i zdánlivě nenápadné detaily z běžného
života. Archivy východoněmecké Stasi vydaly ručně kreslenou mapu jedné
takové sociální sítě. K jejímu vytvoření byly nejspíš zapotřebí desítky
hodin sledování v terénu, zprávy udavačů, jenž bylo nutno přesvědčit ke
spolupráci, riskantní nasazování štěnic, odposlechy se sluchátky na uších a
rešeršní práce v kartotékách a archivech. Dnes podobné grafy vytvářejí
počítače automaticky a za pár okamžiků, z ohromného množství dat, které o
sobě poskytujeme často nevědomky.
Proč je Facebook jako chřipka?
------------------------------
Matematickou teorii grafů založil Leonhard Euler, když v roce 1736 elegantně
vyřešil oblíbený hlavolam „královeckých mostů“: zda je možné přejít všech
sedm mostů v pruském Královci a vrátit se do původního místa, aniž by člověk
nějaký most přešel dvakrát. Euler všechny části pevniny oddělené vodou
nakreslil jako body (uzly) a mosty jako jejich spojnice (vazby).
Jednoduchou úvahou pak dospěl k tomu, že uzel se třemi vazbami musí být
pouze výchozí nebo konečný, přičemž všechny uzly v jeho grafu mají tři
vazby, a tedy že se sedmi mosty problém nemá řešení. Jako podobnou síť
můžeme zobrazit leccos -- vztah molekul v buňce, síť sexuálních partnerů
nebo třeba celou lidskou společnost. Každý člověk je pak uzlem a to, že
někoho zná, vytvoří vazbu, spojnici mezi dvěma uzly. V šedesátých letech se
přišlo na to, že valná většina uzlů má vazeb něco kolem průměru a několik
málo uzlů je naopak vysoce propojených. Matematik Albert-László Barabási,
který stál u nového boomu zájmu o sítě, pro ně zavedl pojem bezškálové sítě.
Říká se, že od každého člověka na planetě nás dělí průměrně šest přeskoků.
Kolega zná člověka, který pomáhal imigrantům z Iráku, ten jednal s iráckým
ambassadorem, s nímž údajně v té době jednal i Mohammad Atta, ten jednal s
někým jiným a ten s bin Ládinem. Většina lidí má zhruba podobné množství
kontaktů, pak se ale vyskytují lidé, kteří znají tisíce jiných (Kdo nezná
Ondřeje Kobzu, brzy ho pozná). Bohuslav Blažek jim říkal komunikátoři,
obecně se používá pojem centrum nebo hub. Novinář Malcolm Gladwell ve své
knize Bod zlomu popisuje tyto lidi jako doslova posedlé komunikací,
shromažďováním kontaktů, seznamováním druhých, kterým spíš než o obsah
komunikace jde o komunikaci samou. Bohuslav Blažek jim říkal komunikátoři,
obecně se používá pojem centrum nebo hub. Informace (stejně tak kapavka,
módní slovo nebo používání mobilního telefonu či Facebooku) se pak sítí šíří
z jednoho konce na druhý: nejprve poměrně normálně z uzlu na uzel, dokud
nenarazí na hub a odtud se rozprskne do všech stran a nabere na rychlosti.
Bezškálová síť je poměrně odolná vůči náhodným výpadkům jednotlivých uzlů,
ale při odstranění těchto vysoce propojených uzlů se může snadno rozpadnout
na vzájemně oddělené ostrůvky. Jinými slovy, víte koho zavřít, až bude
hrozit, že se něco semele.
To je skutečná podstata sporu o „data retention“, povinnosti
telekomunikačních operátorů uchovávat data o proběhlé komunikaci. Její
obránci argumentují tím, že se neuchovává samotný obsah vašeho hovoru nebo
SMSky (data), ale jenom záznam o tom, že komunikace proběhla (metadata). To
ale stačí. Uzlem je telefonní číslo a záznam o komunikaci s číslem jiným
vytváří vazbu. Specializovaný software typu Analyst's Notebook pak z výpisu
hovorů (nebo třeba bankovních operací) vytvoří podrobnou mapu sociální sítě.
Ve shlucích se společně octnou lidé, kteří k sobě patří, aniž by spolu
komunikovali přímo -- stačí, že mají jistý počet společných známých. Zbraň
je to broušená na obě strany -- nespokojení občané si mohou například z
obchodního rejstříku vytahat data o firmách podezřelých z korupce a zobrazit
jejich pavučinu, byť by je oficiálně nevlastnili politici sami. Proto
neziskovky tolik tlačí na to, aby stát zveřejňoval svá data ve strojově
zpracovatelné podobě.
Precrime
--------
Ve známé povídce P. K. Dicka Minority
Report z roku 1956 pracuje hlavní hrdina v policejním oddělení „pre-crime“,
které má na starosti předpovídání zločinů ještě předtím, než se stanou, aby
mohlo preventivně eliminovat budoucí zločince. Dnes už nejde o fikci.
Náhodná kontrola dokladů na ulici, statistiky trestných činů spojené s
geografickou lokalitou, ale i záznamy z dopravních kamer, jež umí číst
poznávací značky automobilů -- to vše řádek po řádce plní policejní
databáze. Prvním nápadem bylo zanášení těchto informací do map a sestavování
jakýchsi map zločinu. Přidáme-li k těmto informacím údaje o čase, můžeme
data z minulosti extrapolovat do budoucnosti -- podobně jako se počítačově
modeluje předpověď počasí nebo výskyt dotřesů po zemětřesní -- a získat
místo a čas, kde s vyšší pravděpodobností dojde ke zločinu. Podobné mapy
sestavili už před lety například v Santa Cruz, Memphisu nebo
Richmondu.
V Chicagu, kde se sociální problémy přetavily do alarmujícího množství
vražd, získala místní policie několikamilionový grant na projekt mapování
zločinu, jenž se Dickově temné vizi blíží ještě víc. Inspirovala se výzkumy
yaleského sociologa Andrewa Papachrista, který v akademické sféře analyzoval
sociální sítě lidí zapletených do násilných zločinů a zjistil, že
pravděpodobnost vaší vraždy je tím vyšší, čím blíže jste v sociální síti k
někomu, kdo byl zavražděn (a stejně to funguje i s vrahy). Policie najala
bývalého armádního analytika Milese Wernicka a začala zpracovávat data ze
svých velice rozsáhlých databází. „Nákaza násilím“ je podle Papachrista
nejpodobnější šíření AIDS nebo jiných nemocí -- důležité je, s kým se
stýkáme. Podstatné proto byly sociální vazby, jejichž zdrojem je například
společné zatčení při drobnějším deliktu, ale i to, že vás s někým policajti
potkali na ulici a tuto událost zaznamenali.
Policie pak ze získané sociální sítě vyrobila „hotlist“ asi 420 lidí, kteří
by mohli v budoucnu spáchat vraždu, nebo se naopak stát její obětí. Dotyčné
pak začala obcházet. Média publikovala rozhořčenou reakci dvaadvacetiletého
Roberta McDaniela, u něhož jednoho dne zaklepala policie a oznámila mu, že
je v jejím hledáčku a ať si dává pozor. Protipříběhem je Jacobi Herring,
který byl na seznamu potenciálních obětí a byl zastřelen ještě před
návštěvou policie. Přestože se zvedla vlna reakcí, které autory seznamu
obviňují z rasismu (velké množství navštívených „budoucích podezřelých“ jsou
černoši) a neopodstatněných zásahů do rovnosti před zákonem, je zatím
prevencí jenom domluva, případně nabídka služeb sociálních pracovníků --
nikoliv zatýkání. A policejní velitel Jonathan Lewin si slibuje, že její
příklad ukáže celému světu, jak se to má dělat.
V České republice jsou zatím podobné výzkumy zdá se v počátcích a je to spíš
sama veřejnost, kdo podobné analýzy vytváří. Velký kus práce na analýzách
odvedl pečlivý průkopník datové žurnalistiky Jan Cibulka, který se svým
týmem nejen sestavil mapu českého zločinu, ale srovnával jeho míru i s
výskytem heren nebo laciných bytů. Problémem jsou nepřesná zdrojová data --
statistiky se například evidují ke konkrétním policejním okrskům, nikoliv
však k přesným geografickým lokalitám a je třeba je složitě přepočítávat na
hustotu obyvatel, aby data vůbec dávala smysl. Online mapu kriminality
aktualizuje sdružení ProPolice/Otevřená společnost, a ostravskou „heatmapu“
nejnebezpečnějších míst sestavil výzkumný tým VŠB. Nejvíce na ní „svítí“
Stodolní ulice a její okolí.
Co vzniká pod pokličkou české policie, která je považována za spíš
byrokratickou a nepružnou, se můžeme jen domnívat. Jisté však je, že
software typu Analyst's Notebook, který vykreslí mapu sociální sítě třeba z
bankovních operací nebo výpisů od operátora, používají české tajné služby
již dlouhá léta. Na druhé straně oceánu byly publikovány četné studie
sociálních sítí ve vztahu k analýze terorismu, poháněné obrovskými
finančními prostředky investovanými po 11. září. A právě nějaký typ
„vazby“ k osobě podezřelé z terorismu je podle Williama Binneyho, odpadlíka
NSA, důvodem k zařazení na seznam osob, jejichž komunikace se sleduje a
analyzuje. Stačí, že jste si s někým poslali mail. Nebo jeho kámošovi.
-----------