neděle 25. října 2015

#dataviz15 #3 Špatné grafy

Dnes netvořím, ale za úkol mám najít špatné vizualizace. Jenže kde je hledat? Zabrousil jsem rovnou na novinky.cz a tn.cz. Po překonání pocitů nevolnosti nad titulky na tn.cz objevuji první článek, co by mohl obsahovat nějakou vizualizaci: V Česku přibývá lidí nakažených AIDS. Kde je riziko největší? (tn.cz, 25.10.2015, link). Článek je to vydatný, studenti žurnalistiky by si na něm smlsli.

Mapa - HIV infekce v České republice

Na obrázku vidíme mapu ČR v červené barvě, na ní jsou vyznačeny kraje, které mají popisky čísla s počty (asi) nově nakažených HIV. Na první pohled jsem si říkal, že to je docela v pohodě graf. Pár chvil mně do očí bila červená barva. Proč je graf celý červený? Potom mi začalo docházet, že ten graf není docela v pohodě.

Stejná data by dokázala reprezentovat i tabulka. Jaké výhody má tento graf oproti ní? Orientace na mapě může být rychlejší než v tabulce – zajímá mě, jak je na tom můj kraj, hned vím, kam se podívat. V tabulce bych hledal o něco déle. Taky můžu vyzkoušet čtenáře z vlastivědy, to je super. A ta možnost ho vybarvit červenou barvou a vyslat čtenářům vážnost situace. Tabulka není nejlepší způsob reprezentace dat, v porovnáním s tímto grafem si ale vede dobře.

Kdyby kraje byly vybarveny podle počtu případů na základě nějaké škály, mělo by jeho použití větší smysl. Jenže graf nestojí ve vákuu. Měl by odpovídat na správnou otázku a reprezentovat správná data.

Předpokládejme, že otázka Kde je riziko největší? není úplně zvrácená a má opravdu smysl se ptát kde. Odpovídají na ni souhrnné počty o nakažených z let 85-15? Je na tom Praha s milionem obyvatel hůř než liberecký kraj s 400 tisíci?  Asi jo, ale poměr nakažených na počet obyvatel není z grafu jasný a možnost si ho odvodit vyžaduje dost podrobnou vlastivědnou znalost i nějakou tu matematiku. Obojí by měla mít vizualizace v sobě.

Otázku nepovažuji ale za správnou, protože v nákaze HIV hraje roli spíše rizikové chování (což naštěstí článek uvádí) a ne to, kde člověk žije. Možná by se dala data zobrazit v poměru k zastoupení rizikových skupin.

Graf od tn.cz není tedy správně graficky, pracuje se špatnými daty a ptá se na nesprávnou otázku. Nápad na graf nejspíš vzešel z měsíční zprávy o HIV od Státního zdravotního ústavu. TN ho nekriticky převzala, obarvila a podpořila svou otázkou. Původní je k prohlédnutí níže.

hiv-85-szu

úterý 20. října 2015

#dataviz2015 #2 Cizinci v ČR pomocí SW

Jako druhý úkol jsme již pracovali se surovými daty z ČSÚ. Připravil jsem dva grafy (bohužel mapa se mi nepodařila). Částečně navazují na předchozí hodinu.

Na prvním grafu máme možnost vidět celkový počet cizinců v ČR v závislosti na čase, který je rozdělen na dvě části – cizinci z EU a cizinci ze států mimo EU. Opět jsem pracoval s agregovanými daty od ČSÚ, protože se měnily státy EU (Bulharsko, Rumunsko, Chorvatsko).

Z grafu je patrné, že od roku 2008 je počet cizinců v ČR víceméně stejný, a že cizinci mimo EU již nepřicházejí (navazuji na graf z minulého úkolu). Nahrazují je cizinci z EU.

V druhém grafu jsem se proto zaměřil na roční přírůstek/úbytek v těchto kategoriích.

Můžeme vidět, že po roce 2008 počet cizinců ze zemí mimo EU stále klesá, zatímco ze zemí EU se po propadu obrátil k nárůstu.

#dataviz15 #1 Cizinci v ČR rukou

Za první úkol jsme dostali nahodit rukou pár grafů podle obdržených dat. Data ukazovala počet cizinců v ČR v jednotlivých letech podle země původu. Pro první graf jsem se rozhodl využít agregovaná data o počtech cizinců z EU a ostatních zemí v jednotlivých letech.

Graf - cizinci EU/Non-EU

Vodorovná osa představuje počet cizinců pocházejících mimo EU, svislá ty z EU. V grafu jsou pak zaznamenány jednotlivé roky. Lze tedy vidět poměr cizinců v jednotlivých letech.

Několik prvních “křížků” vypadalo slibně – naznačovalo přímou úměru – tedy, že poměr cizinců z EU/non-EU se v čase nemění. Od roku 2009 ale nastal zvrat a graf se stal obtížně čitelným. Cizinci ze zemí mimo EU v čase začali z ČR odcházet (že by následek hospodářské krize?) a tak se naznačená přímka otočila v hokejku směrem vzhůru. Kdyby graf dělal člověk na počítači, asi by viděl všechna data najednou a nepřišlo by mu to jako dobrý nápad. Moje počáteční radost z přímé úměry byla pokažena.

Jako druhý graf jsem si vybral 3 země EU, ze kterých je v ČR nejvíce cizinců: Slovensko, Německo, Polsko a vynesl jsem na graf počty cizinců z těchto zemí v závislosti na čase.

 

Graf PL, SK, DE

Zde pak není co řešit. Je vidět, že po roce 2010 se růst počtu Slováků v ČR po zakolísání po roce 2008 obnovil, zatímco počet Němců a Poláků po roce 2010 spíše stagnuje.