O co jde a k čemu to je
Tento návod neposkytuje postup krok za krokem, ale je především rozcestníkem a repozitářem základních znalostí nutných pro práci s veřejnými daty. Myslíme zde především data, která se hodí pro kvantitativní analýzu.
O čem mluvíme
Veřejná data?
Tím myslíme dvě věci:
- data, která jsou veřejně dostupná
- data, která produkuje veřejný sektor
Tyto dvě množiny se nepřekrývají dokonale…
Data?
Tím myslíme převážně kvantitativní data určená pro kvantitativní analýzu, tj. počítání, typicky v Excelu, R, Pythonu nebo jiném nástroji určeném na práci se strukturovanými daty. Takto myšlená data odlišujeme od jednotlivých čísel ve studiích a dokumentech.
Co hledat? Data pro lidi, data pro stroje
Právě pro účely analýzy je vhodné hledat data tzv. ve strojově čitelné formě.
- nejčastěji jde o data v tabulkovém formátu, většinou CSV. Pokud jsou data v excelovém souboru, měla by být formátována tak, aby nic nebránilo strojovému využití, viz Broman a Woo (2018).
- častým způsobem, jak data zpřístupnit právě v takovém formátu a navíc veřejně a s patřičným svolením k využití, je dodržení standardu otevřených dat.
- naopak méně vhodné jsou některé statistické tabulky, jako např. přílohy ročenek, které data poskytují v různých souborech, často v nesourodé organizaci a formátu, a primárně s cílem umožnit čtení tabulek čtenářům.
Data, která najdete ve strojově špatně zpracovatelné formě, často jsou zveřejněna i ve strojově čitelném formátu – to platí např. o mnohých výstupech ČSÚ. Proto se vyplatí vědět, kde hledat.
Kde tedy hledat?
Na otázku kde brát data? neexistujte jedna jasná odpověď – v Česku nenajdete jeden katalog nebo rozcestník dat. Kde máte hledat záleží na tom, jaký typ dat hledáte.
Nabízíme tuto (nedokonalou) typologii, která může pomoct.
1. Statistická data 1
Co je kde
Oficiální statistická zjišťování v Česku realizují tzv. pracoviště státní statistické služby.
Seznam těchto šetření se aktualizuje a schvaluje (formou meziresortního připomínkového řízení, jde totiž o vyhlášku) v tzv. Programu statistických zjišťování.
- ten na rok 2024 najdete na https://csu.gov.cz/csu/vykazy/program-statistickych-zjistovani-na-rok-2024
- ten na rok 2025 najdete na https://csu.gov.cz/vykazy/program-statistickych-zjistovani-na-rok-2025
Může se hodit přehled pravidelných šetření domácností, popř. přehled všech sběrů dat.
Součástí statistických zjišťování pak je mnohdy i využití existujících např. administrativních dat, především státu, ale i soukromého sektoru. Ne všechna data, která uvidíte od ČSÚ, jsou tedy výsledkem sběru dotazníků nebo výkazů.
ČSÚ a Eurostat
Eurostat vlastní data nesbírá (výjimkou je snad jen Eurobarometer, evropské šetření postojů občanů). Přebírá data od národních statistických úřadů, tedy i ČSÚ – to je možné proto, že velká část národních sběrů dat vychází z evropsky harmonizované metodiky.
Eurostat pak tato data publikuje ve sladěné formě. To má několik výhod:
- Eurostat ve strojově čitelné formě poskytuje i některé datové sady a řady, které ČSÚ zatím publikuje pouze ve Veřejné databázi nebo jako excelové soubory u jednotlivých publikací.
- Někdy Eurostat data publikuje v agregacích (např. podle věkových skupin), které se liší od těch, které při publikaci využívá ČSÚ a mohou se vám lépe hodit pro analýzu
- a konečně, samozřejmě, vám to umožní mezinárodní srovnání.
ČSÚ a otevřená data
ČSÚ část svých výstupů poskytuje ve formě otevřených dat. Najdete je pak
- v katalogu produktů ČSÚ
- v Národním katalogu (otevřených) dat
Jde o samotné datové sady i o metadata (číselníky aj.)
Jak hledat data ČSÚ 2
Jakákoli data: začněte v katalogu produktů ČSÚ. Ten ve výchozím nastavení ukazuje jen vydané produkty, ale lze v něm najít i plánované produkty.
Otevřená data: začněte také v katalogu produktů, ale filtrujte. Případně použijte tento rozcestník otevřených statistických dat.
Alternativně otevřená data ČSÚ najdete v Národním katalogu otevřených dat. Hůře se v nich filtruje než v katalogu produktů ČSÚ, ale výhodou je, že datové sady ČSÚ vidíte v katalogu spolu s datovými sadami jiných poskytovatelů.
Pokud neuspějete tam, hledejte ve Veřejná databázi (VDB); pokud údaje nenajdete tam, hledejte v obecném katalogu produktů – a možná budete odkázáni na excelové soubory připojené k dané publikaci.
Někdy se může hodit hledat data podle indikátoru, který sledují.
Data o územích pak ČSÚ poskytuje na statistickém geoportálu.
Pokud na webu ČSÚ nenajdete požadovaný rozpad nebo agregaci dat, můžete si je v rozumné míře vyžádat od informačních služeb.
2 ČSÚ zlepšuje svůj web a chystá i změnu ve VDB, toto se tedy může brzy změnit.
Metadata
ČSÚ poskytuje a udržuje velkou část potřebných metadat – číselníků, klasifikací a definic indikátorů. K tomu detailněji níže.
Veřejně nepřístupná data
ČSÚ i další poskytovalé statistik udržují i individuální data, ze kterých jsou agregované statistiky spočteny. K těm lze získat přístup za určitých podmínek a pod přísnou kontrolou, pokud jde o data nějak chráněná (např. osobní nebo obchodně citlivé údaje).
- ČSÚ za tímtu účelem provozuje tzv. Safe Centrum. Data lze získat pouze pro výzkumné účely, což je aktuálně interpretováno jako výzkum akademický, mezi studenty pak jde o diplomové a disertační práce.
- Svůj režim přístupu k neveřejným datům má i Ústav zdratovnických informací a služeb.
Některé zahraniční agentury poskytují méně omezený přístup k redigovaným nebo pozměněným mikrodatům tak, aby jejich zpřístupnění neohrozilo ochranu dat – často je najdete pod názvem public use file.
Pro zjišťování, jaká data stát má, se může hodit vědět, jaké útvary mají kde na ministerstvech danou věc na starosti. K tomu může posloužit organogram Mapa státu, kterou poskytujeme v rámci webu PANK. Pomoci může i systém Registr práv a povinností, který obsahuje mj. databázi informačních systémů státu s různou mírou detailu o tom, jaká data v systémech jsou.
Řízený přístup k datům
V přípravě je zákon o správě dat a o řízeném přístupu k datům (v [eKlepu(https://odok.cz/portal/veklep/material/KORND4KLAAG6/)]; dále viz noticku DIA)
Ten by měl umožnit řízení zpřístupňování vybraných dat pro výzkumné a další vybrané účely, a to za určěných podmínek a pod přísnou kontrolou tak, aby bylo možné pro tyto účely poskytnout i data, které jinak není možné zpřístupnit kvůli nutnosti je chránit (např. kvůli ochraně osobních údajů.) Zákon také umožní žádat data z více subjektů a v kontrolovaném prostředí je propojit.
ČSÚ a jiní poskytovatelé
Kromě ČSÚ se vyplatí vědět i o dalších poskytovalelích, zvláště pokud hledáte sektorově specifická data, která se často řídí jinými zákony a nespadají do práce ČSÚ.
- ČÚZK: udržuje kompletní systém prostorových dat o ČR, viz níže
- ÚZIS: udržuje systém dat o zdravotnictví
- MPSV: Trexima / ISPV: Informační systém o platech je výstup statistik trhu práce, řízeného MPSV; data spravuje a poskytuje společnost Trexima.
- CENIA: spravuje data o životním prostředí
- Česká národní banka: shromažďuje mnohá data o ekonomice
- OECD, Světová banka, MMF: poskytují některá vlastní data, popř. mezinárodní indexy a odvozené datové produkty (indexy)
Prostorová data od veřejného sektoru
Je dobré vědět, že téměř veškerá široce využitelná prostorová data – počínaje hranicemi územních celků, přes definice adresních bodů, po detailní ortofotomapy a velkou část katastrálních dat – jsou dostupná jako otevřená data Registru územní identifikace a nemovitostí (RÚIAN) spravovaného Českým úřadem zeměměřickým a katastrálním.
Není tedy třeba si pokoutně posílat SHP soubory – vše je v aktuální verzi dobře dostupné z tzv. Vzdáleného přístupu k datům RUIAN.
Hranice evropských regionů a dalších území najdete na webu Eurostatu.
1 kvalitní informační a popularizační texty ke statistice v ČR najdete v časopise ČSÚ Statistika a my
2. Administrativní data
Administrativní data vznikají jako vedlejší produkt nějaké aktivity – poskytování nějaké služby nebo administrace nějakéb agendy. To s sebou nese výhody i nevýhody, každopádně ale mnohdy jde o data velmi cenná pro analytickou a výzkumnou práci.3
3 Příklady využití administrativních dat pro účely tvorby a vyhodnocování politik v Evropě viz Crato a Paruolo (2019).
Vesměs jde o data obsažená uvnitř velkých informačních systémů států, v určitém slova smyslu ale jsou deriváte administrativních dat např. i data mobilních operátorů, které do nějaké míry stát také zveřejňuje. Mezi administrativními daty důležitou roli hrají mj. data o veřejných financích (ta jsou dobře dostupná), ale také např. data o všech zaměstnancích, která shromažďuje Česká správa sociálního zabezpečení – ta naopak veřejně dostupná nejsou.
Příklady dostupných administrativních dat
- Monitor státní pokladny: velmi detailní údaje o příjmech, výdajích a účetních výkazech téměř všech veřejných organizací. Otevřená data nejsou snadno zpracovatelná, ale jsou funkční (viz níže); pro základní účely poslouží analytické rozhraní. Spíše sporou dokumentaci částečně doplňuje tzv. manuál identifikace koruny.
- IS RED: ústřední registr dotací
- Fondy EU: data o všech dotací EU fondů v Česku
Dobrý přehled dostupných dat a nástroje na jejich zpracování do využitelné formy poskutuje Ondřej Kokeš na https://github.com/kokes/od.
3. Výzkumná data
Jde o dva druhy dat:
- data sbíraná dlouhodobě a často mezinárodně s cílem sledovat nějaký jev
- data sbíraná pro účelu konkrétního výzkumu, ale dále využitelná.
Příkladem prvního je PISA nebo světová šetření postojů World Values Study; do druhé kategorie spadají data posbíraná výzkumníky pro jednotlivé projekty. V akademickém světě se v posledních letech prosazuje praxe veřejné archivace dat k jednotlivým výzkumům, proto mnohé datové sady lze najít v online archivačních systémech; identifikaci archivu často najdete v konkrétním článku.
Archivaci a katalogizaci vědeckých dat pro opakované použití zajišťuje
- v Česku Český sociálněvědní datový archiv; tam najdete i kvalitativní data
- na evropské úrovni sociálněvědní archivy katalogizuje CESSDA
- v Evropě je nejvýznamnější GESIS – tam najdete např. archivní data Eurobarometru nebo datové sady velkých šetření jako World Values Survey nebo European Social Survey.
Data k jednotlivým výzkumům můžete najít v systémech jako osf.io nebo figshare.
U velkých institucionálních šetření jako PISA hledejte u jejich autorů (OECD aj.)
4. Metadata: klasifikace a číselníky
Ať použijete jakákoli data, nejspíš se v nich pracuje s nějakými kategoriemi, jednotkami pozorování či indikátory. Abyste s těmiti prvky mohli dále pracovat, potřebujete vědět, kde najít jejich kanonickou formu. Ty nejdůležitější číselníky, klasifikace a definice ukazatelů spravuje buď ČSÚ nebo ČÚZK.
Proč číselníky a klasifikace využívat a proč je brát od zdroje
Číselníky mají následující funkce:
- určují kompletní výčet entit nějaké kategie v nějaký čas
- dávají jim unikátní identifikátory (kódy) a až k identifikátorům přiřazují názvy a další informace. Díky tomu se nám nebudou plést všechny obce s názvem Lhota, a nebude nás trápit, když někdo zapíše Ústí nad Labem jako Ústí n. Labem, pokud poskytne i kód obce.
- umožňují ukládat data jen s kódy a dodatečné informace (názvy, vlastnosti) daných entit doplnit pomocí číselníku, což šetří místo.
Podstatný detail je časová podmíněnost číselníků: mění se v čase, proto je dobré je brát od zdroje a exportovat stav číselníku ke stejnému datu, ke kterému jsou platná data, na která chcete číselník napojit.
Prakticky: v databázi metainformací ČSÚ si můžete vyhledat, prohlédnout, a ve formátu CSV nebo excel stáhnout jakýkoli číselník nebo klasifikaci, ve stavu k jakémukoli datu.
Kromě databáze metainformací ČSÚ se mohou hodit i metadata státní pokladny, kde mj. najdete seznam všech organizací veřejného sektoru, které mají vazbu na veřejné finance, včetně jejich IČO a dalších metadat. Jde zřejmě o jediný opravdu plošný číselník veřejných organizací.
Jak se k datům dostat technicky
Pokud pracujete v R nebo Pythony, k datům některých poskytovatelů výše se dostanete pomocí specializovaných knihoven, které vám urychlí vyhledání a načtení dat:
- ČSÚ: v R použijte balík {czso} (Bouchal 2020a)
- Státní pokladna: v R použijte balík {statnipokladna} (Bouchal 2020b)
- Eurostat: v R použijte balík {eurostat}, v Python knihovnu se stejným názvem
- OECD: v R balík {OECD}
- Světová banka: v R balík {wbstats}
- prostorová data: pro data od ČÚZK v R balík {RCzechia}, hranice evropských území {giscoR}
K tomuto lze využít materiály z několika workshopů:
- Workshop pro analytiky resortů
- Workshop na FF UK + video níže
Jak s daty dál pracovat
K tomuto viz oddělený návod. Obecně doporučujeme:
- pokud pracujete v Excelu, vyzkoušejte jeho modul PowerQuery: přiblíží vás dobré praxi práce s daty
- na podobná data využít Python nebo R; ty vám poslouží dobře i na práci s prostorovými daty.
Velmi stručné shrnutí principů – spolu s rozcestníkem datových zdrojů – poskytuje přehledový dokument vytvořený pro pilotní školení analytiků veřejné správy.
Odkazované zdroje
:::{#refs}