Vyhledání veřejných dat

Kde hledat veřejná data a jak se v nich vyznat?

Domů > Průvodce > Vyhledání veřejných dat

O co jde a k čemu to je

Tento návod neposkytuje postup krok za krokem, ale je především rozcestníkem a repozitářem základních znalostí nutných pro práci s veřejnými daty. Myslíme zde především data, která se hodí pro kvantitativní analýzu.

O čem mluvíme

Veřejná data?

Tím myslíme dvě věci:

  1. data, která jsou veřejně dostupná
  2. data, která produkuje veřejný sektor

Tyto dvě množiny se nepřekrývají dokonale…

Data?

Tím myslíme převážně kvantitativní data určená pro kvantitativní analýzu, tj. počítání, typicky v Excelu, R, Pythonu nebo jiném nástroji určeném na práci se strukturovanými daty. Takto myšlená data odlišujeme od jednotlivých čísel ve studiích a dokumentech.

Co hledat? Data pro lidi, data pro stroje

Právě pro účely analýzy je vhodné hledat data tzv. ve strojově čitelné formě.

  • nejčastěji jde o data v tabulkovém formátu, většinou CSV. Pokud jsou data v excelovém souboru, měla by být formátována tak, aby nic nebránilo strojovému využití, viz Broman a Woo (2018).
  • častým způsobem, jak data zpřístupnit právě v takovém formátu a navíc veřejně a s patřičným svolením k využití, je dodržení standardu otevřených dat.
  • naopak méně vhodné jsou některé statistické tabulky, jako např. přílohy ročenek, které data poskytují v různých souborech, často v nesourodé organizaci a formátu, a primárně s cílem umožnit čtení tabulek čtenářům.

Data, která najdete ve strojově špatně zpracovatelné formě, často jsou zveřejněna i ve strojově čitelném formátu – to platí např. o mnohých výstupech ČSÚ. Proto se vyplatí vědět, kde hledat.

Kde tedy hledat?

Ve zkratce: kde hledat jako první

Na otázku kde brát data? neexistujte jedna jasná odpověď – v Česku nenajdete jeden katalog nebo rozcestník dat. Kde máte hledat záleží na tom, jaký typ dat hledáte.

Nabízíme tuto (nedokonalou) typologii, která může pomoct.

1. Statistická data 1

Co je kde

Oficiální statistická zjišťování v Česku realizují tzv. pracoviště státní statistické služby.

Statistická služba!?

Kromě ČSÚ statistickou službu vykonávají i jiné veřejné organizace, především ministerstva. Viz tento přehled.

Seznam těchto šetření se aktualizuje a schvaluje (formou meziresortního připomínkového řízení, jde totiž o vyhlášku) v tzv. Programu statistických zjišťování.

Může se hodit přehled pravidelných šetření domácností, popř. přehled všech sběrů dat.

Součástí statistických zjišťování pak je mnohdy i využití existujících např. administrativních dat, především státu, ale i soukromého sektoru. Ne všechna data, která uvidíte od ČSÚ, jsou tedy výsledkem sběru dotazníků nebo výkazů.

ČSÚ a Eurostat

Eurostat vlastní data nesbírá (výjimkou je snad jen Eurobarometer, evropské šetření postojů občanů). Přebírá data od národních statistických úřadů, tedy i ČSÚ – to je možné proto, že velká část národních sběrů dat vychází z evropsky harmonizované metodiky.

Eurostat pak tato data publikuje ve sladěné formě. To má několik výhod:

  • Eurostat ve strojově čitelné formě poskytuje i některé datové sady a řady, které ČSÚ zatím publikuje pouze ve Veřejné databázi nebo jako excelové soubory u jednotlivých publikací.
  • Někdy Eurostat data publikuje v agregacích (např. podle věkových skupin), které se liší od těch, které při publikaci využívá ČSÚ a mohou se vám lépe hodit pro analýzu
  • a konečně, samozřejmě, vám to umožní mezinárodní srovnání.

ČSÚ a otevřená data

ČSÚ část svých výstupů poskytuje ve formě otevřených dat. Najdete je pak

  • v katalogu produktů ČSÚ
  • v Národním katalogu (otevřených) dat

Jde o samotné datové sady i o metadata (číselníky aj.)

Jak hledat data ČSÚ 2

Jakákoli data: začněte v katalogu produktů ČSÚ. Ten ve výchozím nastavení ukazuje jen vydané produkty, ale lze v něm najít i plánované produkty.

Otevřená data: začněte také v katalogu produktů, ale filtrujte. Případně použijte tento rozcestník otevřených statistických dat.

Alternativně otevřená data ČSÚ najdete v Národním katalogu otevřených dat. Hůře se v nich filtruje než v katalogu produktů ČSÚ, ale výhodou je, že datové sady ČSÚ vidíte v katalogu spolu s datovými sadami jiných poskytovatelů.

Pokud neuspějete tam, hledejte ve Veřejná databázi (VDB); pokud údaje nenajdete tam, hledejte v obecném katalogu produktů – a možná budete odkázáni na excelové soubory připojené k dané publikaci.

O něco hůře jsou v otevřených datech zastoupena data o trhu práce; ta má smysl hledat ve VDB a na webu, případně u Eurostatu, který v některých případech publikuje jiné agregace (např. do věkových skupin) než ČSÚ, což může lépe odpovídat Vašim potřebám. Ještě lépe jsou data o trhu práce zpřístupňována v systému ILOstat Mezinárodní organizace práce.

Někdy se může hodit hledat data podle indikátoru, který sledují.

Data o územích pak ČSÚ poskytuje na statistickém geoportálu.

Pokud na webu ČSÚ nenajdete požadovaný rozpad nebo agregaci dat, můžete si je v rozumné míře vyžádat od informačních služeb. I obecně platí, že mnohá data přebírá Eurostat a může je zpřístupňovat způsobem, který pro Vás může být příhodnější.

2 ČSÚ zlepšuje svůj web a chystá i změnu ve VDB, toto se tedy může brzy změnit.

Metadata

ČSÚ poskytuje a udržuje velkou část oběcně používaných metadat – číselníků, klasifikací a definic indikátorů. K tomu detailněji níže.

Veřejně nepřístupná data

ČSÚ i další poskytovalé statistik udržují i individuální data, ze kterých jsou agregované statistiky spočteny. K těm lze získat přístup za určitých podmínek a pod přísnou kontrolou, pokud jde o data nějak chráněná (např. osobní nebo obchodně citlivé údaje).

  • ČSÚ za tímtu účelem provozuje tzv. Safe Centrum. Data lze získat pouze pro výzkumné účely, což je aktuálně interpretováno jako výzkum akademický, mezi studenty pak jde o diplomové a disertační práce.
  • Svůj režim přístupu k neveřejným datům má i Ústav zdratovnických informací a služeb.

Některé zahraniční agentury poskytují méně omezený přístup k redigovaným nebo pozměněným mikrodatům tak, aby jejich zpřístupnění neohrozilo ochranu dat – často je najdete pod názvem public use file.

Pro zjišťování, jaká data stát má, se může hodit vědět, jaké útvary mají kde na ministerstvech danou věc na starosti. K tomu může posloužit organogram Mapa státu, kterou poskytujeme v rámci webu PANK. Pomoci může i systém Registr práv a povinností, který obsahuje mj. databázi informačních systémů státu s různou mírou detailu o tom, jaká data v systémech jsou.

Řízený přístup k datům

V přípravě je zákon o správě dat a o řízeném přístupu k datům (v eKlepu; dále viz noticku DIA)

Ten by měl umožnit řízení zpřístupňování vybraných dat pro výzkumné a další vybrané účely, a to za určěných podmínek a pod přísnou kontrolou tak, aby bylo možné pro tyto účely poskytnout i data, které jinak není možné zpřístupnit kvůli nutnosti je chránit (např. kvůli ochraně osobních údajů.) Zákon také umožní žádat data z více subjektů a v kontrolovaném prostředí je propojit.

ČSÚ a jiní poskytovatelé

Kromě ČSÚ se vyplatí vědět i o dalších poskytovalelích, zvláště pokud hledáte sektorově specifická data, která se často řídí jinými zákony a nespadají do práce ČSÚ.

  1. ČÚZK: udržuje kompletní systém prostorových dat o ČR, viz níže
  2. ÚZIS: udržuje systém dat o zdravotnictví
  3. MPSV: Trexima / ISPV: Informační systém o platech je výstup statistik trhu práce, řízeného MPSV; data spravuje a poskytuje společnost Trexima.
  4. CENIA: spravuje data o životním prostředí
  5. Česká národní banka: shromažďuje mnohá data o ekonomice, strukturovaně skrze systém ARAD, kde najdete dlouhé časové řady makroekonomických ukazatelů, dílčích prvků z národních účtů, ale např. i výběry daní a příjmy a výdaje státního rozpočtu
  6. OECD, Světová banka, MMF: poskytují některá vlastní data, popř. mezinárodní indexy a odvozené datové produkty (indexy)
  7. Tematicky zaměřené mezinárodní organizace, často agentury OSN: například Mezinárodní organizace práce (ILO), mezinárodní organizace pro migraci (IOM) - typicky kompilují a slaďují data z národních zdrojů.

Prostorová data od veřejného sektoru

Je dobré vědět, že téměř veškerá široce využitelná prostorová data – počínaje hranicemi územních celků, přes definice adresních bodů, po detailní ortofotomapy a velkou část katastrálních dat – jsou dostupná jako otevřená data Registru územní identifikace a nemovitostí (RÚIAN) spravovaného Českým úřadem zeměměřickým a katastrálním.

Není tedy třeba si pokoutně posílat SHP soubory – vše je v aktuální verzi dobře dostupné z tzv. Vzdáleného přístupu k datům RUIAN.

Hranice evropských regionů a dalších území najdete na webu Eurostatu.

Data o místech

Kromě standardní tematických datových sad, kde se můžete dovědět údaje za různá území, jsou k dispozici i datové sady, které sdružují všechny možné údaje za všechna území

  • databáze KROK a MOS od ČSÚ sdružují velké množství údajů o krajích a obcích; dostupné jsou ve formě otevřených dat.
  • struktura území je „multičíselník“ od ČSÚ, který umožnňuje připojením jedné tabulky na jakýkoli seznam území (obcí, ORP atd.) přidat kompletní územní metadata (do jakých vyšších celků dané území patří atd.) Existuje i v otevřených datech.
  • ČSÚ od roku 2025 nově publikuje i otevřená data z Registru sčítacích obvodů, kde jsou za relativně malá území i údaje ze sčítání (SLDB); jde o geodata, ale ta s sebou i tyto statistické údaje.
  • podobnou sadu, ale podle svých klasifikací území, poskytuje i ĆÚZK: hierarchie prvků RÚIAN pro stát
  • DataPAQ od PAQ research kompiluje velké množství údajů o obcích (a nejen o školství) – viz tlačítko „stáhnout data“ vpravo nahoře.
  • ČÚZK poskytuje velký soubor všech adresních míst s jejich zařazením do územních a administrativních jednotek.

1 kvalitní informační a popularizační texty ke statistice v ČR najdete v časopise ČSÚ Statistika a my

2. Administrativní data

Administrativní data vznikají jako vedlejší produkt nějaké aktivity – poskytování nějaké služby nebo administrace nějakéb agendy. To s sebou nese výhody i nevýhody, každopádně ale mnohdy jde o data velmi cenná pro analytickou a výzkumnou práci.3

3  Příklady využití administrativních dat pro účely tvorby a vyhodnocování politik v Evropě viz Crato a Paruolo (2019).

Vesměs jde o data obsažená uvnitř velkých informačních systémů států, v určitém slova smyslu ale jsou deriváte administrativních dat např. i data mobilních operátorů, které do nějaké míry stát také zveřejňuje. Mezi administrativními daty důležitou roli hrají mj. data o veřejných financích (ta jsou dobře dostupná), ale také např. data o všech zaměstnancích, která shromažďuje Česká správa sociálního zabezpečení – ta naopak veřejně dostupná nejsou.

Data veřejného sektoru

Základní přehled o datové architektuře českého státu poskytuje web https://archi.gov.cz: viz Propojený datový fond.

Příklady dostupných administrativních dat

  • Monitor státní pokladny: velmi detailní údaje o příjmech, výdajích a účetních výkazech téměř všech veřejných organizací. Otevřená data nejsou snadno zpracovatelná, ale jsou funkční (viz níže); pro základní účely poslouží analytické rozhraní. Spíše sporou dokumentaci částečně doplňuje tzv. manuál identifikace koruny.
  • IS RED: ústřední registr dotací
  • Fondy EU: data o všech dotací EU fondů v Česku

Dobrý přehled dostupných dat a nástroje na jejich zpracování do využitelné formy poskutuje Ondřej Kokeš na https://github.com/kokes/od.

3. Výzkumná data

Jde o dva druhy dat:

  • data sbíraná dlouhodobě a často mezinárodně s cílem sledovat nějaký jev
  • data sbíraná pro účelu konkrétního výzkumu, ale dále využitelná.

Příkladem prvního je PISA nebo světová šetření postojů World Values Study; do druhé kategorie spadají data posbíraná výzkumníky pro jednotlivé projekty. V akademickém světě se v posledních letech prosazuje praxe veřejné archivace dat k jednotlivým výzkumům, proto mnohé datové sady lze najít v online archivačních systémech; identifikaci archivu často najdete v konkrétním článku.

Archivaci a katalogizaci vědeckých dat pro opakované použití zajišťuje

  • v Česku Český sociálněvědní datový archiv; tam najdete i kvalitativní data
  • na evropské úrovni sociálněvědní archivy katalogizuje CESSDA
  • v Evropě je nejvýznamnější GESIS – tam najdete např. archivní data Eurobarometru nebo datové sady velkých šetření jako World Values Survey nebo European Social Survey.

Data k jednotlivým výzkumům můžete najít v systémech jako osf.io nebo figshare.

U velkých institucionálních šetření jako PISA hledejte u jejich autorů (OECD aj.)

4. Metadata: klasifikace a číselníky

Ať použijete jakákoli data, nejspíš se v nich pracuje s nějakými kategoriemi, jednotkami pozorování či indikátory. Abyste s těmiti prvky mohli dále pracovat, potřebujete vědět, kde najít jejich kanonickou formu. Ty nejdůležitější číselníky, klasifikace a definice ukazatelů spravuje buď ČSÚ nebo ČÚZK.

Proč číselníky a klasifikace využívat a proč je brát od zdroje

Číselníky mají následující funkce:

  • určují kompletní výčet entit nějaké kategie v nějaký čas
  • dávají jim unikátní identifikátory (kódy) a až k identifikátorům přiřazují názvy a další informace. Díky tomu se nám nebudou plést všechny obce s názvem Lhota, a nebude nás trápit, když někdo zapíše Ústí nad Labem jako Ústí n. Labem, pokud poskytne i kód obce.
  • umožňují ukládat data jen s kódy a dodatečné informace (názvy, vlastnosti) daných entit doplnit pomocí číselníku, což šetří místo.

Podstatný detail je časová podmíněnost číselníků: mění se v čase, proto je dobré je brát od zdroje a exportovat stav číselníku ke stejnému datu, ke kterému jsou platná data, na která chcete číselník napojit.

Prakticky: v databázi metainformací ČSÚ si můžete vyhledat, prohlédnout, a ve formátu CSV nebo excel stáhnout jakýkoli číselník nebo klasifikaci, ve stavu k jakémukoli datu.

Jak fungují metadata

Obecně v českém veřejném sektoru platí pravidlo, že na jednu věc (jev, indikátor, kategorizaci, územní prvek) by měl existovat jeden číselník. Ten by měl někdo spravovat a ostatní by jej měli využívat.

Většinu číselníku spravuje ČSÚ, ale např. některé číselníky území spravuje ČÚZK. V praxi bohužel někteří poskytovatelé používají vlastní číselníky nebo jejich verze, popř. zastaralé číselníky, a ne vždy je snadné vše sladit. Přesto se ale vyplatí správní číselníky používat a vědět, odkud se berou.

ČSÚ spravuje tyto druhy metadat

  • číselníky: např. číselník obcí – má jen jednu úroveň
  • klasifikace: jde o víceúrovňová členění, např. klasifikaci odvětví, která může odvětví členit na kategorie nebo podkategorie
  • indikátory: definice samotných měřených či sledovaných údajů

Dále v poskytovaných datech často najdete tzv. vazby mezi číselníky – jde o informace nutné pro propojení dvou číselníků. Díky nim se např. dovíte, do jakého kraje patří která obec.

Pozn.: něco trochu jiného znamenají metadata celých datových sad – jde o dokumentaci o tom, jak data vznikla, co obsahují, atd.

Kromě databáze metainformací ČSÚ se mohou hodit i metadata státní pokladny, kde mj. najdete seznam všech organizací veřejného sektoru, které mají vazbu na veřejné finance, včetně jejich IČO a dalších metadat. Jde zřejmě o jediný opravdu plošný číselník veřejných organizací.

Jak se k datům dostat technicky

Pokud pracujete v R nebo Pythonu, k datům některých poskytovatelů výše se dostanete pomocí specializovaných knihoven, které vám urychlí vyhledání a načtení dat:

  • ČSÚ: v R použijte balík {czso} (Bouchal 2020a)
  • Státní pokladna: v R použijte balík {statnipokladna} (Bouchal 2020b)
  • Eurostat: v R použijte balík {eurostat}, v Python knihovnu se stejným názvem
  • OECD: v R balík {OECD}
  • Světová banka: v R balík {wbstats}
  • ČNB systém ARAD: v R balík {cnbrrr}
  • ILOStat: v R balík {Rilostat}
  • prostorová data: pro data od ČÚZK v R balík {RCzechia}, hranice evropských území {giscoR}

K tomuto lze využít materiály z několika workshopů:

Jak s daty dál pracovat

K tomuto viz oddělený návod. Obecně doporučujeme:

  • pokud pracujete v Excelu, vyzkoušejte jeho modul PowerQuery: přiblíží vás dobré praxi práce s daty
  • na podobná data využít Python nebo R; ty vám poslouží dobře i na práci s prostorovými daty.

Velmi stručné shrnutí principů – spolu s rozcestníkem datových zdrojů – poskytuje přehledový dokument vytvořený pro pilotní školení analytiků veřejné správy.

Odkazované zdroje

:::{#refs}

Reference

Bouchal, Petr. 2020a. „Czso: Use Open Data from the Czech Statistical Office in R". https://CRAN.R-project.org/package=czso.
———. 2020b. „Statnipokladna: Use Data from the Czech Public Finance Database". https://CRAN.R-project.org/package=statnipokladna.
Broman, Karl W., a Kara H. Woo. 2018. „Data Organization in Spreadsheets". The American Statistician 72 (1): 2–10. https://doi.org/10.1080/00031305.2017.1375989.
Crato, Nuno, a Paolo Paruolo, ed. 2019. Data-Driven Policy Impact Evaluation: How Access to Microdata Is Transforming Policy Design. Cham: Springer International Publishing. https://doi.org/10.1007/978-3-319-78461-8.