Analýza dat moderně

Jak se posunout v postupech práce s kvanti daty

Domů > Průvodce > Analýza dat moderně

Tento návod ještě připravujeme.

Tento návod nezvnikl v rámci projektu PANK jako výsledek práce se zapojenými týmy.

Vytváříme ho až následně, abychom nad rámec původního projektu poskytli podporu v oblasti, kde podle nás chybí.

Zde zatím najdete vybrané zdroje a odkazy; návod budeme postupně rozšiřovat.

O co jde a proč to řešit?

Moderní analýza dat

  • pracuje s potřebami uživatelů a proto pracuje agilně
  • se soustředí na reprodukovatelnost, automatizovatelnost a transparentnost výsledků, proto pracuje v kódu a postupy se blíží vývoji softwaru
  • často vytváří jiné výstupy než reporty v PDF: automatizované zprávy, dashboardy, webová rozhraní

Tyto cíle a praktiky vyžadují jednak technické znalosti a dovednosti, jednak určité změny způsobů práce. Zdroje zařazené níže vám pomůžou porozumět, co to znamená, a začít na tom pracovat.

Kde začít

Velmi stručné shrnutí principů – spolu s rozcestníkem datových zdrojů – poskytuje přehledový dokument vytvořený pro pilotní školení analytiků veřejné správy, které organizovalo Ministerstvo vnitra.

Kudy do analýzy dat, když excel nestačí

Pokud pracujete v Excelu, dobrý začátek je do práce zařadit nástroj PowerQuery, který vám umožní se k mnohým dobrým praxím analýzy dat přiblížit, aniž byste opustili známé prostředí (Kaduk 2018).

R, nebo Python?

Tuto otázku si asi budete klást, jakmile se rozhodnete rozšířit repertoár nástrojů na práci s daty.

Jasná odpověď na to není. Obecně nejspíš platí, že Python je univerzálnější nástroj, zatímco Rko je více zaměřené na práci s daty. Také platí, že s Rkem budete blíž akademickému světu, s Pythonem tomu komerčnímu.

Oba světy se ale přibližují:

  • vznikají nástroje, které vám umožní v jednom projektu, nebo i jendom souboru, pracovat s více jazyky (Quarto, ale i Jupyter Notebooks)
  • vznikají knihovny a balíčky, které přibližují způsob práce v obou světech (např. Polars pro zpracování dat)
  • čím dál více nástrojů na skladování a analýzu dat funguje multijazykově (Arrow, DuckDB)

Vybrané online učebnice

Techničtější návody

Širší úvody do datové vědy

  • Data Science in Context (Spector et al. 2022), viz volně dostupný text zahrnuje kapitoly ke kauzalitě, etice aj.
  • Handbook of Computational Social Science for Policy (Bertoni et al. 2023): obsahuje kapitoly s příklady využití různých metod a zdrojů dat.
  • Pro účely analýzy státní správy viz Rogger a Schuster (2023)

Česky

  • Kurzy na Katedře sociologie FF UK - Stránka obsahuje přehled kurzů nabízených Katedrou sociologie na Filozofické fakultě Univerzity Karlovy, zaměřených na statistiku a kvantitativní metodologii.

    • Úvod do R - Tento kurz poskytuje základní informace o programovacím jazyce R, včetně instalace softwaru, manipulace s daty a jejich vizualizace.
    • Úvod do R - Kniha - Online učebnice pro začátečníky, která pokrývá základy analýzy dat v R, od instalace softwaru po pokročilé techniky vizualizace dat.
    • Aplikovaná regresní analýza v R - Kurz zaměřený na aplikovanou regresní analýzu pomocí R, který studenty provede různými technikami lineární regrese a jejich praktickým využitím.
    • Vybraná témata analýzy dat - Repozitář pro kurz, který se zabývá pokročilými tématy v analýze dat, včetně bayesiánského modelování a efektivní organizace práce
    • Statistika 1 - Materiály ke kurzu Statistika 1, který pokrývá základní statistické koncepty a techniky, včetně práce s daty a jejich analýzy.
  • Analýza a vizualizace dat v jazyce R (Kvasnička a Mikula 2023)

  • Učebnice VŠE:

Jak práci s daty, kódem a lidmi dobře zvládnout

Práce s daty není jen o schopnosti počítat, programovat a používat statistické metody. Je také o schopnosti řídit projekty, pracovat s lidmi, a starat se o znalosti, kód i data.

Doporučujeme si projít některé z těchto průvodců rozumnou prací s daty v praxi:

  • „Good Enough Practices in Scientific Computing“ (Wilson et al. 2017) shrnuje minimum základních dobrých praxí
  • Pro ladění postupů práce s daty na pomezí věcné expertizy a datové analytiky se vám může hodit průvodce The Turing Way od britského Turing Institute, která zachycuje nejen praktické postupy pro technickou práci, ale i tipy pro spolupráci a práci s partnery (The Turing Way Community 2022).
  • v praxi velkých organizací toto ukazuje Goldacre Review, které shrnuje doporučení pro modernizace práce s daty v britském zdravotnictví (Goldacre 2022)

Reference

Alexander, Rohan. 2023. Telling Stories with Data. https://tellingstorieswithdata.com/.
Bertoni, Eleonora, Matteo Fontana, Lorenzo Gabrielli, Serena Signorelli, a Michele Vespe, ed. 2023. Handbook of Computational Social Science for Policy. Cham: Springer International Publishing. https://doi.org/10.1007/978-3-031-16624-2.
Bryan, Jennifer. 2017. „Excuse Me, Do You Have a Moment to Talk about Version Control?" e3159v2. PeerJ Inc. https://doi.org/10.7287/peerj.preprints.3159v2.
Bryan, Jenny, STAT 545 TAs, a Jim Hester. 2021. Happy Git and GitHub for the useR. http://happygitwithr.com/.
Danko, Jakub, a Karel Šafr. 2020a. R Snadno a Rychle 1. Praha: Oeconomica. https://oeconomica.vse.cz/wp-content/uploads/Danko_Safr_R-snadno-a-rychle_1.pdf.
———. 2020b. R Snadno a Rychle 2. Praha: Oeconomica. https://oeconomica.vse.cz/wp-content/uploads/Safr_Danko_R-snadno-a-rychle_2.pdf.
Foster, Ian, ed. 2021. Big Data and Social Science: Data Science Methods and Tools for Research and Practice. Second edition. Chapman a Hall/CRC Statistics in the Social a Behavioural Sciences. Boca Raton, FL: CRC Press. https://textbook.coleridgeinitiative.org/.
Goldacre, Ben. 2022. „Better, Broader, Safer: Using Health Data for Research and Analysis". Department of Health and Social Care. https://www.gov.uk/government/publications/better-broader-safer-using-health-data-for-research-and-analysis.
Kaduk, Taras. 2018. „Power Query: Excel’s Gateway to Reproducible Analysis". 29. březen 2018. https://taraskaduk.com/posts/2018-03-29-power-query/.
Kvasnička, Michal, a Štěpán Mikula. 2023. Analýza a Vizualizace Dat v Jazyce R. https://promis.econ.muni.cz/.
Lovelace, Robin, a Jakub Nowosad. 2024. Geocomputation with R. https://r.geocompx.org/.
Rogger, Daniel, a Christian Schuster, ed. 2023. The Government Analytics Handbook: Leveraging Data to Strengthen Public Administration. https://doi.org/10.1596/978-1-4648-1957-5.
Spector, Alfred Z., Peter Norvig, Chris Wiggins, a Jeannette M. Wing. 2022. Data Science in Context: Foundations, Challenges, Opportunities. Cambridge: Cambridge University Press. https://doi.org/10.1017/9781009272230.
The Turing Way Community. 2022. „The Turing Way: A Handbook for Reproducible, Ethical and Collaborative Research". Zenodo. https://doi.org/10.5281/ZENODO.3233853.
Turrell, Arthur, Pietro Monticone, Zeki Akyol, a Yiben Huang. 2024. Python for Data Science v1.0.1 (verze 1.0.1). Zenodo. https://doi.org/10.5281/zenodo.10518242.
Wickham, Hadley, Mine Çetinkaya-Rundel, a Garrett Grolemund. 2023. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. 2nd edition. Sebastopol, CA: O’Reilly Media, Inc. https://r4ds.hadley.nz/.
Wilson, Greg, Jennifer Bryan, Karen Cranston, Justin Kitzes, Lex Nederbragt, a Tracy K. Teal. 2017. „Good Enough Practices in Scientific Computing". PLOS Computational Biology 13 (6): e1005510. https://doi.org/10.1371/journal.pcbi.1005510.