Freie Software
- Stabile und zitierfähige Software — code.seanfobbe.com
- Aktive Entwicklung — github.com/SeanFobbe/
Überblick
Stabile und zitierfähige Versionen meiner Software können entweder über die bequeme Subdomain code.seanfobbe.com oder durch einen direkten Link aufgerufen werden. Die aktive Entwicklung findet auf GitHub statt.
Interessierte können auch meine Linux-Konfiguration (z.B. dot files, package lists, install scripts) für Fedora und Debian in einem laufend aktualisierten GitHub repository herunterladen.
Prinzipien
Das Science in ‘Data Science’ nehme ich besonders ernst. Daher bin ich ein starker Befürworter von Open Source Software und bemühe mich, meine auf Software aufbauenden Publikationen vollständig reproduzierbar zu veröffentlichen. Ich stehe hinter dem berühmtem Diktum von Buckheit und Donoho (2010: 385):
An article about computational results is advertising, not scholarship. The actual scholarship is the full software environment, code and data, that produced the result.1
Natürlich ist dies einfacher gesagt denn getan. Um dem Ideal gerecht zu werden, veröffentliche ich alle meine Datensätze, den vollständigen Source Code (inklusive der verwendeten Softwarepakete und ihrer Versionsnummern) und stelle meine Ergebnisse mit stabilen Identifikatoren langfristig verfügbar auf Zenodo bereit, dem wissenschaftlichen Archiv des Kernforschungszentrums CERN.
Bevorzugte Open Source Tools
Meine Forschung wird erst möglich durch die unzähligen Open Source Tools, die ich glücklicherweise kostenlos herunterladen und nutzen kann. An dieser Stelle möchte ich ein paar meiner bevorzugten Tools erwähnen, einerseits als großes ‘Dankeschön’ an die Entwickler:innen und andererseits für den Fall, dass sie jemand anderes ebenso nützlich findet wie ich.
- Für meine alltägliche und wissenschaftliche Arbeit bin ich ein glücklicher Nutzer der Fedora (Fedora Project 2021) und Debian (Debian Project 2021) Distributionen des Linux Betriebssystems (Linux Foundation 2021).
- Für kurze Notizen, einfache Dokumente und die Codebooks zu meinen Datensätzen nutze ich die Markdown Syntax (Gruber und Swartz 2004).
- Um komplexe Dokumente zu schreiben und zu layouten vertraue ich auf das LaTeX Textsatzsystem (Knuth 1978; Lamport 1984; LaTeX Project 2021).
- Heutzutage nutze ich für fast alle ernsthaften Schreib- und Programmierprojekte den emacs Editor (GNU Project 2021) mit der Emacs Speaks Statistics (ESS) Erweiterung für die Programmiersprache R (Maechler et al 2021), der AUCTeX Erweiterung für LaTeX (GNU Project 2020) und der markdown-mode Erweiterung for Markdown (Blevins 2017). Wenn Sie sich auch für einen plain text-basierten Workflow interessieren, geben Sie dem Plain Person’s Guide to Plain Text Social Science (Healy 2019) eine Chance!
- Mein Data Science Workflow baut primär auf der Programmiersprache R (R Foundation for Statistical Computing 2021) auf, dem unglaublich schnellen und effizienten data.table (Dowle und Srinivasan 2021) und dem quanteda Framework für die quantitative Analyse von Texten (Benoit et al 2021), sowie rmarkdown (Allaire et al 2021) und knitr (Xie 2021) für die Erstellung reproduzierbarer Berichte.
- Diese Webseite wurde mit der Programmiersprache R (R Foundation for Statistical Computing 2021), dem blogdown Package (Xie, Thomas und Hill 2021), dem Hugo Framework (Hugo Authors 2021) und dem Coder Theme (de Prá 2021) erstellt.
-
Der ursprüngliche Slogan wurde in Buckheit und Donoho 1995 — als Paraphrase einer Idee des Geophysikers Jon Claerbout — veröffentlicht, das exakte Zitat stammt allerdings aus Donoho 2010. Siehe: Buckheit, Jonathan B and David L Donoho. 1995. ‘WaveLab and Reproducible Research’. In Wavelets and Statistics, edited by Anestis Antoniadis and Georges Oppenheim, 55–81. New York: Springer, 1995. Siehe auch: Donoho, David L. 2010. ‘An Invitation to Reproducible Computational Research’. Biostatistics 11 (3): 385–388. ↩︎