Open Data
Überblick Link to heading
Im Rahmen des Projekts “Foundations of Legal Data Science” entwickle ich die wissenschaftlichen Grundlagen für die quantitative Analyse von juristischen Texten. Derzeit bin ich Erstautor und Hauptentwickler von 16 open access Forschungsdatensätzen, vorwiegend Korpora von juristischen und politischen Texten mit quantitativen Anwendungsmöglichkeiten in den Rechtswissenschaften, Politikwissenschaften und der Ökonomie.
Die öffentliche und langfristige Verfügbarkeit der Datensätze wird durch das Kernforschungszentrum CERN in Genf sichergestellt. Sie können auf die Daten entweder über die bequeme Subdomain data.seanfobbe.com oder durch einen direkten Link zugreifen.
I. Recht der Bundesrepublik Deutschland Link to heading
Deutsche Bundesgesetze und -verordnungen Link to heading
Bundesverfassungsgericht Link to heading
- Corpus der Entscheidungen des Bundesverfassungsgerichts (CE-BVerfG)
- Corpus der amtlichen Entscheidungssammlung des Bundesverfassungsgerichts (C-BVerfGE)
- Corona-Rechtsprechung des Bundesverfassungsgerichts (BVerfG-Corona)
Deutsche Bundesgerichte Link to heading
- Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH)
- Corpus der Entscheidungen des Bundesfinanzhofs (CE-BFH)
- Corpus der Entscheidungen des Bundesverwaltungsgerichts (CE-BVerwG)
- Corpus der Entscheidungen des Bundespatentgerichts (CE-BPatG)
- Corpus der Entscheidungen des Bundesarbeitsgerichts (CE-BAG)
Deutscher Bundestag Link to heading
- Corpus der Plenarprotokolle des Deutschen Bundestages (CPP-BT)
- Corpus der Drucksachen des Deutschen Bundestages (CDRS-BT)
Weitere Datensätze Link to heading
- Stoppwörter der Deutschen Rechtssprache (SW-DE-RS)
- Aktenzeichen der Bundesrepublik Deutschland (AZ-BRD)
- Presidents and Vice-Presidents of the Federal Courts of Germany (PVP-FCG)
II. Völkerrecht Link to heading
Beispiel eines Daten-Workflows Link to heading
Prinzipien Link to heading
Ein Kernprinzip meiner wissenschaftlichen Tätigkeit ist, alle meine Forschungsdaten unter maximal offenen Lizenzen open access zu veröffentlichen. Idealerweise stelle ich sie mittels CC0 Lizenz gemeinfrei, aber bestehende Urheberrechte auf Rohdaten oder notwendige Vereinbarungen mit bereitstellenden Organisationen können mich dazu zwingen auch weniger freie Lizenzen zu nuten.
Weiterhin ziele ich auf eine vollständige Umsetzung der FAIR Data Prinzipien, d.h. meine Daten sollen auffindbar, zugänglich, interoperabel und nachnutzbar sein — [F]indable, [A]ccessible, [I]nteroperable and [R]eusable (Wilkinson et al 2016) Das schließt die Veröffentlichung der Daten auf Zenodo, die Bereitstellung einzigartiger Identifikatoren, reichhaltiger Metadaten, umfassender Dokumentation und klarer Lizenzierung mit ein.
Datensätze sind langfristig verfügbar via Zenodo, dem wissenschaftlichen Archiv des Genfer Kernforschungszentrums CERN. Zenodo setzt die FAIR Prinzipien und Plan S um. Das CERN garantiert weiterhin, dass meine Forschung öffentlich verfügbar und sicher archiviert bleibt, ‘for as long as CERN exists’.
Jeder Datensatz ist einem individuellen, langzeit-stabilen Digital Object Identifier (DOI) gekennzeichnet, der auch als Link genutzt werden kann. Zenodo implementiert zudem DOI-Versionierung. Das übergreifende Konzept jedes Datensatzes ist mit einer Concept DOI gekennzeichnet, die immer die aktuellste Version verlinkt. Jede einzelne Version ist zudem mit einer Version DOI ausgestattet, die nur eine einzelne Version identefiziert und verlinkt. Für exakte Zitate und die wissenschaftliche Nutzung empfehle ich die Version DOI, in allen anderen Fällen die Concept DOI. Die folgenden Links nutzen alle die Concept DOI und verlinken immer die neueste Version.