Open Data
Überblick
Im Rahmen des Projekts “Foundations of Legal Data Science” entwickle ich die wissenschaftlichen Grundlagen für die quantitative Analyse von juristischen Texten. Derzeit bin ich Erstautor und Hauptentwickler von 16 open access Forschungsdatensätzen, vorwiegend Korpora von juristischen und politischen Texten mit quantitativen Anwendungsmöglichkeiten in den Rechtswissenschaften, Politikwissenschaften und der Ökonomie.
Die öffentliche und langfristige Verfügbarkeit der Datensätze wird durch das Kernforschungszentrum CERN in Genf sichergestellt. Sie können auf die Daten entweder über die bequeme Subdomain data.seanfobbe.com oder durch einen direkten Link zugreifen.
Open Access Datensätze
I. Deutschsprachige Datensätze
Bundesverfassungsgericht
- Corpus der Entscheidungen des Bundesverfassungsgerichts (CE-BVerfG)
- Corpus der amtlichen Entscheidungssammlung des Bundesverfassungsgerichts (C-BVerfGE)
- Corona-Rechtsprechung des Bundesverfassungsgerichts (BVerfG-Corona)
Deutsche Bundesgerichte
- Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH)
- Corpus der Entscheidungen des Bundesverwaltungsgerichts (CE-BVerwG)
- Corpus der Entscheidungen des Bundesarbeitsgerichts (CE-BAG)
- Corpus der Entscheidungen des Bundespatentgerichts (CE-BPatG)
Deutsche Bundesgesetze und -verordnungen
Deutscher Bundestag
- Corpus der Plenarprotokolle des Deutschen Bundestages (CPP-BT)
- Corpus der Drucksachen des Deutschen Bundestages (CDRS-BT)
Weitere Datensätze
- Stoppwörter der Deutschen Rechtssprache (SW-DE-RS)
- Aktenzeichen der Bundesrepublik Deutschland (AZ-BRD)
II. Englischsprachige Datensätze
Völkerrecht
- Corpus of Decisions: International Court of Justice (CD-ICJ)
- Corpus of Decisions: Permanent Court of International Justice (CD-PCIJ)
- Collection of International Treaties and Legal Documents (CITLD)
Deutsches Recht
Prinzipien
Ein Kernprinzip meiner wissenschaftlichen Tätigkeit ist, alle meine Forschungsdaten unter maximal offenen Lizenzen open access zu veröffentlichen. Idealerweise stelle ich sie mittels CC0 Lizenz gemeinfrei, aber bestehende Urheberrechte auf Rohdaten oder notwendige Vereinbarungen mit bereitstellenden Organisationen können mich dazu zwingen auch weniger freie Lizenzen zu nuten.
Weiterhin ziele ich auf eine vollständige Umsetzung der FAIR Data Prinzipien, d.h. meine Daten sollen auffindbar, zugänglich, interoperabel und nachnutzbar sein — [F]indable, [A]ccessible, [I]nteroperable and [R]eusable (Wilkinson et al 2016) Das schließt die Veröffentlichung der Daten auf Zenodo, die Bereitstellung einzigartiger Identifikatoren, reichhaltiger Metadaten, umfassender Dokumentation und klarer Lizenzierung mit ein.
Datensätze sind langfristig verfügbar via Zenodo, dem wissenschaftlichen Archiv des Genfer Kernforschungszentrums CERN. Zenodo setzt die FAIR Prinzipien und Plan S um. Das CERN garantiert weiterhin, dass meine Forschung öffentlich verfügbar und sicher archiviert bleibt, ‘for as long as CERN exists’.
Jeder Datensatz ist einem individuellen, langzeit-stabilen Digital Object Identifier (DOI) gekennzeichnet, der auch als Link genutzt werden kann. Zenodo implementiert zudem DOI-Versionierung. Das übergreifende Konzept jedes Datensatzes ist mit einer Concept DOI gekennzeichnet, die immer die aktuellste Version verlinkt. Jede einzelne Version ist zudem mit einer Version DOI ausgestattet, die nur eine einzelne Version identefiziert und verlinkt. Für exakte Zitate und die wissenschaftliche Nutzung empfehle ich die Version DOI, in allen anderen Fällen die Concept DOI. Die folgenden Links nutzen alle die Concept DOI und verlinken immer die neueste Version.