- [Open Access] Entscheidungen des Bundesgerichtshofs in Strafsachen aus dem 20. Jahrhundert (BGH-Strafsachen-20Jhd)
- [Open Access] Source Code auf Zenodo
- [Open Access] GitHub Repository
Neuer Datensatz verfügbar! Link to heading
Tilko Swalve und ich freuen uns die Veröffentlichung eines neuen Datensatzes bekanntgeben zu können!
Wir haben über 36.000 strafrechtliche Entscheidungen des Bundesgerichtshofs (BGH) aus den Jahren 1950–1999 zusammengestellt, sortiert, aufbereitet und als Datensatz frei abrufbar veröffentlicht (Open Access).
Diese Daten sind extrem selten, denn umfangreiche Sammlungen alter Entscheidungen deutscher Gerichte sind fast nur kommerziell verfügbar — wenn überhaupt. Für den deutschen Rechtsstaat sind sie aber besonders wertvoll, denn das Strafrecht greift tief in die Rechte der Bürger:innen ein. Der Bundesgerichsthof stellt seit 1950 strafrechtliche Leitlinien für ganz Deutschland auf.1
Der BGH veröffentlicht bedauerlichweise erst ab dem Jahr 2000 seine Entscheidungen regulär im Internet. Viele wichtige Präzedenzfälle und Leitentscheidungen blieben daher bisher der Öffentlichkeit vorenthalten. Sie konnten nur gegen exorbitante Gebühren bei kommerziellen Verlagen eingesehen werden.
Wir ändern das. Jetzt.
Über den Datensatz Link to heading
Der Datensatz Entscheidungen des Bundesgerichtshofs in Strafsachen aus dem 20. Jahrhundert (BGH-Strafsachen-20Jhd) ist eine möglichst vollständige Sammlung der durch den Bundesgerichtshof in Strafsachen getroffenen Entscheidungen vom 1. Oktober 1950 (Gründung des BGH) bis zum 1. Januar 2000 — dem Zeitpunkt ab dem der BGH digitale Entscheidungen regulär veröffentlicht. Aktuell sind 36.316 Entscheidungen enthalten.
Der Datensatz nutzt als seine Datenquelle eine vom Bundesgerichtshof den Autoren übergebene digitale Sammlung dieser Entscheidungen und bereitet diese wissenschaftlich auf.
Enthalten sind Entscheidungen der Strafsenate 1 bis 5 aus den Jahren 1950 bis 1999. Für den von 1954 bis 1956 bestehenden 6. Strafsenat liegen keine Daten vor.
Der Datensatz wird in maschinenlesbaren Formaten (TXT und CSV) angeboten, enthält aber auch die PDF-Rohdaten. Wir möchten damit Transparenz in der Herstellung schaffen, aber auch traditionell arbeitenden Rechtswissenschaftler:innen ein für sie technisch vertrautes Angebot machen.
Features Link to heading
- Insgesamt bis zu 31 Variablen in der CSV-Variante
- Datenmodell kompatibel mit dem Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH)
- Urheberrechtsfreiheit (CC0)
- Offene und plattformunabhängige Formate (PDF, TXT, CSV)
- Optische Zeichenerkennung und Bereinigung einiger juristisch relevanter OCR-Fehler
- Hochwertige, aussagekräftige Dateinamen für die tägliche Praxis
- Verknüpfung mit PräsidentIn/Vize-PräsidentIn
- Linguistische Kennzahlen
- Umfangreiches Codebook
- Compilation Report um den Erstellungs-Prozess zu erläutern
- Dutzende Diagramme und Tabellen für alle Zwecke (im ZIP-Archiv ‘ANALYSE’)
- Diagramme liegen jeweils in einem für den Druck (PDF) und das Web (PNG) optimierten Format vor
- Tabellen sind im CSV-Format bereitgestellt und sind damit sowohl für Menschen als auch für Maschinen gut lesbar
- Kryptographische Signaturen
- Veröffentlichung des Source Codes
Inhalt des Datensatzes Link to heading
Nach Entscheidungsjahr Link to heading
Nach Spruchkörper Link to heading
Nach Präsident:in Link to heading
Workflow Link to heading
Die Daten-Pipeline führt unter anderem folgende Arbeitsschritte aus:
- Bereinigung der Dateinamen
- Korrektur falscher Rotationen, Standardisierung im Hochformat
- Optische Zeichenerkennung (OCR)
- Automatisierte Bereinigung von OCR-Fehlern mit Ersetzungstabelle
- Extraktion zusätzlicher Variablen
- Erstellung nutzungsfertiger ZIP-Archive
- Umfangreiche Dokumentation
- Automatisierte Unit Tests und statistisches Reporting
- Kryptographische Signaturen
Varianten und Zielgruppen Link to heading
Überblick Link to heading
Dieser Datensatz ist in verschiedenen Varianten verfügbar, die sich an unterschiedliche Zielgruppen richten. Zielgruppe sind sowohl quantitativ forschende Rechtswissenschaftler:innen, als auch traditionell arbeitende Jurist:innen. Idealerweise müssen quantitative Methoden ohnehin immer durch qualitative Interpretation, Theoriebildung und kritische Auseinandersetzung verstärkt werden (mixed methods approach).
Lehrende werden von den vorbereiteten Tabellen und Diagrammen besonders profitieren, die bei der Erläuterung der Charakteristika der Daten hilfreich sein können und Zeit im universitären Alltag sparen. Alle Tabellen und Diagramme liegen auch als separate Dateien vor, um sie einfach z.B. in Präsentationsfolien oder Handreichungen zu integrieren.
CSV_Datensatz Link to heading
Diese CSV-Datei ist die für statistische Analysen bedeutendste Variante des Datensatzes. Sie enthält den Volltext aller Entscheidungen, sowie alle in diesem Codebook beschriebenen Metadaten.
Jede Spalte entspricht einer Variable, jede Zeile einer Entscheidung. Über Zeilenumbrüche getrennte Wörter im Text wurden zusammengefügt.
Empfohlen für quantitative Forschung und Legal Tech-Anwendungen.
CSV_Metadaten Link to heading
Wie die andere CSV-Variante, nur ohne die Entscheidungstexte. Sinnvoll für Analyst:innen, die sich für die Metadaten interessieren und Speicherplatz sparen wollen. Jede Spalte entspricht einer Variable, jede Zeile einer Entscheidung.
PDF Link to heading
Die PDF-Dokumente wie sie den Autoren durch den BGH zur Verfügung gestellt wurden, jedoch verbessert durch semantisch hochwertige Dateinamen, die der leichteren Auffindbarkeit von Entscheidungen dienen. Die PDF-Dateien wurden nach Senaten in mehrere ZIP-Archive aufgeteilt, um kleinere Downloads zu ermöglichen.
Die Dateinamen sind so konzipiert, dass sie auch für die traditionelle qualitative juristische Arbeit einen erheblichen Mehrwert bieten. Im Vergleich zu den CSV-Dateien enthalten die Dateinamen nur einen reduzierten Umfang an Metadaten, um Kompatibilitätsprobleme zu vermeiden und die Lesbarkeit zu verbessern.
TXT Link to heading
Diese Variante enthält die vollständigen, aus den PDF-Dateien mittel optischer Zeichenerkennung (OCR) extrahierten Entscheidungstexte, aber nur einen reduzierten Umfang an Metadaten, der dem der PDF-Dateien entspricht. Die TXT-Dateien sind optisch an das Layout der PDF-Dateien angelehnt. Der Inhalt ist identisch mit der “text”-Variable der CSV-Datei.
Geeignet für qualitativ arbeitende Forscher:innen, die nur wenig Speicherplatz oder eine langsame Internetverbindung zur Verfügung haben. Sie sind zudem eine Alternative für quantitativ arbeitende Forscher:innen, die beim Einlesen der CSV-Dateien Probleme haben.
Analyse Link to heading
Dieses Archiv enthält alle während dem Kompilierungs- und Prüfprozess erstellten Tabellen (CSV) und Diagramme (PDF, PNG) im Original. Sie sind inhaltsgleich mit den in diesem Codebook verwendeten Tabellen und Diagrammen.
Das PDF-Format eignet sich besonders für die Verwendung in gedruckten Publikationen, das PNG-Format besonders für die Darstellung im Internet. Analyst:innen mit fortgeschrittenen Kenntnissen in R können auch auf den Source Code der Diagramme zurückgreifen.
Empfohlen für Nutzer:innen die einzelne Inhalte aus dem Codebook für andere Zwecke (z.B. Präsentationen, eigene Publikationen) weiterverwenden möchten.
Grenzen des Datensatzes Link to heading
Nutzer:innen sollten folgende wichtige Grenzen beachten:
- Der Datensatz enthält nur begründete Entscheidungen (publication bias). Unbegründete Entscheidungen machen den Löwenanteil der Praxis des BGH aus und sind nicht enthalten.
- Erst ab dem 1. Januar 2000 sind begründete Entscheidungen des Bundesgerichtshofs einigermaßen vollständig veröffentlicht (temporal bias). Die hier veröffentlichten Entscheidungen sind alles, was der BGH an Dr. Tilko Swalve übergeben wollte bzw. konnte. Wir hatten darüber hinaus keine Möglichkeit die Vollständigkeit zu prüfen.
- Die Digitalisierung mit optischer Zeichenerkennung (OCR) via Tesseract funktioniert sehr gut wenn die Scans gut sind, aber schlecht wenn die Scans schlecht sind (OCR bias). Die Qualität der digitalen Texte ist daher für viele Entscheidungen ungenau bis unbrauchbar. Behalten Sie diesen Punkt unbedingt im Hinterkopf bei NLP-Anwendungen, insbesondere bei extrahierten Variablen wie dem im Datensatz enthaltenen Entscheidungsdatum und darauf aufbauenden Variablen (Präsident:innen, usw.).
Urheberrechtsfreiheit von Rohdaten und Datensatz Link to heading
An den Entscheidungstexten und amtlichen Leitsätzen besteht gem. § 5 Abs. 1 UrhG kein Urheberrecht, da sie amtliche Werke sind. § 5 UrhG ist auf amtliche Datenbanken analog anzuwenden (BGH, Beschluss vom 28.09.2006, I ZR 261/03, “Sächsischer Ausschreibungsdienst”).
Alle eigenen Beiträge (z.B. durch Zusammenstellung und Anpassung der Metadaten) und damit den gesamten Datensatz stellen die Autor:innen gemäß einer CC0 1.0 Universal Public Domain Lizenz vollständig urheberrechtsfrei.
Über den Bundesgerichtshof (BGH) Link to heading
Der Bundesgerichtshof (BGH) ist einer der fünf obersten Gerichtshöfe des Bundes und steht an der Spitze der ordentlichen Gerichtsbarkeit der Bundesrepublik Deutschland (Art. 95 Abs. 1 GG, §§ 12, 13 GVG).2 Der BGH ist die höchste Instanz in Zivil- und Strafsachen, sowie in einigen ihm zugewiesenen Spezialgebieten. Er wurde am 1. Oktober 1950 errichtet und hat seinen Sitz in Karlsruhe (§ 123 GVG). Der 5. und 6. Strafsenat sind allerdings in Leipzig beheimatet.
Im Jahr 2024 am BGH eingerichtet sind 13 Zivilsenate, 6 Strafsenate, und 8 Spezialsenate (6 berufsrechtliche Senate, Kartellsenat und Landwirtschaftsenat), sowie ein Großer Zivilsenat, ein Großer Strafsenat und die Vereinigten Großen Senate.3 Ein Senat hat grundsätzlich 7 bis 9 Mitglieder, entscheidet aber als Spruchkörper in Senatsgruppen von 5 Mitgliedern einschließlich des/der Vorsitzenden (§ 139 Abs. 1 GVG). Der 6. Strafsenat bestand zunächst von 1954 bis 1956 und wurde erst 2020 wiedererrichtet.
Die überwiegende Anzahl der Verfahren vor dem BGH sind Revisionen, d.h. die Überprüfung von Entscheidungen unterer Instanzen (Landgerichte oder Oberlandesgerichte, Amtsgericht nur bei Sprungrevision) auf Rechtsfehler ohne erneute Beweisaufnahme. In Strafsachen ist er zuständig für Revisionen, Beschwerden gegen Beschlüsse und Verfügungen der Oberlandesgerichte, Beschwerden gegen Verfügungen des Ermittlungsrichters am BGH und Rügen der Besetzung eines Oberlandesgerichts (§ 135 GVG).
-
Streng genommen erst seit dem Einigungsvertrag, aber weil der BGH nach der Wiedervereinigung auch der oberste Gerichtshof in Strafsachen für die neuen Bundesländer wurde, finde ich es fair davon zu sprechen, dass er “seit 1950 Leitlinien für ganz Deutschland” aufstellt. ↩︎
-
Die “ordentliche Gerichtsbarkeit” ist eine historische gewachsene Bezeichnung. Früher war die Verwaltungsgerichtsbarkeit nicht mit unabhängigen Richtern, sondern mit Verwaltungsbeamten besetzt und daher “außerordentlich”. Die mit unabhängigen Richtern besetzten Gerichte wurden als “ordentlich” bezeichnet. ↩︎
-
Geschäftsverteilungsplan des Bundesgerichtshofs für das Jahr 2024. ↩︎