Überblick Link to heading

Nach der Veröffentlichung von Netzwerkdaten für das Bundesverfassungsgericht (BVerfG) gibt es auch im Corpus der Entscheidungen des Bundesgerichtshofs (CE-BGH) neue Zitationsdaten!

Der Datensatz enthält nun eine deutlich überarbeitete spezialisierte Variante, die Zitate des Bundesgerichtshofs (BGH) zu seiner eigenen Rechtsprechung aus den Entscheidungstexten extrahiert und in strukturierter Form aufbereitet.

Das Zitationsnetzwerk umfasst in Version 2024-09-25 insgesamt:

  • ca. 600.000 Einzelzitate
  • ca. 440.000 Kanten (einfach gewichtete Zitierverbindungen)
  • ca. 100.000 Knoten (Aktenzeichen, BGHZ und BGHSt)

Diese Variante ist noch in der Beta-Testphase. Folgende Rechtsprechungszitate sind enthalten:

  • Zitate von Aktenzeichen zu Aktenzeichen
  • Zitate von Aktenzeichen zu BGHZ
  • Zitate von Aktenzeichen zu BGHSt

Zitate unter Angabe des Aktenzeichens sind weniger genau als Zitate zu konkreten Entscheidungen (bei denen Datum und ggf. Kollisionsziffer nötig sind). Im Datensatz sind allerdings 91,78 % aller ausgehenden Aktenzeichen einzigartig (unabhängig vom Datum), sodass das Aktenzeichen eine gute Näherung darstellt. Die Auflösung der Zitate auf Entscheidungsebene ist geplant und wird in Zukunft mitveröffentlicht.

Eingehende BGHZ- und BGHSt-Zitate können exakt einer eingehenden Entscheidung zugeordnet werden. Die Quell-Dokumente sind jedoch nur mit dem Aktenzeichen hinterlegt, um eine Konkordanz mit dem Rest des Datensatzes herzustellen. Die Auflösung von Quell-Dokumenten nach BGHZ/BGHSt ist mir leider nicht möglich, da ich aktuell keine Entsprechungstabelle zwischen amtlichen Sammlungen und Aktenzeichen/Datum-Zitaten habe.

Warnung
Zitierende Entscheidungen können nur solche sein, für die im Korpus der Volltext dokumentiert ist (d.h. normalerweise ab 2000). Zitierte Entscheidungen können aus der gesamten Rechtsprechung stammen (d.h. aus allen Jahren).

Visualisierung des Zitationsnetzwerks des 11. Zivilsenats (Bankensenat) Link to heading

Das gezeigte Diagramm visualisiert das Zitationsnetzwerk des 11. Zivilsenates (auch bekannt als der Bankensenat), d.h. eine Teilmenge der veröffentlichten Daten. Das gesamte Netzwerk ist vermutlich zu groß, um es in einem einzigen Diagramm unterzubringen.

Der zur Visualisierung verwendete Algorithmus ist Sugiyama.

Die weißen Punkte sind einzelne Aktenzeichen oder Entscheidungen der BGHZ, die Verbindungslinien sind Zitate. Mehrfachzitate zwischen Entscheidungspaaren sind hier nicht visualisiert, die Gewichte sind aber in den Netzwerkdaten enthalten.

Dieses Netzwerk ist streng hierarchisch, weil jüngere Entscheidungen immer nur ältere Entscheidungen zitieren können, nicht umgekehrt. Man liest das Digramm daher von oben nach unten.

Man könnte wegen der starken Verbindungen zwischen manchen Entscheidungsclustern auch sagen, dass sich damit “Linien der Rechtsprechung” aufdecken lassen. Die Forschung dazu steht aber noch am Anfang.

Info
Hochauflösende Fassungen beider Diagramme können Sie hier herunterladen.

Technische Hinweise Link to heading

Das Zitationsnetzwerk wird als GraphML-Datei angeboten und kann z.B. einfach in graphische Software wie Gephi importiert und ohne Programmierkenntnisse genutzt werden.

Formal handelt sich um einen gewichteten, gerichteten Graphen (Digraph). Die Anzahl der Knoten gibt die Anzahl der BGHZ-Entscheidungen, BGHSt-Entscheidungen und Aktenzeichen mit eingehenden und/oder ausgehenden Zitaten an. Die Anzahl der Kanten gibt die Anzahl der Knoten-Paare mit mindestens einem Zitat an. Die Gewichte der Kanten geben die Anzahl der Zitate zwischen Knoten an. Die Ausgangsstärke gibt die Summe aller einfachen Zitate an.

Number of Nodes Number of Edges Strength (Out) Mean Degree Max Degree Min Degree
101,474.00 441,884.00 593,154.00 8.71 559.00 0.00

Beachten Sie auch bitte folgende Punkte:

  • Das gesamte Netzwerk ist sehr groß und die Analyse ist daher ohne weitere Einschränkungen rechenintensiv und anspruchsvoll. In der Regel sollten Sie das Netzwerk auf die für Sie interessanten Teile reduzieren.
  • Zur Reduktion des Netzwerks auf eine handliche Größe stelle ich zwei Variablen bereit: den Senat und das Registerzeichen. Sie könnten beispielsweise über das Registerzeichen nur die Strafsenate betrachten oder über die Senatsangabe nur den Zivilsenat mit der für Sie interessanten Spezialmaterie.
  • Die Extraktion mit regular expressions ist nicht perfekt. Es kann daher sein, dass Zitate fehlen, wenn sie nicht als solche erkannt wurden, wegen Tippfehlern, ungewöhnlichem Textumfeld etc. Es ist aktuell unklar wieviele Zitate fehlen könnten, weil es keinen Goldstandard zum Abgleich gibt. Wenn Ihnen größere Fehlbestände auffallen, melden Sie sich bitte.

Methodik Aktenzeichen Link to heading

Dieser Datensatz enthält sowohl zitierte Aktenzeichen (Aktenzeichen-zu-Aktenzeichen-Zitate), als auch Zitate von Aktenzeichen zu BGHZ- und BGHSt-Entscheidungen (Aktenzeichen-zu-Sammlung-Zitate).

Aktenzeichen sind verhältnismäßig einfach zu erfassen. Bei den Aktenzeichen des BGH aber mit der Besonderheit, dass die Struktur zwischen nummerierten Senate (Zivil- und Strafsenate) und Spezialsenaten abweicht. Bei nummerierten Senaten steht am Anfang des Aktenzeichens die Senatsnummer (z.B XIII ZB 21/20). Bei Spezialsenaten entfällt diese und das Registerzeichen identifiziert den Senat zweifelsfrei (z.B. AnwZ (B) 12/99).

Die Funktion f.citation_network.R erstellt daher für jeden der beiden Fälle in mehreren Schritten eine komplexe REGEX, die jeweils die relevanten Registerzeichen in die Suche aufnimmt und arabische/römische Ziffern bei den nummerierten Senaten voranstellt. Der Source Code ist zu komplex um ihn hier im Detail zu besprechen, sehen Sie sich bei Interesse bitte die Funktion genauer an.

Um konkrete Entscheidungen zu zitieren müsste zusätzlich zum Aktenzeichen noch das Datum berücksichtigt werden. Weil dies die REGEX deutlich komplizierter macht, ist dieser Schritt noch in Arbeit. Im Datensatz sind allerdings 91.78 % aller ausgehenden Aktenzeichen einzigartig (unabhängig vom Datum), sodass das Aktenzeichen eine gute Näherung darstellt.

Methodik BGHZ und BGHSt Link to heading

Die Zitate zu den amtlichen Sammlungen BGHZ und BGHSt werden aus dem Volltext in einem Zwei-Stufen-Verfahren extrahiert, ähnlich wie in Coupette, Juristische Netzwerkforschung (Mohr Siebeck 2019), S. 241–244.

Erste Stufe Link to heading

In der ersten Stufe werden die Zitierblöcke lokalisiert und aus dem Volltext gesammelt. Es wird die starke Annahme getroffen, dass Zitierblöcke mit “BGHZ” oder “BGHSt” (ignoriert Groß- und Kleinschreibung) eingeleitet werden und nur Whitespace, Zahlen, gewisse Sonderzeichen und gewisse Buchstaben enthalten.

Zitierblöcke enden in der Regel mit einer runden Klammer, die in der REGEX nicht enthalten ist, um sie als Grenzzeichen zu nutzen. Auch Gleichheitszeichen (=) sind nicht enthalten, damit die REGEX vor einem Hinweis auf einen alternative Abdruck abbricht.

Die konkreten regular expressions (REGEX) sind die folgenden:

1"BGHZ[\\s\\d\\[\\];,\\.<>Rnfu-]+" # BGHZ
2"BGHSt[\\s\\d\\[\\];,\\.<>Rnfu-]+" # BGHSt

Ein gefundener Zitierblock sieht beispielsweise so aus:

BGHZ 133, 254, 259 ff.; 152, 331, 337; 159, 280, 287 f.; 167, 252, 256

Zweite Stufe Link to heading

In der zweiten Stufe werden aus allen Zitierblöcken die einzelnen Zitate extrahiert, standardisiert und mit der Ausgangsentscheidung verbunden. Die Extraktion trifft die starke Annahme, dass eine Entscheidung der amtlichen Sammlungen entweder mit “BGHZ” bzw. “BGHSt” oder bei einem Mehrfachzitat in einem Zitierblock mit einem Semikolon eingeleitet wird. Folgende REGEX kommen dabei zum Einsatz:

1# BGHZ
2regex.cite <- paste0("(BGHZ|;)\\s*", # hooks
3                     "\\d{1,3},\\s*", # Volume
4                     "\\d{1,3}") # Page
5
6print(regex.cite)
1## [1] "(BGHZ|;)\\s*\\d{1,3},\\s*\\d{1,3}"
1# BGHSt
2regex.cite <- paste0("(BGHSt|;)\\s*", # hooks
3                     "\\d{1,3},\\s*", # Volume
4                     "\\d{1,3}") # Page
5
6print(regex.cite)
1## [1] "(BGHSt|;)\\s*\\d{1,3},\\s*\\d{1,3}"

Damit findet man zwei Varianten von Einzelzitaten, bespielsweise:

  • “BGHZ 133, 254”
  • “; 152, 331”

Die Einzelzitate werden anschließend bereinigt und standardisiert. Zum Ende hin werden Selbstzitate entfernt und Metadaten hinzugefügt.

Grenzen Link to heading

Die Extraktion mit regulären Ausdrücken hat Grenzen. Insbesondere folgende Probleme führen zur Nichterkennung von Zitaten:

  • Tippfehler (außer Groß- und Kleinschreibung)
  • Unregelmäßge Zitierweise
  • Verkürzte Schreibweise wie in BVerfGE 60, 162: “BVerfGE 3, 19 (27), 383 (394); 4, 375 (381 f.);” — das Beispiel stammt von Coupette (2019: 246)
  • Einfügung von Entscheidungsnamen wie in BVerfGE 42, 143: “BVerfGE 7, 198 (205ff) - Lüth -; 18, 85 (92f); 30, 173 (187f, 196f) - Mephisto -; 32, 311 (316)” — das Beispiel stammt ebenfalls von Coupette (2019: 246)

Mehr zu juristische Zitationsnetzwerken Link to heading

Interesse an weiteren Zitationsdaten für deutsche Bundesgerichte? Für das Bundesverfassungsgerichts (BVerfG) habe ich ein ähnliches Zitationsnetzwerk veröffentlicht.

Die Arbeit von Professor Dr. Dr. Corinna Coupette ist immer einen Blick wert und steht an der Spitze der aktuellen Forschung zu juristischen Netzwerken (v.a. mit Bezug zu Deutschland).