Wie fange ich mit Legal Data Science an?

Info
Alle Publikationen mit Link sind Open Access!

Überblick Link to heading

Eine Frage die mir oft gestellt wird: wie fange ich mit Legal Data Science an?

Data Science besteht grob aus drei Teilbereichen (Conway):

  1. Programmieren
  2. Statistik und andere Mathematik
  3. Domänenkenntnis (z.B. Jura)

Legal Data Science ist also die Anwendung von datenwissenschaftlichen Methoden in der juristischen Domäne. Man liest oft auch verwandte Begriffe wie “Computational Legal Studies” oder “quantitative Rechtswissenschaft”, die im Kern aber die gleichen Methoden und Forschungsinteressen abdecken.

Jurist:innen sind also eigentlich schon zu einem Drittel dort wo sie hinmöchten. Die anderen Teilgebiete sind aber riesig und wirken wie ein Buch mit sieben Siegeln. Wie können Jurist:innen sich hier fortbilden?

Zwei klare Empfehlungen:

  1. Allgemeine Data Science Literatur durcharbeiten (siehe unten)
  2. Eigene Projekte starten, so schnwll wie möglich (müssen nicht öffentlich sein!)

Allgemeine Data Science Literatur vermittelt gleichzeitig Programmierkenntnisse und grundlegende Statistikkenntnisse. Viele hervorragende Bücher sind kostenlos und Open Access im Internet vorhanden.1 Gute Statistik-Bücher sind eher nur kommerziell verfügbar, aber auch hier sehe ich immer mehr Open Access. Spezielle Statistik-Bücher sind aber auch erst ab einem fortgeschrittenen Niveau notwendig.

Wieso eigene Projekte starten, bevor man überhaupt “gut” ist? Ganz einfach: man muss viel schlechten Code schreiben, um guten Code schreiben zu können. Und: je nützlicher die Probleme für die eigene Arbeit sind, desto motivierter ist man. Niemand wird an einem Wochenende zum Profi. Expertise aufzubauen benötigt in jeder Disziplin Zeit, gezielte Übung und Durchhaltevermögen.

Inhaltsverzeichnis Link to heading

Warum Programmieren und Statistik lernen? Link to heading

Warum sollten Sie Programmieren und Statistik lernen? Sie sind doch Jurist:in und wollen gar nicht zur Programmierer:in oder Statistiker:in werden!

Könnten Sie nicht auch einfach Ihre dogmatische Heimat im “Recht der Digitalisierung” wählen und fleißig über Legal Data Science bzw. Legal Tech reden?

Nein. Und zwar darum:

  1. Liefern, statt labern. Regulierung ist wichtig, aber Digitalisierung passiert ganz überwiegend durch Code und Mathematik, nicht durch clever argumentierte juristische Fachaufsätze. Es hat schon seine Gründe, warum die Rechtsinformatik als “tot” gilt (Thomas Hoeren) und der Hype im Legal Tech-Bereich seit Jahren kaum echte Fortschritte hervorbringt.
  2. Halbwissen ist gefährlich, willentliches Nichtwissen ist gefährlicher. Jurist:innen müssen oder wollen in vielen Konstellationen empirische Aussagen nutzen bzw. statistisch begründete Sachverhalte bearbeiten und darüber entscheiden. Zurückhaltung ist oft nicht erlaubt (Entscheidungszwang der Gerichte) oder erwünscht (ökonomische Zwänge der Anwaltschaft). Der einzig gangbare Weg, um die Qualität der Entscheidungen und Beratung zu sichern ist soviel Fortbildung wie möglich.
  3. Sicherung der Unabhängigkeit. Die Moderne rollt mit Corona, Klimawandel und ChatGPT unaufhaltsam über Sie hinweg. Sie können sich entweder in die Dogmatik zurückziehen und sich von Sachverständigen den Sachverhalt diktieren lassen (wenn Sie denn welche finden) oder genug Wissen erwerben, um aktuelle empirische und technische Erkenntnisse selbständig kritisch würdigen zu können. Im täglichen Geschäft fehlt Ihnen aber die Zeit um komplizierte Methoden zu lernen. Ohne Methodenkenntnis haben Sie aber kaum eine Chance sich in einem realistischem Zeitrahmen in empirische oder gar mathematische Details einzuarbeiten.

Einführende Texte Link to heading

Podcasts Link to heading

Die Programmiersprache ‘R’ Link to heading

Einführungen zu R Link to heading

Der Pirate’s Guide to R ist sehr unterhaltsam, klare Empfehlung. Ich habe auch selbst damit gelernt. R for Data Science ist die klassische Open Access Einführung.

Hilfreiche Nachschlagewerke Link to heading

Für viele klassische Probleme in der Datenanalyse gibt es hervorragende Nachschlagewerke, die jeweils eine gute Lösung mit Code vorschlagen. From Data to Viz und die R Graph Gallery sind auch für mich die erste Anlaufstelle, wenn ich neue Diagramme ausprobieren möchte. Das R Cookbook ist ein absoluter Klassiker für Standardprobleme.

Wie kann man R nutzen? Link to heading

R kann man zwar direkt in der Kommandozeile nutzen, aber eine integrierte Entwicklungsumgebung (IDE) unterstützt Sie mit Tips, hilfreichen Code-Vorschlägen und macht Ihnen das Leben allgemein VIEL einfacher.

Anfänger:innen empfehle ich R Studio, meine persönlichen Lieblings-Tools finden Sie hier. R Studio gibt es auch als Cloud-Lösung und kann eine Alternative darstellen, wenn der Datenschutz es in Ihrem Fall zulässt.

  • R und R Studio lokal installieren: Installing R and R Studio [Empfehlung zum Einstieg]
  • R in der Cloud nutzen: Posit Cloud [kostenlose Accounts möglich]
  • R im Browser lokal nutzen: WebR [nur für Demo-Zwecke]
  • R im Browser remote nutzen: MyCompiler [nur für Demo-Zwecke]

Vertiefung für R Link to heading

Statistik Link to heading

Einführung Statistik Link to heading

Kausalitätsforschung (Causal Inference) Link to heading

Vertiefung Statistik Link to heading

Netzwerkanalyse Link to heading

Open Legal Data Link to heading

Wo bekommen Sie juristische Daten für Übung und Forschung?

Falls Sie mit juristischen Textdaten arbeiten möchten, habe ich aus eigener Feder über ein Dutzend frei nutzbare Datensätze veröffentlicht, insbesondere mit Bezug zum deutschen Recht (z.B. BVerfG, BGH, IGH, usw.): https://seanfobbe.com/de/data/

Das Liquid Legal Institute hat eine deutlich umfangreichere Liste mit Datensätzen vieler Autor:innen (auch aus dem Ausland) auf GitHUb veröffentlicht.

Warum R und nicht Python? Link to heading

Wieso nur Materialien zu R und nicht zu Python? Link to heading

Python und R sind die beiden wichtigsten Programmiersprachen im Data Science-Bereich. Python wird aber von deutlich mehr Menschen benutzt und wäre damit im juristischen Jargon “herrschende Meinung”.

Zunächst, vor allem aus pragmatischen Gründen: ich arbeite selber überwiegend mit R und sehr selten mit Python. Zu R kann ich gute Tips geben, zu Python nicht. Für Ratschläge zu Python sind die Kolleg:innen von der Bucerius Law School definitiv die besseren Ansprechpartner:innen.

Es gibt aber auch noch weitere Gründe:

  • R wurde für Nicht-Programmierer:innen entwickelt, Python setzt mehr Computerwissen voraus und ist daher bei Informatiker:innen beliebt
  • Die R Community ist sehr offen und freundlich, ein Quereinstieg aus anderen Disziplinen ist die Norm
  • Für viele statistische Routine-Aufgaben sind schon eingebaute Funktionen vorhanden, für die man bei Python erst mühsam Packages (d.h. Erweiterungen) suchen und lernen muss
  • R wird ist in den wissenschaftlichen Disziplinen weit verbreitet, an denen ich mich orientiere (Statistik, Friedensforschung, Politikwissenschaften, Pychologie)
  • R ist stärker in der High-End Statistik und der Datenvisualisierung, Python im Machine Learning (die Unterschiede sind aber nur an der bleeding edge relevant)
  • Die Verwaltung und Versionierung von Python-Umgebungen ist ein absoluter Albtraum (siehe XKCD No. 1987)
XKCD No. 1987: Python Environment

XKCD No. 1987: Python Environment

Welche Sprache ist also die Beste für Sie? Link to heading

Für die allermeisten Jurist:innen ohne große Ambitionen ist die Antwort relativ einfach: probieren Sie beide aus und nutzen Sie die, die Ihnen intuitiver und angenehmer zu nutzen erscheint. Die Nutzbarkeit schließt auch die Vor- und Nachteile der jeweils üblichen Entwicklungsumgebungen mit ein (z.B. R Studio vs PyCharm), die Qualität der Dokumentation und die Möglichkeit Fragen zu stellen und Antworten zu bekommen.

Wenn Sie eine Karriere im Data Science-Bereich anstreben ist die Frage wichtiger und die Antwort wird davon abhängen, mit wem Sie vor allem zusammenarbeiten möchten. Wenn Sie vor allem mit Informatiker:innen im Bereich Machine Learning arbeiten ist Python sinnvoll. Wenn Sie mit Politikwissenschafter:innen oder Psycholog:innen arbeiten ist R besser.

Zuerst auf das “falsche Pferd” zu setzen ist aber keine Tragödie, die zweite Sprache lernt man viel schneller als die erste und viele wichtige Konzepte des Programmierens (Schleifen, Funktionen, formale Logik, Mengenlerhre, REGEX) sind nicht sprachspezifisch.2 Das Gleiche gilt für die Mathematik: Mathematik ist überall die gleiche Mathematik.


  1. Viele Open Access Bücher sind auch gedruckt erhältlich. Bei Gefallen kann man das Buch natürlich im Nachhinein zusätzlich physisch bzw. als E-Book erwerben und den Autor:innen dadurch seine Wertschätzung ausdrücken. ↩︎

  2. Die Implementierungen unterscheiden sich natürlich in manchen Details und in der Syntax, aber die Konzepte als solche sind grundsätzlich die Gleichen und können abstrakt verstanden und gelernt werden. ↩︎