Wie fange ich mit Legal Data Science an?
Überblick Link to heading
Eine Frage die mir oft gestellt wird: wie fange ich mit Legal Data Science an?
Data Science besteht grob aus drei Teilbereichen (Conway):
- Programmieren
- Statistik und andere Mathematik
- Domänenkenntnis (z.B. Jura)
Legal Data Science ist also die Anwendung von datenwissenschaftlichen Methoden in der juristischen Domäne. Man liest oft auch verwandte Begriffe wie “Computational Legal Studies” oder “quantitative Rechtswissenschaft”, die im Kern aber die gleichen Methoden und Forschungsinteressen abdecken.
Jurist:innen sind also eigentlich schon zu einem Drittel dort wo sie hinmöchten. Die anderen Teilgebiete sind aber riesig und wirken wie ein Buch mit sieben Siegeln. Wie können Jurist:innen sich hier fortbilden?
Zwei klare Empfehlungen:
- Allgemeine Data Science Literatur durcharbeiten (siehe unten)
- Eigene Projekte starten, so schnwll wie möglich (müssen nicht öffentlich sein!)
Allgemeine Data Science Literatur vermittelt gleichzeitig Programmierkenntnisse und grundlegende Statistikkenntnisse. Viele hervorragende Bücher sind kostenlos und Open Access im Internet vorhanden.1 Gute Statistik-Bücher sind eher nur kommerziell verfügbar, aber auch hier sehe ich immer mehr Open Access. Spezielle Statistik-Bücher sind aber auch erst ab einem fortgeschrittenen Niveau notwendig.
Wieso eigene Projekte starten, bevor man überhaupt “gut” ist? Ganz einfach: man muss viel schlechten Code schreiben, um guten Code schreiben zu können. Und: je nützlicher die Probleme für die eigene Arbeit sind, desto motivierter ist man. Niemand wird an einem Wochenende zum Profi. Expertise aufzubauen benötigt in jeder Disziplin Zeit, gezielte Übung und Durchhaltevermögen.
Inhaltsverzeichnis Link to heading
Warum Programmieren und Statistik lernen? Link to heading
Warum sollten Sie Programmieren und Statistik lernen? Sie sind doch Jurist:in und wollen gar nicht zur Programmierer:in oder Statistiker:in werden!
Könnten Sie nicht auch einfach Ihre dogmatische Heimat im “Recht der Digitalisierung” wählen und fleißig über Legal Data Science bzw. Legal Tech reden?
Nein. Und zwar darum:
- Liefern, statt labern. Regulierung ist wichtig, aber Digitalisierung passiert ganz überwiegend durch Code und Mathematik, nicht durch clever argumentierte juristische Fachaufsätze. Es hat schon seine Gründe, warum die Rechtsinformatik als “tot” gilt (Thomas Hoeren) und der Hype im Legal Tech-Bereich seit Jahren kaum echte Fortschritte hervorbringt.
- Halbwissen ist gefährlich, willentliches Nichtwissen ist gefährlicher. Jurist:innen müssen oder wollen in vielen Konstellationen empirische Aussagen nutzen bzw. statistisch begründete Sachverhalte bearbeiten und darüber entscheiden. Zurückhaltung ist oft nicht erlaubt (Entscheidungszwang der Gerichte) oder erwünscht (ökonomische Zwänge der Anwaltschaft). Der einzig gangbare Weg, um die Qualität der Entscheidungen und Beratung zu sichern ist soviel Fortbildung wie möglich.
- Sicherung der Unabhängigkeit. Die Moderne rollt mit Corona, Klimawandel und ChatGPT unaufhaltsam über Sie hinweg. Sie können sich entweder in die Dogmatik zurückziehen und sich von Sachverständigen den Sachverhalt diktieren lassen (wenn Sie denn welche finden) oder genug Wissen erwerben, um aktuelle empirische und technische Erkenntnisse selbständig kritisch würdigen zu können. Im täglichen Geschäft fehlt Ihnen aber die Zeit um komplizierte Methoden zu lernen. Ohne Methodenkenntnis haben Sie aber kaum eine Chance sich in einem realistischem Zeitrahmen in empirische oder gar mathematische Details einzuarbeiten.
Einführende Texte Link to heading
- Fobbe, Legal Data Science, Teil I— Was ist das? (Legal Tribune Online 2022)
- Fobbe, Legal Data Science, Teil II — Wie man sie nutzen kann (Legal Tribune Online 2022)
- Fobbe, Open Legal Data: Das Fundament des Rechtsstaates (VOTUM 2021)
- Fobbe, Juristische Netzwerkdaten für Einsteiger (RECHTS|EMPIRIE 2021)
- Hamann, Womit müssen Juristen rechnen? (RECHTS|EMPIRIE 2019)
- Fleckner und Coupette, Quantitative Rechtswissenschaft: Sammlung, Analyse und Kommunikation juristischer Daten, Juristenzeitung 73 (2018), 379–389.
Podcasts Link to heading
- Fobbe und Brügmann, Die Arbeit eines juristischen Datendetektivs (Rechtsgespräch 2023)
- Fobbe und Molina, Was Legal Data Science ist und warum sich alle Jurist:innen damit beschäftigen sollten — mit dem Daten-Detektiv Seán Fobbe (Talking Legal Tech 2022)
Die Programmiersprache ‘R’ Link to heading
Einführungen zu R Link to heading
Der Pirate’s Guide to R ist sehr unterhaltsam, klare Empfehlung. Ich habe auch selbst damit gelernt. R for Data Science ist die klassische Open Access Einführung.
- Philips, YaRrr! The Pirate’s Guide to R (2018)
- Wickham and Grolemund, R for Data Science, 1st edition (2017)
- Wickham, Cetinkaya-Rundel and Grolemund, R for DataScience, 2nd edition (2023, work in progress)
- Alschner, Data Science for Lawyers (2022)
Hilfreiche Nachschlagewerke Link to heading
Für viele klassische Probleme in der Datenanalyse gibt es hervorragende Nachschlagewerke, die jeweils eine gute Lösung mit Code vorschlagen. From Data to Viz und die R Graph Gallery sind auch für mich die erste Anlaufstelle, wenn ich neue Diagramme ausprobieren möchte. Das R Cookbook ist ein absoluter Klassiker für Standardprobleme.
- Holtz, From Data to Viz
- Holtz, R Graph Gallery - Help and inspiration for R charts
- Long and Teetor, R Cookbook (O’Reilly 2019, 2nd ed)
- Chang, R Graphics Cookbook (O’Reilly 2023)
Wie kann man R nutzen? Link to heading
R kann man zwar direkt in der Kommandozeile nutzen, aber eine integrierte Entwicklungsumgebung (IDE) unterstützt Sie mit Tips, hilfreichen Code-Vorschlägen und macht Ihnen das Leben allgemein VIEL einfacher.
Anfänger:innen empfehle ich R Studio, meine persönlichen Lieblings-Tools finden Sie hier. R Studio gibt es auch als Cloud-Lösung und kann eine Alternative darstellen, wenn der Datenschutz es in Ihrem Fall zulässt.
- R und R Studio lokal installieren: Installing R and R Studio [Empfehlung zum Einstieg]
- R in der Cloud nutzen: Posit Cloud [kostenlose Accounts möglich]
- R im Browser lokal nutzen: WebR [nur für Demo-Zwecke]
- R im Browser remote nutzen: MyCompiler [nur für Demo-Zwecke]
Vertiefung für R Link to heading
- Wickham, ggplot2: Elegant Graphics for Data Analysis (Springer 2023, 3rd ed)
- Puschmann, Automatisierte Inhaltsanalyse mit R
- Wickham, Advanced R (Chapman & Hall 2019)
- Baruffa, The Big Book of R (2023)
- Burns, The R Inferno (2011)
Statistik Link to heading
Einführung Statistik Link to heading
- Agresti, Statistical Methods for the Social Sciences (Pearson 2017, 5th ed)
- McElreath, Statistical Rethinking (CRC Press 2020, 2nd ed)
- Johnson, Ott and Dogucu, Bayes Rules! An Introduction to Applied Bayesian Modeling (CRC Press 2022)
Kausalitätsforschung (Causal Inference) Link to heading
- Ho & Rubin (2011). Credible causal inference for empirical legal studies. Annual Review of Law and Social Science, 7(1), 17-40.
- Huntington-Klein, The Effect: An Introduction to Research Design and Causality (Chapman and Hall 2022)
- McElreath, Statistical Rethinking (CRC Press 2020, 2nd ed)
- Pearl & Mackenzie, The Book of Why (Basic Books 2018)
Vertiefung Statistik Link to heading
- Lakens, Improving Your Statistical Inferences (2022)
Netzwerkanalyse Link to heading
- Coupette, Juristische Netzwerkforschung: Modellierung, Quantifizierung und Visualisierung relationaler Daten im Recht (Mohr Siebeck 2019)
- Zweig, Network Analysis Literacy (Springer 2016)
Open Legal Data Link to heading
Wo bekommen Sie juristische Daten für Übung und Forschung?
Falls Sie mit juristischen Textdaten arbeiten möchten, habe ich aus eigener Feder über ein Dutzend frei nutzbare Datensätze veröffentlicht, insbesondere mit Bezug zum deutschen Recht (z.B. BVerfG, BGH, IGH, usw.): https://seanfobbe.com/de/data/
Das Liquid Legal Institute hat eine deutlich umfangreichere Liste mit Datensätzen vieler Autor:innen (auch aus dem Ausland) auf GitHUb veröffentlicht.
Warum R und nicht Python? Link to heading
Wieso nur Materialien zu R und nicht zu Python? Link to heading
Python und R sind die beiden wichtigsten Programmiersprachen im Data Science-Bereich. Python wird aber von deutlich mehr Menschen benutzt und wäre damit im juristischen Jargon “herrschende Meinung”.
Zunächst, vor allem aus pragmatischen Gründen: ich arbeite selber überwiegend mit R und sehr selten mit Python. Zu R kann ich gute Tips geben, zu Python nicht. Für Ratschläge zu Python sind die Kolleg:innen von der Bucerius Law School definitiv die besseren Ansprechpartner:innen.
Es gibt aber auch noch weitere Gründe:
- R wurde für Nicht-Programmierer:innen entwickelt, Python setzt mehr Computerwissen voraus und ist daher bei Informatiker:innen beliebt
- Die R Community ist sehr offen und freundlich, ein Quereinstieg aus anderen Disziplinen ist die Norm
- Für viele statistische Routine-Aufgaben sind schon eingebaute Funktionen vorhanden, für die man bei Python erst mühsam Packages (d.h. Erweiterungen) suchen und lernen muss
- R wird ist in den wissenschaftlichen Disziplinen weit verbreitet, an denen ich mich orientiere (Statistik, Friedensforschung, Politikwissenschaften, Pychologie)
- R ist stärker in der High-End Statistik und der Datenvisualisierung, Python im Machine Learning (die Unterschiede sind aber nur an der bleeding edge relevant)
- Die Verwaltung und Versionierung von Python-Umgebungen ist ein absoluter Albtraum (siehe XKCD No. 1987)
Welche Sprache ist also die Beste für Sie? Link to heading
Für die allermeisten Jurist:innen ohne große Ambitionen ist die Antwort relativ einfach: probieren Sie beide aus und nutzen Sie die, die Ihnen intuitiver und angenehmer zu nutzen erscheint. Die Nutzbarkeit schließt auch die Vor- und Nachteile der jeweils üblichen Entwicklungsumgebungen mit ein (z.B. R Studio vs PyCharm), die Qualität der Dokumentation und die Möglichkeit Fragen zu stellen und Antworten zu bekommen.
Wenn Sie eine Karriere im Data Science-Bereich anstreben ist die Frage wichtiger und die Antwort wird davon abhängen, mit wem Sie vor allem zusammenarbeiten möchten. Wenn Sie vor allem mit Informatiker:innen im Bereich Machine Learning arbeiten ist Python sinnvoll. Wenn Sie mit Politikwissenschafter:innen oder Psycholog:innen arbeiten ist R besser.
Zuerst auf das “falsche Pferd” zu setzen ist aber keine Tragödie, die zweite Sprache lernt man viel schneller als die erste und viele wichtige Konzepte des Programmierens (Schleifen, Funktionen, formale Logik, Mengenlerhre, REGEX) sind nicht sprachspezifisch.2 Das Gleiche gilt für die Mathematik: Mathematik ist überall die gleiche Mathematik.
-
Viele Open Access Bücher sind auch gedruckt erhältlich. Bei Gefallen kann man das Buch natürlich im Nachhinein zusätzlich physisch bzw. als E-Book erwerben und den Autor:innen dadurch seine Wertschätzung ausdrücken. ↩︎
-
Die Implementierungen unterscheiden sich natürlich in manchen Details und in der Syntax, aber die Konzepte als solche sind grundsätzlich die Gleichen und können abstrakt verstanden und gelernt werden. ↩︎