Wie fange ich mit Legal Data Science an?
Überblick
Eine Frage die mir oft gestellt wird: wie fange ich mit Legal Data Science an?
Data Science besteht grob aus drei Teilbereichen (Conway):
- Programmieren
- Statistik und andere Mathematik
- Domänenkenntnis (z.B. Jura)
Jurist:innen sind also eigentlich schon zu einem Drittel dort wo sie hinmöchten. Die anderen Teilgebiete sind aber riesig und wirken wie ein Buch mit sieben Siegeln. Wie können Jurist:innen sich hier fortbilden?
Zwei klare Empfehlungen:
- Allgemeine Data Science Literatur durcharbeiten (siehe unten)
- So schnell wie möglich eigene Projekte starten (müssen nicht öffentlich sein!)
Denn: man muss viel schlechten Code schreiben, um guten Code schreiben zu können. Und: je nützlicher die Probleme für die eigene Arbeit sind, desto motivierter ist man. Niemand wird an einem Wochenende zum Profi, Expertise aufzubauen benötigt Zeit und Durchhaltevermögen.
Lehrmaterial zum Programmieren ist unglaublich viel und kostenlos im Internet vorhanden, hier muss man eigentlich nichts kaufen.1 Gute Statistik-Bücher sind eher nur kommerziell verfügbar, aber auch erst ab einem Fortgeschrittenen-Niveau nützlich, denn viel notwendige Mathematik wird zusammen mit den Programmierkenntnissen vermittelt!
Warum Programmieren und Statistik lernen?
Warum sollten Sie Programmieren und Statistik lernen? Sie sind doch Jurist:in und wollen gar nicht zur Programmierer:in oder Statistiker:in werden! Könnten Sie nicht auch einfach Ihre dogmatische Heimat im “Recht der Digitalisierung” wählen und fleißig über Legal Data Science bzw. Legal Tech reden?
Nein. Und zwar darum:
- Liefern, statt labern. Regulierung ist wichtig, aber Digitalisierung passiert ganz überwiegend durch Code und Mathematik, nicht durch clever argumentierte juristische Fachaufsätze. Es hat schon seine Gründe, warum die Rechtsinformatik als “tot” gilt (Thomas Hoeren) und der Hype im Legal Tech-Bereich seit Jahren kaum echte Fortschritte hervorbringt.
- Halbwissen ist gefährlich, willentliches Nichtwissen ist gefährlicher. Jurist:innen müssen oder wollen in vielen Konstellationen empirische Aussagen nutzen bzw. statistisch begründete Sachverhalte bearbeiten und darüber entscheiden. Zurückhaltung ist oft nicht erlaubt (Entscheidungszwang der Gerichte) oder erwünscht (ökonomische Zwänge der Anwaltschaft). Der einzig gangbare Weg, um die Qualität der Entscheidungen und Beratung zu sichern ist soviel Fortbildung wie möglich.
- Sicherung der Unabhängigkeit. Die Moderne rollt mit Corona, Klimawandal und ChatGPT unaufhaltsam über Sie hinweg. Sie können sich entweder in die Dogmatik zurückziehen und sich von Sachverständigen den Sachverhalt diktieren lassen (wenn Sie denn einen finden) oder genug Wissen erwerben, um aktuelle empirische und technische Erkenntnisse selbständig kritisch würdigen zu können. Im täglichen Geschäft fehlt Ihnen aber die Zeit um komplizierte Methoden zu lernen. Ohne Methodenkenntnis haben Sie aber kaum eine Chance sich in einem realistischem Zeitrahmen in empirische oder gar mathematische Details einzuarbeiten.
Einführende Texte
- Fobbe, Legal Data Science, Teil I— Was ist das? (Legal Tribune Online 2022)
- Fobbe, Legal Data Science, Teil II — Wie man sie nutzen kann (Legal Tribune Online 2022)
- Fobbe, Open Legal Data: Das Fundament des Rechtsstaates (VOTUM 2021)
- Fobbe, Juristische Netzwerkdaten für Einsteiger (RECHTS|EMPIRIE 2021)
- Hamann, Womit müssen Juristen rechnen? (RECHTS|EMPIRIE 2019)
- Fleckner und Coupette, Quantitative Rechtswissenschaft: Sammlung, Analyse und Kommunikation juristischer Daten, Juristenzeitung 73 (2018), 379–389.
Podcasts
- Fobbe und Brügmann, Die Arbeit eines juristischen Datendetektivs (Rechtsgespräch 2023)
- Fobbe und Molina, Was Legal Data Science ist und warum sich alle Jurist:innen damit beschäftigen sollten — mit dem Daten-Detektiv Seán Fobbe (Talking Legal Tech 2022)
Die Programmiersprache ‘R’
Einführungen zu R
Der Pirate’s Guide to R ist sehr unterhaltsam, klare Empfehlung. Ich habe auch selbst damit gelernt. R for Data Science ist die klassische Open Access Einführung.
- Philips, YaRrr! The Pirate’s Guide to R (2018)
- Wickham and Grolemund, R for Data Science, 1st edition (2017)
- Wickham, Cetinkaya-Rundel and Grolemund, R for DataScience, 2nd edition (2023, work in progress)
- Alschner, Data Science for Lawyers (2022)
Hilfreiche Nachschlagewerke
Für viele klassische Probleme in der Datenanalyse gibt es hervorragende Nachschlagewerke, die jeweils eine gute Lösung mit Code vorschlagen. From Data to Viz und die R Graph Gallery sind auch für mich die erste Anlaufstelle, wenn ich neue Diagramme ausprobieren möchte. Das R Cookbook ist ein absoluter Klassiker für Standardprobleme.
- Holtz, From Data to Viz
- Holtz, R Graph Gallery - Help and inspiration for R charts
- Long and Teetor, R Cookbook (O’Reilly 2019, 2nd ed)
- Chang, R Graphics Cookbook (O’Reilly 2023)
Wie kann man R nutzen?
R kann man zwar direkt in der Kommandozeile nutzen, aber eine integrierte Entwicklungsumgebung (IDE) unterstützt Sie mit Tips, hilfreichen Code-Vorschlägen und macht Ihnen das Leben allgemein VIEL einfacher. Anfänger:innen empfehle ich R Studio, meine persönlichen Lieblings-Tools finden Sie hier. R Studio gibt es auch als Cloud-Lösung und kann eine Alternative darstellen, wenn der Datenschutz es in Ihrem Fall zulässt.
- R und R Studio lokal installieren: Installing R and R Studio [Empfehlung zum Einstieg]
- R in der Cloud nutzen: Posit Cloud [kostenlose Accounts möglich]
- R im Browser lokal nutzen: WebR [nur für Demo-Zwecke]
- R im Browser remote nutzen: MyCompiler [nur für Demo-Zwecke]
Vertiefung für R
- Wickham, ggplot2: Elegant Graphics for Data Analysis (Springer 2023, 3rd ed)
- Puschmann, Automatisierte Inhaltsanalyse mit R
- Wickham, Advanced R (Chapman & Hall 2019)
- Baruffa, The Big Book of R (2023)
Statistik
Einführung Statistik
- Agresti, Statistical Methods for the Social Sciences (Pearson 2017, 5th ed)
- McElreath, Statistical Rethinking (CRC Press 2020, 2nd ed)
- Johnson, Ott and Dogucu, Bayes Rules! An Introduction to Applied Bayesian Modeling (CRC Press 2022)
Vertiefung Statistik
- Lakens, Improving Your Statistical Inferences (2022)
Netzwerkanalyse
- Coupette, Juristische Netzwerkforschung: Modellierung, Quantifizierung und Visualisierung relationaler Daten im Recht (Mohr Siebeck 2019)
- Zweig, Network Analysis Literacy (Springer 2016)
Open Legal Data
Wo bekommen Sie juristische Daten für Übung und Forschung?
Falls Sie mit juristischen Textdaten arbeiten möchten, habe ich aus eigener Feder über ein Dutzend frei nutzbare Datensätze veröffentlicht, insbesondere mit Bezug zum deutschen Recht (z.B. BVerfG, BGH, IGH, usw.): https://seanfobbe.com/de/data/
Das Liquid Legal Institute hat eine deutlich umfangreichere Liste mit Datensätzen vieler Autor:innen (auch aus dem Ausland) auf GitHUb veröffentlicht.
Warum R und nicht Python?
Wieso empfehle ich an dieser Stelle nur Materialien zu R und nicht zu Python?
Python und R sind die beiden wichtigsten Programmiersprachen im Data Science-Bereich. Python wird aber von deutlich mehr Menschen benutzt und wäre damit im juristischen Jargon “herrschende Meinung”.
Zunächst, vor allem aus pragmatischen Gründen: ich arbeite selber überwiegend mit R und sehr selten mit Python. Zu R kann ich gute Tips geben, zu Python nicht. Für Ratschläge zu Python sind die Kolleg:innen von der Bucerius Law School definitiv die besseren Ansprechpartner:innen.
Es gibt aber auch noch weitere Gründe:
- R wurde für Nicht-Programmierer:innen entwickelt, Python setzt mehr Computerwissen voraus und ist daher bei Informatiker:innen beliebt
- Die R Community ist sehr offen und freundlich, ein Quereinstieg aus anderen Disziplinen ist die Norm
- Für viele statistische Routine-Aufgaben sind schon eingebaute Funktionen vorhanden, für die man bei Python erst mühsam Packages (d.h. Erweiterungen) suchen und lernen muss
- R wird ist in den wissenschaftlichen Disziplinen weit verbreitet, an denen ich mich orientiere (Statistik, Friedensforschung, Politikwissenschaften, Pychologie)
- R ist stärker in der High-End Statistik und der Datenvisualisierung, Python im Machine Learning (die Unterschiede sind aber nur an der bleeding edge relevant)
Welche Sprache ist also die Beste für Sie?
Für die allermeisten Jurist:innen ohne große Ambitionen ist die Antwort relativ einfach: probieren Sie beide aus und nutzen Sie die, die Ihnen intuitiver und angenehmer zu nutzen erscheint. Die Nutzbarkeit schließt auch die Vor- und Nachteile der jeweils üblichen Entwicklungsumgebungen mit ein (z.B. R Studio vs PyCharm), die Qualität der Dokumentation und die Möglichkeit Fragen zu stellen und Antworten zu bekommen.
Wenn Sie eine Karriere im Data Science-Bereich anstreben ist die Frage wichtiger und die Antwort wird davon abhängen, mit wem Sie vor allem zusammenarbeiten möchten. Zuerst auf das “falsche Pferd” zu setzen ist aber keine Tragödie, die zweite Sprache lernt man viel schneller als die erste und viele wichtige Konzepte des Programmierens (Schleifen, Funktionen, formale Logik, mathematische Operationen, REGEX) sind nicht sprachspezifisch.2
-
Viele Open Access Bücher sind auch gedruckt erhältlich. Bei Gefallen kann man das Buch natürlich im Nachhinein zusätzlich physisch bzw. als E-Book erwerben und den Autor:innen dadurch seine Wertschätzung ausdrücken. ↩︎
-
Die Implementierungen unterscheiden sich natürlich in manchen Details und in der Syntax, aber die Konzepte als solche sind grundsätzlich die Gleichen und können abstrakt verstanden und gelernt werden. ↩︎