Wesentliche Änderungen Link to heading

Im September wurden geplante Updates für den Corpus of Decisions: International Court of Justice (CD-ICJ) und den Corpus of Decisions: Permanent Court of International Justice (CD-PCIJ) veröffentlicht.

Zusätzlich zu einer Reihe an kleineren Bug Fixes und Verbesserungen wurden die Korpora mit Tesseract 5 vollständig neu kompiliert, womit die optische Zeichenerkennung (OCR) wieder spürbar verbessert wurde.

Die ursprünglich veröffentlichte Fassung brachte eine um 50,19% reduzierte Anzahl an einzigartigen Tokens (die bei fehlerhafter OCR-Erkennung entstehen), verglichen mit den Originalfassungen des Internationalen Gerichtshofs, wie ich im Journal of Empirical Legal Studies berichtete. Die Verringerung beträgt nun 51,15%. In der französischen Fassung und dem CD-PCIJ wurden vergleichbare Verbesserungen erzielt.

Der CD-ICJ enthält nun alle Fälle bis General List No 183 (Deutschland v Italien) und bis September 2022 veröffentlichte Dokumente.

Die gesamten Änderungen finden sie im Changelog auf den jeweiligen Zenodo-Seiten und in den Codebooks.