- [Open Access] Corpus of Decisions: International Court of Justice (CD-ICJ)
- [Open Access] Corpus of Decisions: Permanent Court of International Justice (CD-PCIJ)
- [Open Access] Introducing Twin Corpora of Decisions for the International Court of Justice (ICJ) and the Permanent Court of International Justice (PCIJ) (JELS 2022)
Wesentliche Änderungen Link to heading
Im September wurden geplante Updates für den Corpus of Decisions: International Court of Justice (CD-ICJ) und den Corpus of Decisions: Permanent Court of International Justice (CD-PCIJ) veröffentlicht.
Zusätzlich zu einer Reihe an kleineren Bug Fixes und Verbesserungen wurden die Korpora mit Tesseract 5 vollständig neu kompiliert, womit die optische Zeichenerkennung (OCR) wieder spürbar verbessert wurde.
Die ursprünglich veröffentlichte Fassung brachte eine um 50,19% reduzierte Anzahl an einzigartigen Tokens (die bei fehlerhafter OCR-Erkennung entstehen), verglichen mit den Originalfassungen des Internationalen Gerichtshofs, wie ich im Journal of Empirical Legal Studies berichtete. Die Verringerung beträgt nun 51,15%. In der französischen Fassung und dem CD-PCIJ wurden vergleichbare Verbesserungen erzielt.
Der CD-ICJ enthält nun alle Fälle bis General List No 183 (Deutschland v Italien) und bis September 2022 veröffentlichte Dokumente.
Die gesamten Änderungen finden sie im Changelog auf den jeweiligen Zenodo-Seiten und in den Codebooks.