- [Open Access] Corpus der Plenarprotokolle des Deutschen Bundestages (CPP-BT)
- [Open Access] Codebook des CPP-BT
- [Open Access] Source Code des CPP-BT
Plenarprotokolle des Deutschen Bundestages von 1949 bis 2025 Link to heading
Nach langer Pause habe ich den Corpus der Plenarprotokolle des Deutschen Bundestages (CPP-BT) grundlegend überarbeitet und neu veröffentlicht!
Das Corpus der Plenarprotokolle des Deutschen Bundestages (CPP-BT) ist einer der größten, frei verfügbaren Datensätze von Plenarprotokollen des Deutschen Bundestages. Der Datensatz enthält alle Plenarprotokolle von der 1. Wahlperiode bis zur aktuellsten 21. Wahlperiode, die im XML-Format auf dem Open Data Portal des Deutschen Bundestages und dem Dokumentations- und Informationssystem für parlamentarische Materialien (DIP) bis zum jeweiligen Stichtag veröffentlicht waren.
Die neueste Version 2024-05-24 enthält viele wichtige Neuerungen, unter anderem eine komplette Neukonzeption als Pipeline im {targets}-Framework, eine Aktualisierung des Datenbestandes bis zum 24. Mai 2025, die Aufteilung in einzelne Bundestagsreden ab der 18. Wahlperiode (mit Name, Fraktion und ID der Redner:innen) und ein zusätzliches neues Formate (Parquet).
Merkmal | Detail |
---|---|
Stichtag | 24. Mai 2025 |
Inhaltlicher Umfang | 4566 Plenarprotokolle / ~362 Millionen Tokens |
Zeitliche Abdeckung | 1949 bis 2025 |
Wahlperioden | 1. bis 21. Wahlperiode |
Formate | CSV, TXT, XML und Parquet |
Der Datensatz wird nun mehrmals pro Wahlperiode aktualisiert. Benachrichtigungen über neue und aktualisierte Datensätze veröffentliche ich immer zeitnah auf Mastodon unter @seanfobbe@fediscience.org

Bitte beachten Sie das beiliegende Codebook! Es enthält wichtige Informationen zur korrekten Nutzung des Datensatzes. Es hilft auch bei der Entscheidung, welche Variante für Sie am besten geeignet ist. In der Regel empfehle ich für quantitative Forschung die CSV-Dateien und für traditionelle Forschung die TXT-Sammlung. Parquet-Dateien sind für Big Data-Anwendungen verfügbar.
Der CPP-BT ist der Zwillings-Korpus des Corpus der Drucksachen des Deutschen Bundestages (CDRS-BT). Durch die Verbindung beider Korpora können Sie Plenarprotokolle und Drucksachen — und damit alle Vorgänge des Bundestages — in einheitlichen Analysen untersuchen.
Der CPP-BT steht nicht isoliert da, sondern reiht sich in eine lange Tradition hochwertiger Datensätze zu den Plenarprotokollen des Bundestages ein. Insbesondere der GermaParl-Korpus (Blaette und Leonhardt 2024) und der OpenDiscourse-Korpus (Richter et al. 2020) sind starke Alternativen. Die besonderen Vorteile des CPP-BT sind die hohe Aktualität (bis 2025, GermaParl 2.1 bis 2023), die zusätzlichen offenen Formate und die Quellenoffenheit. Insbesondere bei älteren Protokollen ist die Qualität von GermaParl durch die zusätzliche manuelle Prüfarbeit sicherlich konkurrenzlos.
Features Link to heading
- Insgesamt bis zu 35 Variablen in der CSV-Variante
- Plenarprotokolle von der 1. Wahlperiode bis zur neuesten Wahlperiode am Stichtag
- Aufteilung in Einzelreden u.a. mit ID, Name, Fraktion und Amt der Redner:in (ab 18. Wahlperiode)
- Aufteilung in Protokollbestandteile: Inhaltsverzeichnis, Sitzungsverlauf, Anlagen, Rednerliste (ab 18. Wahlperiode)
- Fortlaufende Aktualisierung (Datensatz kann zusätzlich via Pipeline täglich aktualisiert werden)
- Urheberrechtsfreiheit
- Offene und plattformunabhängige Formate (PDF, TXT, CSV, XML, Parquet)
- Linguistische Kennzahlen
- Umfangreiches Codebook
- Compilation Report, um den Erstellungs-Prozess zu erläutern
- Dutzende Diagramme und Tabellen für alle Zwecke (im ZIP-Archiv ‘ANALYSE’)
- Diagramme liegen jeweils in einem für den Druck (PDF) und das Web (PNG) optimierten Format vor
- Tabellen sind im CSV-Format bereitgestellt und sind damit sowohl für Menschen als auch für Maschinen gut lesbar
- Kryptographische Signaturen
- Veröffentlichung des Source Codes (Open Source)
Changelog Version 2025-05-24 Link to heading
- Vollständige Aktualisierung der Daten (bis einschließlich aktuellste Wahlperiode)
- Neukonzeptionierung des Datensatzes als deklarative {targets} Pipeline
- Wichtige Änderung: Variable “nummer_original” zu “protokoll_nr” umbenannt
- Wichtige Änderung: Variable “datum” zu “sitzung_datum” umbenannt
- Neues Feature: Alle Einzelreden des Bundestages in tabellarischem Format mit vielen neuen Metadaten verfügbar (ab 18. Wahlperiode)
- Neues Feature: Datensatz im Parquet-Format verfügbar
- Neues Feature: Zusätzlicher Bericht zur Qualitätskontrolle
- Inhaltiche Erweiterung und Verbesserung der TXT-Variante
- Viele zusätzliche Tests zur Qualitätsprüfung
- Pipeline ruft automatisch die tagesaktuell neuesten Bundestagsprotokolle ab (API Key notwendig)
- Pipeline speichert viele Checkpoints und kann jederzeit unterbrochen und fortgesetzt werden
- Delta Updates möglich
- Grundlegende Überarbeitung des Codebooks