Methodik: So rechnen wir

Datenbasis

Die Auswertung basiert auf der BaFin-Beschwerdestatistik für die Jahre 2015 bis 2024. Das ist eine jährlich publizierte XLSX-Datei, in der die Bundesanstalt für Finanzdienstleistungsaufsicht pro Versicherungsunternehmen und pro Sparte die Anzahl eingegangener Beschwerden dokumentiert. Quelle: bafin.de/DE/PublikationenDaten/Statistiken/Beschwerde.

Die Daten sind amtliche Werke nach § 5 UrhG und damit gemeinfrei. Zitation mit Quellenangabe unbeschränkt zulässig.

Quote pro 10.000 Verträge

Basis-Kennzahl ist die Beschwerdequote pro 10.000 Verträge, berechnet als: Beschwerden geteilt durch Bestand, mal 10.000. Beispiel: ein Versicherer mit 2 Millionen Verträgen und 100 Beschwerden hat eine Quote von 0,5. Diese Normalisierung verhindert, dass Marktführer mechanisch als "schlechteste" dastehen, nur weil sie die größte Vertragszahl haben.

Quality-Score aus 5 Faktoren

Für jede Versicherer-Sparten-Kombination berechnen wir einen Score 0 bis 100 aus fünf Faktoren:

Faktor	Gewicht	Bedeutung
Level 2024	30 %	aktuelles Beschwerdeniveau im Verhältnis zu Sparten-Peers
Delta 2020 bis 2024	25 %	langfristiger Trend, positiv wenn Quote gestiegen
Momentum 2023 bis 2024	20 %	Ein-Jahres-Sprung, fängt aktuelle Verschlechterung
Persistenz	15 %	Anteil der Jahre mit Quote über Null
Volatility	10 %	Standardabweichung der Quote über 10 Jahre

Rang-Normalisierung pro Sparte

Weil Kranken-Versicherungen strukturell höhere Beschwerdequoten haben als Unfall-Versicherungen, wäre ein globaler Vergleich verzerrt. Deswegen normalisieren wir jeden Faktor rangbasiert innerhalb der jeweiligen Sparte. Das Ergebnis ist robust gegen Outlier und vergleichbar über Sparten hinweg.

Risiko-Klassen

Rot (75-100): akutes Qualitätsrisiko, mehrere Faktoren im oberen Viertel
Orange (55-74): Warnung, deutliche Verschlechterung oder hohes Level
Gelb (35-54): Watchlist, leichte Auffälligkeiten
Grün (0-34): stabil, keine strukturellen Probleme sichtbar

Kipp-Kandidaten

Ein Versicherer wird als Kipp-Kandidat markiert, wenn alle folgenden Bedingungen erfüllt sind: Level über 60. Perzentil, Delta über 70. Perzentil, Momentum über 55. Perzentil, Bestand mindestens 100.000 Verträge. Diese Kombination aus erhöhtem Niveau plus beschleunigender Verschlechterung signalisiert erhöhte Wahrscheinlichkeit für Weiterstieg in der nächsten BaFin-Veröffentlichung.

Konzern-Aggregat

Zusätzlich zur Einzel-VU-Ebene berechnen wir einen bestandsgewichteten Durchschnitts-Score pro Konzernmutter. Tochtergesellschaften werden nach Bestandsgröße gewichtet. Konzerne mit mehreren Töchtern in der Rot-Zone signalisieren strukturelle Kulturprobleme, die auf Einzel-VU-Ebene nicht erkennbar sind.

Was der Score NICHT misst

Finanzielle Solidität (dafür bräuchte es SFCR-Daten)
Leistungsumfang der Produkte (AVB-Analyse ist separate Baustelle)
Kundenzufriedenheit insgesamt (Beschwerden sind nur Unzufriedenheits-Spitze)
Zukunftsaussichten konkreter Produkte

Limitationen und offene Backtest-Befunde

Wir haben das Modell gegen 2023 historisch validiert und dabei einen systematischen Schwachpunkt gefunden, den wir transparent dokumentieren statt verstecken.

Backtest-Setup: Features aus Daten 2015 bis 2022 berechnet, Score Ende 2022 gebildet, gegen die tatsächliche Quote-Entwicklung 2022 auf 2023 geprüft.

Befund Mean-Reversion. Der Score in Version 1 korreliert negativ mit der tatsächlichen Veränderung im Folgejahr (Spearman rho = -0,31). Versicherer mit extrem hohem Level oder starkem Trend im Messjahr zeigen oft Regression zum Mittel im Folgejahr. Beispiele aus den 2022er Top-20 Kipp-Kandidaten, die 2023 tatsächlich zurückkamen: RHION Hausrat 0,51 auf 0,08, HDI Gebäude 0,60 auf 0,26, DEBEKA Kranken 0,29 auf 0,13.

Was das bedeutet. Die aktuelle Version ist stärker als Stichtag-Ranking und Persistenz-Indikator (wer durchgehend hoch ist, bleibt es) als als Ein-Jahres-Prognose. Die Rot-Klassifikation zeigt zuverlässig hohe Beschwerde-Level heute, aber nicht zuverlässig eine weitere Verschlechterung im nächsten Jahr.

Was wir daraus machen. Version 2 des Scores ist in Entwicklung und integriert explizit Mean-Reversion-Korrektur (Distanz vom langfristigen VU-Mittel und vom Sparten-Median als Features) sowie absolute Quote statt Delta als Zielvariable. Erste Backtest-Resultate werden hier veröffentlicht sobald verfügbar.

Für Leser heißt das heute. Ein Versicherer in Rot bedeutet "hat aktuell deutlich mehr Beschwerden als Peers", nicht automatisch "wird nächstes Jahr noch schlechter". Konzern-Aggregate über mehrere Sparten und Persistenz-Markierungen (10-Jahres-Heatmap) sind die aussagekräftigsten Teile der aktuellen Methodik.

Aktualisierung

Der Score wird neu berechnet, sobald die BaFin die jährliche Beschwerdestatistik publiziert. Typischer Termin: Mai bis Juli des Folgejahres. Ein Polling-Dienst prüft die BaFin-URL dreimal täglich.