====== Perplexity statistics ======
Mean PPL(Q)                   :  25.379497 ±   0.247973
Mean PPL(base)                :  24.931431 ±   0.241228
Cor(ln(PPL(Q)), ln(PPL(base))):  99.52%
Mean ln(PPL(Q)/PPL(base))     :   0.017812 ±   0.000955
Mean PPL(Q)/PPL(base)         :   1.017972 ±   0.000972
Mean PPL(Q)-PPL(base)         :   0.448067 ±   0.024845

====== KL divergence statistics ======
Mean    KLD:   0.032033 ±   0.000122
Maximum KLD:   1.726200
99.9%   KLD:   0.461810
99.0%   KLD:   0.211016
99.0%   KLD:   0.211016
Median  KLD:   0.017953
10.0%   KLD:   0.000386
 5.0%   KLD:   0.000063
 1.0%   KLD:   0.000001
Minimum KLD:  -0.000295

====== Token probability statistics ======
Mean    Δp: -0.088 ± 0.011 %
Maximum Δp: 67.370%
99.9%   Δp: 27.270%
99.0%   Δp: 13.595%
95.0%   Δp:  5.977%
90.0%   Δp:  3.182%
75.0%   Δp:  0.383%
Median  Δp: -0.000%
25.0%   Δp: -0.511%
10.0%   Δp: -3.408%
 5.0%   Δp: -6.399%
 1.0%   Δp: -14.558%
 0.1%   Δp: -29.089%
Minimum Δp: -68.450%
RMS Δp    :  4.330 ± 0.025 %
Same top p: 91.049 ± 0.074 %