====== Perplexity statistics ======
Mean PPL(Q)                   :  10.455858 ±   0.076831
Mean PPL(base)                :  10.036835 ±   0.072696
Cor(ln(PPL(Q)), ln(PPL(base))):  99.30%
Mean ln(PPL(Q)/PPL(base))     :   0.040901 ±   0.000871
Mean PPL(Q)/PPL(base)         :   1.041749 ±   0.000907
Mean PPL(Q)-PPL(base)         :   0.419023 ±   0.009775

====== KL divergence statistics ======
Mean    KLD:   0.039060 ±   0.000178
Maximum KLD:   5.251009
99.9%   KLD:   0.766137
99.0%   KLD:   0.290706
99.0%   KLD:   0.290706
Median  KLD:   0.022797
10.0%   KLD:   0.000638
 5.0%   KLD:   0.000122
 1.0%   KLD:   0.000007
Minimum KLD:  -0.000132

====== Token probability statistics ======
Mean    Δp: -0.404 ± 0.014 %
Maximum Δp: 84.448%
99.9%   Δp: 27.062%
99.0%   Δp: 13.834%
95.0%   Δp:  6.500%
90.0%   Δp:  3.713%
75.0%   Δp:  0.682%
Median  Δp: -0.003%
25.0%   Δp: -1.065%
10.0%   Δp: -4.833%
 5.0%   Δp: -8.289%
 1.0%   Δp: -18.737%
 0.1%   Δp: -40.529%
Minimum Δp: -97.396%
RMS Δp    :  5.260 ± 0.034 %
Same top p: 90.124 ± 0.077 %