====== Perplexity statistics ======
Mean PPL(Q)                   :   6.611877 ±   0.040700
Mean PPL(base)                :   6.554978 ±   0.040159
Cor(ln(PPL(Q)), ln(PPL(base))):  99.79%
Mean ln(PPL(Q)/PPL(base))     :   0.008643 ±   0.000403
Mean PPL(Q)/PPL(base)         :   1.008680 ±   0.000406
Mean PPL(Q)-PPL(base)         :   0.056898 ±   0.002699

====== KL divergence statistics ======
Mean    KLD:   0.009900 ±   0.000071
Maximum KLD:   2.807195
99.9%   KLD:   0.340907
99.0%   KLD:   0.088291
99.0%   KLD:   0.088291
Median  KLD:   0.005181
10.0%   KLD:   0.000230
 5.0%   KLD:   0.000062
 1.0%   KLD:   0.000007
Minimum KLD:  -0.000068

====== Token probability statistics ======
Mean    Δp: -0.112 ± 0.008 %
Maximum Δp: 59.985%
99.9%   Δp: 17.692%
99.0%   Δp:  7.839%
95.0%   Δp:  3.690%
90.0%   Δp:  2.194%
75.0%   Δp:  0.496%
Median  Δp: -0.001%
25.0%   Δp: -0.613%
10.0%   Δp: -2.427%
 5.0%   Δp: -4.015%
 1.0%   Δp: -9.158%
 0.1%   Δp: -26.484%
Minimum Δp: -87.765%
RMS Δp    :  2.969 ± 0.028 %
Same top p: 94.988 ± 0.058 %