Generate perplexity and kld scores

Browse files

Files changed (12) hide show

scores/deepseek-r1-distill-qwen-7b-iq3_m.log +37 -0
scores/deepseek-r1-distill-qwen-7b-iq3_s.log +37 -0
scores/deepseek-r1-distill-qwen-7b-iq4_nl.log +37 -0
scores/deepseek-r1-distill-qwen-7b-q3_k_l.log +43 -0
scores/deepseek-r1-distill-qwen-7b-q3_k_m.log +37 -0
scores/deepseek-r1-distill-qwen-7b-q3_k_s.log +37 -0
scores/deepseek-r1-distill-qwen-7b-q4_k_m.log +37 -0
scores/deepseek-r1-distill-qwen-7b-q4_k_s.log +37 -0
scores/deepseek-r1-distill-qwen-7b-q5_k_m.log +37 -0
scores/deepseek-r1-distill-qwen-7b-q5_k_s.log +37 -0
scores/deepseek-r1-distill-qwen-7b-q6_k.log +37 -0
scores/deepseek-r1-distill-qwen-7b-q8_0.log +37 -0

scores/deepseek-r1-distill-qwen-7b-iq3_m.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  26.530303 ±   0.256822
+Mean PPL(base)                :  24.931431 ±   0.241228
+Cor(ln(PPL(Q)), ln(PPL(base))):  98.58%
+Mean ln(PPL(Q)/PPL(base))     :   0.062158 ±   0.001634
+Mean PPL(Q)/PPL(base)         :   1.064131 ±   0.001738
+Mean PPL(Q)-PPL(base)         :   1.598873 ±   0.044813
+====== KL divergence statistics ======
+Mean    KLD:   0.110374 ±   0.000408
+Maximum KLD:   4.856987
+99.9%   KLD:   1.554827
+99.0%   KLD:   0.706525
+99.0%   KLD:   0.706525
+Median  KLD:   0.063658
+10.0%   KLD:   0.001721
+ 5.0%   KLD:   0.000315
+ 1.0%   KLD:   0.000020
+Minimum KLD:  -0.000091
+====== Token probability statistics ======
+Mean    Δp: -1.459 ± 0.021 %
+Maximum Δp: 90.908%
+99.9%   Δp: 41.637%
+99.0%   Δp: 20.507%
+95.0%   Δp:  8.036%
+90.0%   Δp:  3.551%
+75.0%   Δp:  0.185%
+Median  Δp: -0.025%
+25.0%   Δp: -2.071%
+10.0%   Δp: -9.115%
+ 5.0%   Δp: -15.397%
+ 1.0%   Δp: -30.740%
+ 0.1%   Δp: -54.239%
+Minimum Δp: -95.795%
+RMS Δp    :  8.130 ± 0.041 %
+Same top p: 84.107 ± 0.095 %

scores/deepseek-r1-distill-qwen-7b-iq3_s.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  26.638550 ±   0.259075
+Mean PPL(base)                :  24.931431 ±   0.241228
+Cor(ln(PPL(Q)), ln(PPL(base))):  98.51%
+Mean ln(PPL(Q)/PPL(base))     :   0.066230 ±   0.001677
+Mean PPL(Q)/PPL(base)         :   1.068473 ±   0.001792
+Mean PPL(Q)-PPL(base)         :   1.707120 ±   0.046752
+====== KL divergence statistics ======
+Mean    KLD:   0.115060 ±   0.000427
+Maximum KLD:   6.862354
+99.9%   KLD:   1.668972
+99.0%   KLD:   0.747263
+99.0%   KLD:   0.747263
+Median  KLD:   0.065809
+10.0%   KLD:   0.001661
+ 5.0%   KLD:   0.000301
+ 1.0%   KLD:   0.000018
+Minimum KLD:  -0.000103
+====== Token probability statistics ======
+Mean    Δp: -1.254 ± 0.021 %
+Maximum Δp: 92.550%
+99.9%   Δp: 43.219%
+99.0%   Δp: 21.697%
+95.0%   Δp:  8.707%
+90.0%   Δp:  4.022%
+75.0%   Δp:  0.260%
+Median  Δp: -0.015%
+25.0%   Δp: -1.839%
+10.0%   Δp: -8.696%
+ 5.0%   Δp: -15.122%
+ 1.0%   Δp: -31.087%
+ 0.1%   Δp: -57.206%
+Minimum Δp: -96.125%
+RMS Δp    :  8.252 ± 0.042 %
+Same top p: 83.845 ± 0.095 %

scores/deepseek-r1-distill-qwen-7b-iq4_nl.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  25.645935 ±   0.251542
+Mean PPL(base)                :  24.931431 ±   0.241228
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.48%
+Mean ln(PPL(Q)/PPL(base))     :   0.028256 ±   0.001007
+Mean PPL(Q)/PPL(base)         :   1.028659 ±   0.001035
+Mean PPL(Q)-PPL(base)         :   0.714505 ±   0.027258
+====== KL divergence statistics ======
+Mean    KLD:   0.035420 ±   0.000140
+Maximum KLD:   3.406450
+99.9%   KLD:   0.527580
+99.0%   KLD:   0.238919
+99.0%   KLD:   0.238919
+Median  KLD:   0.019661
+10.0%   KLD:   0.000409
+ 5.0%   KLD:   0.000068
+ 1.0%   KLD:   0.000002
+Minimum KLD:  -0.000216
+====== Token probability statistics ======
+Mean    Δp: -0.143 ± 0.012 %
+Maximum Δp: 79.304%
+99.9%   Δp: 28.190%
+99.0%   Δp: 14.472%
+95.0%   Δp:  6.173%
+90.0%   Δp:  3.204%
+75.0%   Δp:  0.378%
+Median  Δp: -0.000%
+25.0%   Δp: -0.552%
+10.0%   Δp: -3.690%
+ 5.0%   Δp: -6.890%
+ 1.0%   Δp: -15.483%
+ 0.1%   Δp: -31.224%
+Minimum Δp: -74.269%
+RMS Δp    :  4.584 ± 0.027 %
+Same top p: 90.668 ± 0.075 %

scores/deepseek-r1-distill-qwen-7b-q3_k_l.log ADDED Viewed

	@@ -0,0 +1,43 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  26.027373 ±   0.255226
+Mean PPL(base)                :  24.931431 ±   0.241228
+Cor(ln(PPL(Q)), ln(PPL(base))):  98.91%
+Mean ln(PPL(Q)/PPL(base))     :   0.043020 ±   0.001445
+Mean PPL(Q)/PPL(base)         :   1.043958 ±   0.001509
+Mean PPL(Q)-PPL(base)         :   1.095943 ±   0.039245
+====== KL divergence statistics ======
+Mean    KLD:   0.080142 ±   0.000319
+Maximum KLD:   6.251925
+99.9%   KLD:   1.256165
+99.0%   KLD:   0.545236
+99.0%   KLD:   0.545236
+Median  KLD:   0.043817
+10.0%   KLD:   0.000973
+ 5.0%   KLD:   0.000158
+ 1.0%   KLD:   0.000006
+Minimum KLD:  -0.000183
+====== Token probability statistics ======
+Mean    Δp: -0.308 ± 0.018 %
+Maximum Δp: 90.671%
+99.9%   Δp: 40.078%
+99.0%   Δp: 20.806%
+95.0%   Δp:  9.213%
+90.0%   Δp:  4.792%
+75.0%   Δp:  0.558%
+Median  Δp: -0.000%
+25.0%   Δp: -0.862%
+10.0%   Δp: -5.664%
+ 5.0%   Δp: -10.659%
+ 1.0%   Δp: -25.039%
+ 0.1%   Δp: -47.819%
+Minimum Δp: -89.317%
+RMS Δp    :  6.946 ± 0.038 %
+Same top p: 86.343 ± 0.089 %
+llama_perf_context_print:        load time =    1821.07 ms
+llama_perf_context_print: prompt eval time = 1019684.89 ms / 299008 tokens (    3.41 ms per token,   293.24 tokens per second)
+llama_perf_context_print:        eval time =       0.00 ms /     1 runs   (    0.00 ms per token,      inf tokens per second)
+llama_perf_context_print:       total time = 1045149.32 ms / 299009 tokens
+ggml_metal_free: deallocating

scores/deepseek-r1-distill-qwen-7b-q3_k_m.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  25.889366 ±   0.253265
+Mean PPL(base)                :  24.931431 ±   0.241228
+Cor(ln(PPL(Q)), ln(PPL(base))):  98.77%
+Mean ln(PPL(Q)/PPL(base))     :   0.037703 ±   0.001531
+Mean PPL(Q)/PPL(base)         :   1.038423 ±   0.001590
+Mean PPL(Q)-PPL(base)         :   0.957936 ±   0.040635
+====== KL divergence statistics ======
+Mean    KLD:   0.091519 ±   0.000361
+Maximum KLD:   8.082105
+99.9%   KLD:   1.367977
+99.0%   KLD:   0.621550
+99.0%   KLD:   0.621550
+Median  KLD:   0.049987
+10.0%   KLD:   0.001159
+ 5.0%   KLD:   0.000199
+ 1.0%   KLD:   0.000009
+Minimum KLD:  -0.000175
+====== Token probability statistics ======
+Mean    Δp: -0.368 ± 0.019 %
+Maximum Δp: 86.561%
+99.9%   Δp: 43.423%
+99.0%   Δp: 22.085%
+95.0%   Δp:  9.741%
+90.0%   Δp:  5.056%
+75.0%   Δp:  0.582%
+Median  Δp: -0.001%
+25.0%   Δp: -0.958%
+10.0%   Δp: -6.146%
+ 5.0%   Δp: -11.492%
+ 1.0%   Δp: -26.685%
+ 0.1%   Δp: -50.676%
+Minimum Δp: -89.036%
+RMS Δp    :  7.422 ± 0.040 %
+Same top p: 85.436 ± 0.091 %

scores/deepseek-r1-distill-qwen-7b-q3_k_s.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  26.552814 ±   0.258782
+Mean PPL(base)                :  24.931431 ±   0.241228
+Cor(ln(PPL(Q)), ln(PPL(base))):  97.86%
+Mean ln(PPL(Q)/PPL(base))     :   0.063006 ±   0.002011
+Mean PPL(Q)/PPL(base)         :   1.065034 ±   0.002142
+Mean PPL(Q)-PPL(base)         :   1.621384 ±   0.054614
+====== KL divergence statistics ======
+Mean    KLD:   0.164859 ±   0.000610
+Maximum KLD:   8.583980
+99.9%   KLD:   2.315967
+99.0%   KLD:   1.085407
+99.0%   KLD:   1.085407
+Median  KLD:   0.093793
+10.0%   KLD:   0.002759
+ 5.0%   KLD:   0.000509
+ 1.0%   KLD:   0.000027
+Minimum KLD:  -0.000053
+====== Token probability statistics ======
+Mean    Δp: -1.105 ± 0.025 %
+Maximum Δp: 95.542%
+99.9%   Δp: 53.440%
+99.0%   Δp: 27.342%
+95.0%   Δp: 11.606%
+90.0%   Δp:  5.754%
+75.0%   Δp:  0.494%
+Median  Δp: -0.008%
+25.0%   Δp: -1.857%
+10.0%   Δp: -9.691%
+ 5.0%   Δp: -17.127%
+ 1.0%   Δp: -37.275%
+ 0.1%   Δp: -65.081%
+Minimum Δp: -94.606%
+RMS Δp    :  9.854 ± 0.049 %
+Same top p: 80.956 ± 0.102 %

scores/deepseek-r1-distill-qwen-7b-q4_k_m.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  25.409863 ±   0.248331
+Mean PPL(base)                :  24.931431 ±   0.241228
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.58%
+Mean ln(PPL(Q)/PPL(base))     :   0.019008 ±   0.000899
+Mean PPL(Q)/PPL(base)         :   1.019190 ±   0.000916
+Mean PPL(Q)-PPL(base)         :   0.478433 ±   0.023588
+====== KL divergence statistics ======
+Mean    KLD:   0.027115 ±   0.000104
+Maximum KLD:   2.016436
+99.9%   KLD:   0.391155
+99.0%   KLD:   0.179995
+99.0%   KLD:   0.179995
+Median  KLD:   0.015400
+10.0%   KLD:   0.000310
+ 5.0%   KLD:   0.000046
+ 1.0%   KLD:   0.000000
+Minimum KLD:  -0.000275
+====== Token probability statistics ======
+Mean    Δp: -0.073 ± 0.010 %
+Maximum Δp: 66.267%
+99.9%   Δp: 25.309%
+99.0%   Δp: 12.706%
+95.0%   Δp:  5.590%
+90.0%   Δp:  2.959%
+75.0%   Δp:  0.362%
+Median  Δp: -0.000%
+25.0%   Δp: -0.466%
+10.0%   Δp: -3.166%
+ 5.0%   Δp: -5.937%
+ 1.0%   Δp: -13.474%
+ 0.1%   Δp: -26.235%
+Minimum Δp: -66.500%
+RMS Δp    :  4.030 ± 0.024 %
+Same top p: 91.745 ± 0.071 %

scores/deepseek-r1-distill-qwen-7b-q4_k_s.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  25.379497 ±   0.247973
+Mean PPL(base)                :  24.931431 ±   0.241228
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.52%
+Mean ln(PPL(Q)/PPL(base))     :   0.017812 ±   0.000955
+Mean PPL(Q)/PPL(base)         :   1.017972 ±   0.000972
+Mean PPL(Q)-PPL(base)         :   0.448067 ±   0.024845
+====== KL divergence statistics ======
+Mean    KLD:   0.032033 ±   0.000122
+Maximum KLD:   1.726200
+99.9%   KLD:   0.461810
+99.0%   KLD:   0.211016
+99.0%   KLD:   0.211016
+Median  KLD:   0.017953
+10.0%   KLD:   0.000386
+ 5.0%   KLD:   0.000063
+ 1.0%   KLD:   0.000001
+Minimum KLD:  -0.000295
+====== Token probability statistics ======
+Mean    Δp: -0.088 ± 0.011 %
+Maximum Δp: 67.370%
+99.9%   Δp: 27.270%
+99.0%   Δp: 13.595%
+95.0%   Δp:  5.977%
+90.0%   Δp:  3.182%
+75.0%   Δp:  0.383%
+Median  Δp: -0.000%
+25.0%   Δp: -0.511%
+10.0%   Δp: -3.408%
+ 5.0%   Δp: -6.399%
+ 1.0%   Δp: -14.558%
+ 0.1%   Δp: -29.089%
+Minimum Δp: -68.450%
+RMS Δp    :  4.330 ± 0.025 %
+Same top p: 91.049 ± 0.074 %

scores/deepseek-r1-distill-qwen-7b-q5_k_m.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  25.331908 ±   0.247609
+Mean PPL(base)                :  24.931431 ±   0.241228
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.81%
+Mean ln(PPL(Q)/PPL(base))     :   0.015935 ±   0.000613
+Mean PPL(Q)/PPL(base)         :   1.016063 ±   0.000623
+Mean PPL(Q)-PPL(base)         :   0.400477 ±   0.016493
+====== KL divergence statistics ======
+Mean    KLD:   0.008227 ±   0.000037
+Maximum KLD:   3.104945
+99.9%   KLD:   0.117209
+99.0%   KLD:   0.052437
+99.0%   KLD:   0.052437
+Median  KLD:   0.004830
+10.0%   KLD:   0.000092
+ 5.0%   KLD:   0.000012
+ 1.0%   KLD:  -0.000002
+Minimum KLD:  -0.000180
+====== Token probability statistics ======
+Mean    Δp: -0.032 ± 0.006 %
+Maximum Δp: 38.164%
+99.9%   Δp: 13.916%
+99.0%   Δp:  6.928%
+95.0%   Δp:  3.133%
+90.0%   Δp:  1.652%
+75.0%   Δp:  0.209%
+Median  Δp: -0.000%
+25.0%   Δp: -0.248%
+10.0%   Δp: -1.741%
+ 5.0%   Δp: -3.275%
+ 1.0%   Δp: -7.358%
+ 0.1%   Δp: -14.696%
+Minimum Δp: -60.848%
+RMS Δp    :  2.211 ± 0.014 %
+Same top p: 95.381 ± 0.054 %

scores/deepseek-r1-distill-qwen-7b-q5_k_s.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  25.403544 ±   0.248578
+Mean PPL(base)                :  24.931431 ±   0.241228
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.79%
+Mean ln(PPL(Q)/PPL(base))     :   0.018759 ±   0.000634
+Mean PPL(Q)/PPL(base)         :   1.018936 ±   0.000646
+Mean PPL(Q)-PPL(base)         :   0.472114 ±   0.017348
+====== KL divergence statistics ======
+Mean    KLD:   0.009320 ±   0.000039
+Maximum KLD:   2.831377
+99.9%   KLD:   0.127923
+99.0%   KLD:   0.059484
+99.0%   KLD:   0.059484
+Median  KLD:   0.005393
+10.0%   KLD:   0.000103
+ 5.0%   KLD:   0.000013
+ 1.0%   KLD:  -0.000002
+Minimum KLD:  -0.000203
+====== Token probability statistics ======
+Mean    Δp: -0.016 ± 0.006 %
+Maximum Δp: 42.542%
+99.9%   Δp: 15.234%
+99.0%   Δp:  7.440%
+95.0%   Δp:  3.334%
+90.0%   Δp:  1.787%
+75.0%   Δp:  0.232%
+Median  Δp: -0.000%
+25.0%   Δp: -0.256%
+10.0%   Δp: -1.792%
+ 5.0%   Δp: -3.371%
+ 1.0%   Δp: -7.776%
+ 0.1%   Δp: -15.189%
+Minimum Δp: -60.684%
+RMS Δp    :  2.343 ± 0.015 %
+Same top p: 95.099 ± 0.056 %

scores/deepseek-r1-distill-qwen-7b-q6_k.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  25.139045 ±   0.245198
+Mean PPL(base)                :  24.931431 ±   0.241228
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.87%
+Mean ln(PPL(Q)/PPL(base))     :   0.008293 ±   0.000501
+Mean PPL(Q)/PPL(base)         :   1.008327 ±   0.000505
+Mean PPL(Q)-PPL(base)         :   0.207614 ±   0.013014
+====== KL divergence statistics ======
+Mean    KLD:   0.003335 ±   0.000014
+Maximum KLD:   1.228119
+99.9%   KLD:   0.039909
+99.0%   KLD:   0.019418
+99.0%   KLD:   0.019418
+Median  KLD:   0.002067
+10.0%   KLD:   0.000037
+ 5.0%   KLD:   0.000005
+ 1.0%   KLD:  -0.000004
+Minimum KLD:  -0.000159
+====== Token probability statistics ======
+Mean    Δp: -0.007 ± 0.004 %
+Maximum Δp: 22.155%
+99.9%   Δp:  8.711%
+99.0%   Δp:  4.504%
+95.0%   Δp:  2.060%
+90.0%   Δp:  1.096%
+75.0%   Δp:  0.141%
+Median  Δp: -0.000%
+25.0%   Δp: -0.153%
+10.0%   Δp: -1.126%
+ 5.0%   Δp: -2.115%
+ 1.0%   Δp: -4.485%
+ 0.1%   Δp: -8.494%
+Minimum Δp: -55.308%
+RMS Δp    :  1.402 ± 0.011 %
+Same top p: 96.985 ± 0.044 %

scores/deepseek-r1-distill-qwen-7b-q8_0.log ADDED Viewed

	@@ -0,0 +1,37 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  25.118649 ±   0.245079
+Mean PPL(base)                :  24.931431 ±   0.241228
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.91%
+Mean ln(PPL(Q)/PPL(base))     :   0.007481 ±   0.000431
+Mean PPL(Q)/PPL(base)         :   1.007509 ±   0.000434
+Mean PPL(Q)-PPL(base)         :   0.187218 ±   0.011259
+====== KL divergence statistics ======
+Mean    KLD:   0.000361 ±   0.000002
+Maximum KLD:   0.215854
+99.9%   KLD:   0.004745
+99.0%   KLD:   0.002203
+99.0%   KLD:   0.002203
+Median  KLD:   0.000212
+10.0%   KLD:   0.000002
+ 5.0%   KLD:  -0.000000
+ 1.0%   KLD:  -0.000014
+Minimum KLD:  -0.000127
+====== Token probability statistics ======
+Mean    Δp:  0.003 ± 0.001 %
+Maximum Δp: 24.559%
+99.9%   Δp:  2.974%
+99.0%   Δp:  1.523%
+95.0%   Δp:  0.686%
+90.0%   Δp:  0.364%
+75.0%   Δp:  0.050%
+Median  Δp:  0.000%
+25.0%   Δp: -0.047%
+10.0%   Δp: -0.356%
+ 5.0%   Δp: -0.670%
+ 1.0%   Δp: -1.484%
+ 0.1%   Δp: -2.907%
+Minimum Δp: -7.835%
+RMS Δp    :  0.468 ± 0.005 %
+Same top p: 98.983 ± 0.026 %