Generate perplexity and kld scores

Browse files

Files changed (11) hide show

scores/Dolphin3.0-R1-Mistral-24B-IQ3_M.log +42 -0
scores/Dolphin3.0-R1-Mistral-24B-IQ3_S.log +42 -0
scores/Dolphin3.0-R1-Mistral-24B-IQ4_NL.log +42 -0
scores/Dolphin3.0-R1-Mistral-24B-Q3_K_L.log +42 -0
scores/Dolphin3.0-R1-Mistral-24B-Q3_K_M.log +42 -0
scores/Dolphin3.0-R1-Mistral-24B-Q3_K_S.log +42 -0
scores/Dolphin3.0-R1-Mistral-24B-Q4_K_M.log +42 -0
scores/Dolphin3.0-R1-Mistral-24B-Q4_K_S.log +42 -0
scores/Dolphin3.0-R1-Mistral-24B-Q5_K_M.log +42 -0
scores/Dolphin3.0-R1-Mistral-24B-Q6_K.log +42 -0
scores/Dolphin3.0-R1-Mistral-24B-Q8_0.log +42 -0

scores/Dolphin3.0-R1-Mistral-24B-IQ3_M.log ADDED Viewed

	@@ -0,0 +1,42 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  26.172864 ±   0.256006
+Mean PPL(base)                :  23.352232 ±   0.220841
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.01%
+Mean ln(PPL(Q)/PPL(base))     :   0.114031 ±   0.001391
+Mean PPL(Q)/PPL(base)         :   1.120786 ±   0.001559
+Mean PPL(Q)-PPL(base)         :   2.820631 ±   0.048526
+====== KL divergence statistics ======
+Mean    KLD:   0.078326 ±   0.000305
+Maximum KLD:   7.825869
+99.9%   KLD:   1.127171
+99.0%   KLD:   0.520127
+99.0%   KLD:   0.520127
+Median  KLD:   0.038346
+10.0%   KLD:   0.000902
+ 5.0%   KLD:   0.000207
+ 1.0%   KLD:   0.000001
+Minimum KLD:  -0.000505
+====== Token probability statistics ======
+Mean    Δp: -0.107 ± 0.018 %
+Maximum Δp: 86.241%
+99.9%   Δp: 39.725%
+99.0%   Δp: 22.115%
+95.0%   Δp:  9.997%
+90.0%   Δp:  5.175%
+75.0%   Δp:  0.626%
+Median  Δp: -0.000%
+25.0%   Δp: -0.677%
+10.0%   Δp: -5.458%
+ 5.0%   Δp: -10.553%
+ 1.0%   Δp: -23.853%
+ 0.1%   Δp: -43.880%
+Minimum Δp: -97.767%
+RMS Δp    :  6.900 ± 0.035 %
+Same top p: 88.021 ± 0.083 %
+llama_perf_context_print:        load time =   82098.99 ms
+llama_perf_context_print: prompt eval time = 1718829.57 ms / 304128 tokens (    5.65 ms per token,   176.94 tokens per second)
+llama_perf_context_print:        eval time =       0.00 ms /     1 runs   (    0.00 ms per token,      inf tokens per second)
+llama_perf_context_print:       total time = 1775127.52 ms / 304129 tokens

scores/Dolphin3.0-R1-Mistral-24B-IQ3_S.log ADDED Viewed

	@@ -0,0 +1,42 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  26.143038 ±   0.254443
+Mean PPL(base)                :  23.352232 ±   0.220841
+Cor(ln(PPL(Q)), ln(PPL(base))):  98.95%
+Mean ln(PPL(Q)/PPL(base))     :   0.112890 ±   0.001420
+Mean PPL(Q)/PPL(base)         :   1.119509 ±   0.001590
+Mean PPL(Q)-PPL(base)         :   2.790806 ±   0.048102
+====== KL divergence statistics ======
+Mean    KLD:   0.082486 ±   0.000324
+Maximum KLD:   8.223216
+99.9%   KLD:   1.163796
+99.0%   KLD:   0.554553
+99.0%   KLD:   0.554553
+Median  KLD:   0.040744
+10.0%   KLD:   0.000979
+ 5.0%   KLD:   0.000241
+ 1.0%   KLD:   0.000008
+Minimum KLD:  -0.000550
+====== Token probability statistics ======
+Mean    Δp: -0.290 ± 0.018 %
+Maximum Δp: 83.668%
+99.9%   Δp: 39.492%
+99.0%   Δp: 22.349%
+95.0%   Δp: 10.000%
+90.0%   Δp:  4.974%
+75.0%   Δp:  0.538%
+Median  Δp: -0.001%
+25.0%   Δp: -0.805%
+10.0%   Δp: -5.962%
+ 5.0%   Δp: -11.458%
+ 1.0%   Δp: -25.491%
+ 0.1%   Δp: -47.606%
+Minimum Δp: -94.438%
+RMS Δp    :  7.163 ± 0.036 %
+Same top p: 87.635 ± 0.085 %
+llama_perf_context_print:        load time =   80439.51 ms
+llama_perf_context_print: prompt eval time = 1705180.19 ms / 304128 tokens (    5.61 ms per token,   178.36 tokens per second)
+llama_perf_context_print:        eval time =       0.00 ms /     1 runs   (    0.00 ms per token,      inf tokens per second)
+llama_perf_context_print:       total time = 1852832.45 ms / 304129 tokens

scores/Dolphin3.0-R1-Mistral-24B-IQ4_NL.log ADDED Viewed

	@@ -0,0 +1,42 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  23.491557 ±   0.221754
+Mean PPL(base)                :  23.352232 ±   0.220841
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.65%
+Mean ln(PPL(Q)/PPL(base))     :   0.005948 ±   0.000786
+Mean PPL(Q)/PPL(base)         :   1.005966 ±   0.000791
+Mean PPL(Q)-PPL(base)         :   0.139324 ±   0.018431
+====== KL divergence statistics ======
+Mean    KLD:   0.025519 ±   0.000102
+Maximum KLD:   2.251977
+99.9%   KLD:   0.379603
+99.0%   KLD:   0.171840
+99.0%   KLD:   0.171840
+Median  KLD:   0.012414
+10.0%   KLD:   0.000339
+ 5.0%   KLD:   0.000079
+ 1.0%   KLD:  -0.000015
+Minimum KLD:  -0.000684
+====== Token probability statistics ======
+Mean    Δp: -0.210 ± 0.010 %
+Maximum Δp: 56.116%
+99.9%   Δp: 23.081%
+99.0%   Δp: 12.242%
+95.0%   Δp:  5.439%
+90.0%   Δp:  2.734%
+75.0%   Δp:  0.282%
+Median  Δp: -0.000%
+25.0%   Δp: -0.493%
+10.0%   Δp: -3.448%
+ 5.0%   Δp: -6.500%
+ 1.0%   Δp: -14.293%
+ 0.1%   Δp: -27.100%
+Minimum Δp: -67.311%
+RMS Δp    :  4.044 ± 0.022 %
+Same top p: 92.678 ± 0.067 %
+llama_perf_context_print:        load time =  103365.78 ms
+llama_perf_context_print: prompt eval time = 1896464.64 ms / 304128 tokens (    6.24 ms per token,   160.37 tokens per second)
+llama_perf_context_print:        eval time =       0.00 ms /     1 runs   (    0.00 ms per token,      inf tokens per second)
+llama_perf_context_print:       total time = 1956813.06 ms / 304129 tokens

scores/Dolphin3.0-R1-Mistral-24B-Q3_K_L.log ADDED Viewed

	@@ -0,0 +1,42 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  24.550639 ±   0.235362
+Mean PPL(base)                :  23.352232 ±   0.220841
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.30%
+Mean ln(PPL(Q)/PPL(base))     :   0.050045 ±   0.001135
+Mean PPL(Q)/PPL(base)         :   1.051319 ±   0.001194
+Mean PPL(Q)-PPL(base)         :   1.198406 ±   0.030666
+====== KL divergence statistics ======
+Mean    KLD:   0.053089 ±   0.000213
+Maximum KLD:   4.851488
+99.9%   KLD:   0.770215
+99.0%   KLD:   0.362664
+99.0%   KLD:   0.362664
+Median  KLD:   0.025806
+10.0%   KLD:   0.000577
+ 5.0%   KLD:   0.000120
+ 1.0%   KLD:  -0.000018
+Minimum KLD:  -0.000444
+====== Token probability statistics ======
+Mean    Δp: -0.115 ± 0.015 %
+Maximum Δp: 82.459%
+99.9%   Δp: 33.908%
+99.0%   Δp: 18.275%
+95.0%   Δp:  8.313%
+90.0%   Δp:  4.302%
+75.0%   Δp:  0.536%
+Median  Δp: -0.000%
+25.0%   Δp: -0.557%
+10.0%   Δp: -4.600%
+ 5.0%   Δp: -8.973%
+ 1.0%   Δp: -20.298%
+ 0.1%   Δp: -38.592%
+Minimum Δp: -79.558%
+RMS Δp    :  5.840 ± 0.030 %
+Same top p: 89.673 ± 0.078 %
+llama_perf_context_print:        load time =   95100.93 ms
+llama_perf_context_print: prompt eval time = 1924525.06 ms / 304128 tokens (    6.33 ms per token,   158.03 tokens per second)
+llama_perf_context_print:        eval time =       0.00 ms /     1 runs   (    0.00 ms per token,      inf tokens per second)
+llama_perf_context_print:       total time = 2042841.27 ms / 304129 tokens

scores/Dolphin3.0-R1-Mistral-24B-Q3_K_M.log ADDED Viewed

	@@ -0,0 +1,42 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  24.806925 ±   0.237610
+Mean PPL(base)                :  23.352232 ±   0.220841
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.16%
+Mean ln(PPL(Q)/PPL(base))     :   0.060430 ±   0.001239
+Mean PPL(Q)/PPL(base)         :   1.062293 ±   0.001316
+Mean PPL(Q)-PPL(base)         :   1.454692 ±   0.034094
+====== KL divergence statistics ======
+Mean    KLD:   0.063828 ±   0.000254
+Maximum KLD:   4.249581
+99.9%   KLD:   0.920882
+99.0%   KLD:   0.436885
+99.0%   KLD:   0.436885
+Median  KLD:   0.031026
+10.0%   KLD:   0.000750
+ 5.0%   KLD:   0.000177
+ 1.0%   KLD:   0.000000
+Minimum KLD:  -0.000455
+====== Token probability statistics ======
+Mean    Δp: -0.257 ± 0.016 %
+Maximum Δp: 73.489%
+99.9%   Δp: 36.078%
+99.0%   Δp: 19.828%
+95.0%   Δp:  8.789%
+90.0%   Δp:  4.486%
+75.0%   Δp:  0.496%
+Median  Δp: -0.000%
+25.0%   Δp: -0.687%
+10.0%   Δp: -5.257%
+ 5.0%   Δp: -10.230%
+ 1.0%   Δp: -22.714%
+ 0.1%   Δp: -43.074%
+Minimum Δp: -90.990%
+RMS Δp    :  6.411 ± 0.033 %
+Same top p: 88.802 ± 0.081 %
+llama_perf_context_print:        load time =   87933.48 ms
+llama_perf_context_print: prompt eval time = 1845252.27 ms / 304128 tokens (    6.07 ms per token,   164.82 tokens per second)
+llama_perf_context_print:        eval time =       0.00 ms /     1 runs   (    0.00 ms per token,      inf tokens per second)
+llama_perf_context_print:       total time = 1979075.22 ms / 304129 tokens

scores/Dolphin3.0-R1-Mistral-24B-Q3_K_S.log ADDED Viewed

	@@ -0,0 +1,42 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  39.396539 ±   0.409082
+Mean PPL(base)                :  23.352232 ±   0.220841
+Cor(ln(PPL(Q)), ln(PPL(base))):  94.50%
+Mean ln(PPL(Q)/PPL(base))     :   0.522985 ±   0.003415
+Mean PPL(Q)/PPL(base)         :   1.687057 ±   0.005762
+Mean PPL(Q)-PPL(base)         :  16.044307 ±   0.213016
+====== KL divergence statistics ======
+Mean    KLD:   0.448856 ±   0.001660
+Maximum KLD:  11.228906
+99.9%   KLD:   5.432167
+99.0%   KLD:   3.097294
+99.0%   KLD:   3.097294
+Median  KLD:   0.213731
+10.0%   KLD:   0.005922
+ 5.0%   KLD:   0.001612
+ 1.0%   KLD:   0.000166
+Minimum KLD:  -0.000425
+====== Token probability statistics ======
+Mean    Δp: -2.648 ± 0.043 %
+Maximum Δp: 96.523%
+99.9%   Δp: 66.438%
+99.0%   Δp: 40.723%
+95.0%   Δp: 18.234%
+90.0%   Δp:  8.706%
+75.0%   Δp:  0.595%
+Median  Δp: -0.023%
+25.0%   Δp: -2.797%
+10.0%   Δp: -17.572%
+ 5.0%   Δp: -33.515%
+ 1.0%   Δp: -71.845%
+ 0.1%   Δp: -94.533%
+Minimum Δp: -99.575%
+RMS Δp    : 16.773 ± 0.071 %
+Same top p: 74.363 ± 0.112 %
+llama_perf_context_print:        load time =   79800.46 ms
+llama_perf_context_print: prompt eval time = 1798108.56 ms / 304128 tokens (    5.91 ms per token,   169.14 tokens per second)
+llama_perf_context_print:        eval time =       0.00 ms /     1 runs   (    0.00 ms per token,      inf tokens per second)
+llama_perf_context_print:       total time = 1960563.16 ms / 304129 tokens

scores/Dolphin3.0-R1-Mistral-24B-Q4_K_M.log ADDED Viewed

	@@ -0,0 +1,42 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  24.940671 ±   0.241913
+Mean PPL(base)                :  23.352232 ±   0.220841
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.60%
+Mean ln(PPL(Q)/PPL(base))     :   0.065807 ±   0.000886
+Mean PPL(Q)/PPL(base)         :   1.068021 ±   0.000947
+Mean PPL(Q)-PPL(base)         :   1.588438 ±   0.029452
+====== KL divergence statistics ======
+Mean    KLD:   0.030244 ±   0.000124
+Maximum KLD:   2.276901
+99.9%   KLD:   0.467041
+99.0%   KLD:   0.202787
+99.0%   KLD:   0.202787
+Median  KLD:   0.014692
+10.0%   KLD:   0.000262
+ 5.0%   KLD:   0.000030
+ 1.0%   KLD:  -0.000070
+Minimum KLD:  -0.000565
+====== Token probability statistics ======
+Mean    Δp:  0.252 ± 0.011 %
+Maximum Δp: 56.165%
+99.9%   Δp: 26.367%
+99.0%   Δp: 14.890%
+95.0%   Δp:  7.165%
+90.0%   Δp:  3.916%
+75.0%   Δp:  0.648%
+Median  Δp:  0.000%
+25.0%   Δp: -0.249%
+10.0%   Δp: -2.747%
+ 5.0%   Δp: -5.791%
+ 1.0%   Δp: -14.128%
+ 0.1%   Δp: -27.579%
+Minimum Δp: -73.858%
+RMS Δp    :  4.403 ± 0.023 %
+Same top p: 92.309 ± 0.068 %
+llama_perf_context_print:        load time =  288598.22 ms
+llama_perf_context_print: prompt eval time = 1999513.57 ms / 304128 tokens (    6.57 ms per token,   152.10 tokens per second)
+llama_perf_context_print:        eval time =       0.00 ms /     1 runs   (    0.00 ms per token,      inf tokens per second)
+llama_perf_context_print:       total time = 2559785.48 ms / 304129 tokens

scores/Dolphin3.0-R1-Mistral-24B-Q4_K_S.log ADDED Viewed

	@@ -0,0 +1,42 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  23.315818 ±   0.220552
+Mean PPL(base)                :  23.352232 ±   0.220841
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.50%
+Mean ln(PPL(Q)/PPL(base))     :  -0.001561 ±   0.000949
+Mean PPL(Q)/PPL(base)         :   0.998441 ±   0.000948
+Mean PPL(Q)-PPL(base)         :  -0.036415 ±   0.022157
+====== KL divergence statistics ======
+Mean    KLD:   0.037680 ±   0.000153
+Maximum KLD:   5.026946
+99.9%   KLD:   0.544697
+99.0%   KLD:   0.251806
+99.0%   KLD:   0.251806
+Median  KLD:   0.018222
+10.0%   KLD:   0.000471
+ 5.0%   KLD:   0.000107
+ 1.0%   KLD:  -0.000012
+Minimum KLD:  -0.000554
+====== Token probability statistics ======
+Mean    Δp:  0.151 ± 0.012 %
+Maximum Δp: 80.430%
+99.9%   Δp: 29.435%
+99.0%   Δp: 16.228%
+95.0%   Δp:  7.580%
+90.0%   Δp:  4.031%
+75.0%   Δp:  0.584%
+Median  Δp:  0.000%
+25.0%   Δp: -0.350%
+10.0%   Δp: -3.338%
+ 5.0%   Δp: -6.778%
+ 1.0%   Δp: -15.802%
+ 0.1%   Δp: -30.165%
+Minimum Δp: -63.405%
+RMS Δp    :  4.833 ± 0.025 %
+Same top p: 91.410 ± 0.072 %
+llama_perf_context_print:        load time =  103826.14 ms
+llama_perf_context_print: prompt eval time = 1941845.24 ms / 304128 tokens (    6.38 ms per token,   156.62 tokens per second)
+llama_perf_context_print:        eval time =       0.00 ms /     1 runs   (    0.00 ms per token,      inf tokens per second)
+llama_perf_context_print:       total time = 2633698.11 ms / 304129 tokens

scores/Dolphin3.0-R1-Mistral-24B-Q5_K_M.log ADDED Viewed

	@@ -0,0 +1,42 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  24.304562 ±   0.233045
+Mean PPL(base)                :  23.352232 ±   0.220841
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.74%
+Mean ln(PPL(Q)/PPL(base))     :   0.039971 ±   0.000693
+Mean PPL(Q)/PPL(base)         :   1.040781 ±   0.000721
+Mean PPL(Q)-PPL(base)         :   0.952329 ±   0.020290
+====== KL divergence statistics ======
+Mean    KLD:   0.019001 ±   0.000084
+Maximum KLD:   2.667997
+99.9%   KLD:   0.307100
+99.0%   KLD:   0.131595
+99.0%   KLD:   0.131595
+Median  KLD:   0.009005
+10.0%   KLD:   0.000235
+ 5.0%   KLD:   0.000046
+ 1.0%   KLD:  -0.000033
+Minimum KLD:  -0.000534
+====== Token probability statistics ======
+Mean    Δp: -0.033 ± 0.009 %
+Maximum Δp: 53.497%
+99.9%   Δp: 21.400%
+99.0%   Δp: 11.091%
+95.0%   Δp:  4.986%
+90.0%   Δp:  2.607%
+75.0%   Δp:  0.323%
+Median  Δp: -0.000%
+25.0%   Δp: -0.333%
+10.0%   Δp: -2.621%
+ 5.0%   Δp: -5.142%
+ 1.0%   Δp: -11.765%
+ 0.1%   Δp: -23.329%
+Minimum Δp: -88.396%
+RMS Δp    :  3.498 ± 0.021 %
+Same top p: 93.797 ± 0.062 %
+llama_perf_context_print:        load time =  128672.98 ms
+llama_perf_context_print: prompt eval time = 2206637.86 ms / 304128 tokens (    7.26 ms per token,   137.82 tokens per second)
+llama_perf_context_print:        eval time =       0.00 ms /     1 runs   (    0.00 ms per token,      inf tokens per second)
+llama_perf_context_print:       total time = 2358244.53 ms / 304129 tokens

scores/Dolphin3.0-R1-Mistral-24B-Q6_K.log ADDED Viewed

	@@ -0,0 +1,42 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  24.415348 ±   0.234385
+Mean PPL(base)                :  23.352232 ±   0.220841
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.79%
+Mean ln(PPL(Q)/PPL(base))     :   0.044519 ±   0.000634
+Mean PPL(Q)/PPL(base)         :   1.045525 ±   0.000663
+Mean PPL(Q)-PPL(base)         :   1.063116 ±   0.020031
+====== KL divergence statistics ======
+Mean    KLD:   0.015503 ±   0.000075
+Maximum KLD:   3.272221
+99.9%   KLD:   0.267841
+99.0%   KLD:   0.107995
+99.0%   KLD:   0.107995
+Median  KLD:   0.007291
+10.0%   KLD:   0.000184
+ 5.0%   KLD:   0.000033
+ 1.0%   KLD:  -0.000041
+Minimum KLD:  -0.000471
+====== Token probability statistics ======
+Mean    Δp: -0.008 ± 0.008 %
+Maximum Δp: 80.786%
+99.9%   Δp: 18.971%
+99.0%   Δp: 10.037%
+95.0%   Δp:  4.585%
+90.0%   Δp:  2.431%
+75.0%   Δp:  0.317%
+Median  Δp: -0.000%
+25.0%   Δp: -0.289%
+10.0%   Δp: -2.327%
+ 5.0%   Δp: -4.593%
+ 1.0%   Δp: -10.622%
+ 0.1%   Δp: -22.631%
+Minimum Δp: -95.612%
+RMS Δp    :  3.201 ± 0.022 %
+Same top p: 94.448 ± 0.059 %
+llama_perf_context_print:        load time =  134148.25 ms
+llama_perf_context_print: prompt eval time = 2502976.05 ms / 304128 tokens (    8.23 ms per token,   121.51 tokens per second)
+llama_perf_context_print:        eval time =       0.00 ms /     1 runs   (    0.00 ms per token,      inf tokens per second)
+llama_perf_context_print:       total time = 3009280.06 ms / 304129 tokens

scores/Dolphin3.0-R1-Mistral-24B-Q8_0.log ADDED Viewed

	@@ -0,0 +1,42 @@

+====== Perplexity statistics ======
+Mean PPL(Q)                   :  23.519878 ±   0.223215
+Mean PPL(base)                :  23.352232 ±   0.220841
+Cor(ln(PPL(Q)), ln(PPL(base))):  99.96%
+Mean ln(PPL(Q)/PPL(base))     :   0.007153 ±   0.000271
+Mean PPL(Q)/PPL(base)         :   1.007179 ±   0.000273
+Mean PPL(Q)-PPL(base)         :   0.167646 ±   0.006738
+====== KL divergence statistics ======
+Mean    KLD:   0.002318 ±   0.000013
+Maximum KLD:   0.848010
+99.9%   KLD:   0.043823
+99.0%   KLD:   0.015801
+99.0%   KLD:   0.015801
+Median  KLD:   0.001166
+10.0%   KLD:   0.000025
+ 5.0%   KLD:  -0.000001
+ 1.0%   KLD:  -0.000063
+Minimum KLD:  -0.000401
+====== Token probability statistics ======
+Mean    Δp:  0.006 ± 0.003 %
+Maximum Δp: 26.906%
+99.9%   Δp:  7.636%
+99.0%   Δp:  4.056%
+95.0%   Δp:  1.919%
+90.0%   Δp:  0.994%
+75.0%   Δp:  0.127%
+Median  Δp: -0.000%
+25.0%   Δp: -0.119%
+10.0%   Δp: -0.958%
+ 5.0%   Δp: -1.871%
+ 1.0%   Δp: -4.090%
+ 0.1%   Δp: -7.817%
+Minimum Δp: -20.640%
+RMS Δp    :  1.266 ± 0.008 %
+Same top p: 97.778 ± 0.038 %
+llama_perf_context_print:        load time =    3238.55 ms
+llama_perf_context_print: prompt eval time = 2842839.16 ms / 304128 tokens (    9.35 ms per token,   106.98 tokens per second)
+llama_perf_context_print:        eval time =       0.00 ms /     1 runs   (    0.00 ms per token,      inf tokens per second)
+llama_perf_context_print:       total time = 2975924.16 ms / 304129 tokens