@@ -40,10 +40,10 @@ pip install -v .
40
40
# install requirements
41
41
cd examples/huggingface/pytorch/text-generation/quantization
42
42
pip install -r requirements.txt
43
- pip install neural-compressor==2.6
43
+ pip install neural-compressor==3.0
44
44
pip install torch==2.3.0+cpu --index-url https://download.pytorch.org/whl/cpu
45
45
# 4.38.1 is only limited by smoothquant
46
- pip install transformers==4.38.1
46
+ pip install transformers==4.38.2 # 4.42.4 for mistralai/Mistral-7B-v0. 1
47
47
# ipex is only necessary for smoothquant
48
48
pip install intel-extension-for-pytorch==2.3.0
49
49
```
@@ -61,7 +61,7 @@ python run_generation_sq.py \
61
61
--tasks lambada_openai \
62
62
--sq \
63
63
--accuracy \
64
- --eval_batch_size 56 \
64
+ --eval_batch_size 1 \
65
65
--alpha 0.85
66
66
```
67
67
@@ -115,7 +115,7 @@ python run_generation_sq.py \
115
115
--tasks lambada_openai \
116
116
--sq \
117
117
--accuracy \
118
- --eval_batch_size 56 \
118
+ --eval_batch_size 1 \
119
119
--alpha 0.9
120
120
```
121
121
@@ -169,7 +169,7 @@ python run_generation_sq.py \
169
169
--tasks lambada_openai \
170
170
--sq \
171
171
--accuracy \
172
- --eval_batch_size 56 \
172
+ --eval_batch_size 1 \
173
173
--alpha 0.5
174
174
```
175
175
@@ -222,13 +222,15 @@ python run_generation_sq.py \
222
222
--tasks lambada_openai \
223
223
--sq \
224
224
--accuracy \
225
- --batch_size 1 \
225
+ --eval_batch_size 1 \
226
226
--init_alpha 0.8 \
227
- --alpha_min 0.8 \
227
+ --alpha_min 0.79 \
228
228
--alpha_max 0.99 \
229
229
--alpha_step 0.01 \
230
230
--shared_criterion mean \
231
231
--seq_len 2048 \
232
+ --shuffle \
233
+ --n_samples 512 \
232
234
--alpha auto
233
235
```
234
236
@@ -278,16 +280,18 @@ python run_generation_cpu_woq.py \
278
280
python run_generation_sq.py \
279
281
--model meta-llama/Llama-2-13b-hf \
280
282
--output_dir ./saved_results \
281
- --seq_len 1024 \
282
283
--tasks lambada_openai \
283
284
--sq \
284
285
--accuracy \
285
- --batch_size 1 \
286
+ --eval_batch_size 1 \
287
+ --seq_len 1024 \
286
288
--init_alpha 0.8 \
287
289
--alpha_min 0.75 \
288
290
--alpha_max 0.99 \
289
291
--alpha_step 0.01 \
290
292
--shared_criterion max \
293
+ --padding \
294
+ --n_samples 512 \
291
295
--alpha auto
292
296
```
293
297
@@ -340,8 +344,9 @@ python run_generation_sq.py \
340
344
--tasks lambada_openai \
341
345
--sq \
342
346
--accuracy \
343
- --eval_batch_size 56 \
344
- --alpha 0.8
347
+ --eval_batch_size 1 \
348
+ --alpha 0.8 \
349
+ --n_samples 512
345
350
```
346
351
347
352
### Weight-Only Quantization
@@ -394,7 +399,7 @@ python run_generation_sq.py \
394
399
--tasks lambada_openai \
395
400
--sq \
396
401
--accuracy \
397
- --eval_batch_size 56 \
402
+ --eval_batch_size 1 \
398
403
--alpha 0.9
399
404
```
400
405
@@ -447,7 +452,7 @@ python run_generation_sq.py \
447
452
--trust_remote_code \
448
453
--tasks lambada_openai \
449
454
--sq --accuracy \
450
- --batch_size 1 \
455
+ --eval_batch_size 1 \
451
456
--alpha 0.95
452
457
```
453
458
@@ -500,7 +505,7 @@ python run_generation_sq.py \
500
505
--tasks lambada_openai \
501
506
--sq \
502
507
--accuracy \
503
- --eval_batch_size 56 \
508
+ --eval_batch_size 1 \
504
509
--alpha 0.95
505
510
```
506
511
@@ -554,7 +559,7 @@ python run_generation_sq.py \
554
559
--tasks lambada_openai \
555
560
--sq \
556
561
--accuracy \
557
- --eval_batch_size 56 \
562
+ --eval_batch_size 1 \
558
563
--alpha 0.65
559
564
```
560
565
@@ -607,7 +612,7 @@ python run_generation_sq.py \
607
612
--trust_remote_code \
608
613
--tasks lambada_openai \
609
614
--sq --accuracy \
610
- --batch_size 1 \
615
+ --eval_batch_size 1 \
611
616
--alpha 0.5
612
617
```
613
618
@@ -662,8 +667,13 @@ python run_generation_sq.py \
662
667
--tasks lambada_openai \
663
668
--sq \
664
669
--accuracy \
665
- --eval_batch_size 56 \
666
- --alpha 0.75
670
+ --eval_batch_size 1 \
671
+ --init_alpha 0.7 \
672
+ --alpha_min 0.55 \
673
+ --alpha_max 0.8 \
674
+ --alpha_step 0.01 \
675
+ --shared_criterion mean \
676
+ --n_samples 512
667
677
```
668
678
669
679
### Weight-Only Quantization
@@ -715,8 +725,12 @@ python run_generation_sq.py \
715
725
--tasks lambada_openai \
716
726
--sq \
717
727
--accuracy \
718
- --eval_batch_size 56 \
719
- --alpha 0.9
728
+ --eval_batch_size 1 \
729
+ --init_alpha 0.85 \
730
+ --alpha_min 0.79 \
731
+ --alpha_max 0.88 \
732
+ --alpha_step 0.01 \
733
+ --shared_criterion mean
720
734
```
721
735
722
736
### Weight-Only Quantization
@@ -768,7 +782,7 @@ python run_generation_sq.py \
768
782
--tasks lambada_openai \
769
783
--sq \
770
784
--accuracy \
771
- --eval_batch_size 56 \
785
+ --eval_batch_size 1 \
772
786
--alpha 0.6
773
787
```
774
788
@@ -821,7 +835,7 @@ python run_generation_sq.py \
821
835
--tasks lambada_openai \
822
836
--sq \
823
837
--accuracy \
824
- --eval_batch_size 56 \
838
+ --eval_batch_size 1 \
825
839
--alpha 0.7
826
840
```
827
841
@@ -874,7 +888,7 @@ python run_generation_sq.py \
874
888
--tasks lambada_openai \
875
889
--sq \
876
890
--accuracy \
877
- --eval_batch_size 56 \
891
+ --eval_batch_size 1 \
878
892
--alpha 0.75
879
893
```
880
894
@@ -896,10 +910,10 @@ python run_generation_cpu_woq.py \
896
910
--woq_algo GPTQ \
897
911
--bits 4 \
898
912
--weight_dtype int4 \
899
- --desc_act \
900
- --seq_len 2048 \
901
- --scheme sym \
902
- --group_size 32 \
913
+ --scheme asym \
914
+ --group_size 128 \
915
+ --use_mse_search \
916
+ --n_samples 128
903
917
--accuracy
904
918
905
919
# int4 AutoRound
@@ -927,7 +941,7 @@ python run_generation_sq.py \
927
941
--tasks lambada_openai \
928
942
--sq \
929
943
--accuracy \
930
- --eval_batch_size 56 \
944
+ --eval_batch_size 1 \
931
945
--alpha 0.75
932
946
```
933
947
0 commit comments