Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

config.json +0 -0
model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +25 -73
recipe.yaml +1 -1

config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea372538cf59768508624be88431d34477f0f5064d87ff5d4ad40c1a2cd012d3
-size 5000641848

 version https://git-lfs.github.com/spec/v1
+oid sha256:d35795482399c22b20165089b381739017b132adeb3208e74f9808da6700ae61
+size 5000680840

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:528a85dedde41455807faf4c52950325f4bf83ff8b609d489725f438d87bf916
-size 3311202632

 version https://git-lfs.github.com/spec/v1
+oid sha256:889d27f737530f2c0b5ab3187f74e33024baa5d25a6362cc15e69f0428c6bfe9
+size 3311230472

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 8310164736
   },
   "weight_map": {
     "lm_head.weight": "model-00002-of-00002.safetensors",
@@ -556,9 +556,7 @@
     "model.layers.0.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.0.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.0.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.0.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.0.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.0.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.0.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -1126,9 +1124,7 @@
     "model.layers.1.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.1.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.1.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.1.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.1.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.1.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.1.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -1696,9 +1692,7 @@
     "model.layers.10.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.10.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.10.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.10.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.10.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.10.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.10.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -2266,9 +2260,7 @@
     "model.layers.11.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.11.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.11.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.11.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.11.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.11.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.11.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -2836,9 +2828,7 @@
     "model.layers.12.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.12.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.12.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.12.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.12.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.12.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.12.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -3406,9 +3396,7 @@
     "model.layers.13.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.13.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.13.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.13.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.13.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.13.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.13.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -3976,9 +3964,7 @@
     "model.layers.14.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.14.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.14.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
-    "model.layers.14.mlp.shared_expert_gate.weight_packed": "model-00002-of-00002.safetensors",
-    "model.layers.14.mlp.shared_expert_gate.weight_scale": "model-00002-of-00002.safetensors",
-    "model.layers.14.mlp.shared_expert_gate.weight_shape": "model-00002-of-00002.safetensors",
     "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.14.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -4546,9 +4532,7 @@
     "model.layers.15.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.15.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.15.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
-    "model.layers.15.mlp.shared_expert_gate.weight_packed": "model-00002-of-00002.safetensors",
-    "model.layers.15.mlp.shared_expert_gate.weight_scale": "model-00002-of-00002.safetensors",
-    "model.layers.15.mlp.shared_expert_gate.weight_shape": "model-00002-of-00002.safetensors",
     "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.15.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
@@ -5116,9 +5100,7 @@
     "model.layers.16.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.16.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.16.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
-    "model.layers.16.mlp.shared_expert_gate.weight_packed": "model-00002-of-00002.safetensors",
-    "model.layers.16.mlp.shared_expert_gate.weight_scale": "model-00002-of-00002.safetensors",
-    "model.layers.16.mlp.shared_expert_gate.weight_shape": "model-00002-of-00002.safetensors",
     "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.16.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
@@ -5686,9 +5668,7 @@
     "model.layers.17.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.17.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.17.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
-    "model.layers.17.mlp.shared_expert_gate.weight_packed": "model-00002-of-00002.safetensors",
-    "model.layers.17.mlp.shared_expert_gate.weight_scale": "model-00002-of-00002.safetensors",
-    "model.layers.17.mlp.shared_expert_gate.weight_shape": "model-00002-of-00002.safetensors",
     "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.17.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
@@ -6256,9 +6236,7 @@
     "model.layers.18.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.18.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.18.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
-    "model.layers.18.mlp.shared_expert_gate.weight_packed": "model-00002-of-00002.safetensors",
-    "model.layers.18.mlp.shared_expert_gate.weight_scale": "model-00002-of-00002.safetensors",
-    "model.layers.18.mlp.shared_expert_gate.weight_shape": "model-00002-of-00002.safetensors",
     "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.18.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
@@ -6826,9 +6804,7 @@
     "model.layers.19.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.19.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.19.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
-    "model.layers.19.mlp.shared_expert_gate.weight_packed": "model-00002-of-00002.safetensors",
-    "model.layers.19.mlp.shared_expert_gate.weight_scale": "model-00002-of-00002.safetensors",
-    "model.layers.19.mlp.shared_expert_gate.weight_shape": "model-00002-of-00002.safetensors",
     "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.19.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.19.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
@@ -7396,9 +7372,7 @@
     "model.layers.2.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.2.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.2.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.2.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -7966,9 +7940,7 @@
     "model.layers.20.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.20.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.20.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
-    "model.layers.20.mlp.shared_expert_gate.weight_packed": "model-00002-of-00002.safetensors",
-    "model.layers.20.mlp.shared_expert_gate.weight_scale": "model-00002-of-00002.safetensors",
-    "model.layers.20.mlp.shared_expert_gate.weight_shape": "model-00002-of-00002.safetensors",
     "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.20.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.20.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
@@ -8536,9 +8508,7 @@
     "model.layers.21.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
-    "model.layers.21.mlp.shared_expert_gate.weight_packed": "model-00002-of-00002.safetensors",
-    "model.layers.21.mlp.shared_expert_gate.weight_scale": "model-00002-of-00002.safetensors",
-    "model.layers.21.mlp.shared_expert_gate.weight_shape": "model-00002-of-00002.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.21.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
@@ -9106,9 +9076,7 @@
     "model.layers.22.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
-    "model.layers.22.mlp.shared_expert_gate.weight_packed": "model-00002-of-00002.safetensors",
-    "model.layers.22.mlp.shared_expert_gate.weight_scale": "model-00002-of-00002.safetensors",
-    "model.layers.22.mlp.shared_expert_gate.weight_shape": "model-00002-of-00002.safetensors",
     "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.22.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
@@ -9676,9 +9644,7 @@
     "model.layers.23.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.23.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.23.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
-    "model.layers.23.mlp.shared_expert_gate.weight_packed": "model-00002-of-00002.safetensors",
-    "model.layers.23.mlp.shared_expert_gate.weight_scale": "model-00002-of-00002.safetensors",
-    "model.layers.23.mlp.shared_expert_gate.weight_shape": "model-00002-of-00002.safetensors",
     "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.23.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
@@ -10246,9 +10212,7 @@
     "model.layers.3.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.3.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.3.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.3.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.3.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.3.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.3.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -10816,9 +10780,7 @@
     "model.layers.4.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.4.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.4.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.4.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.4.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.4.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.4.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -11386,9 +11348,7 @@
     "model.layers.5.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.5.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.5.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.5.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.5.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.5.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.5.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -11956,9 +11916,7 @@
     "model.layers.6.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.6.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.6.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.6.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.6.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.6.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.6.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -12526,9 +12484,7 @@
     "model.layers.7.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.7.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.7.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.7.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.7.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.7.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.7.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -13096,9 +13052,7 @@
     "model.layers.8.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.8.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.8.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.8.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.8.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.8.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.8.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
@@ -13666,9 +13620,7 @@
     "model.layers.9.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.9.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.9.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
-    "model.layers.9.mlp.shared_expert_gate.weight_packed": "model-00001-of-00002.safetensors",
-    "model.layers.9.mlp.shared_expert_gate.weight_scale": "model-00001-of-00002.safetensors",
-    "model.layers.9.mlp.shared_expert_gate.weight_shape": "model-00001-of-00002.safetensors",
     "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.9.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",

 {
   "metadata": {
+    "total_size": 8310237312
   },
   "weight_map": {
     "lm_head.weight": "model-00002-of-00002.safetensors",
     "model.layers.0.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.0.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.0.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.0.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.1.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.1.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.1.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.1.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.10.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.10.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.10.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.10.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.11.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.11.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.11.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.11.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.12.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.12.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.12.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.12.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.13.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.13.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.13.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.13.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.14.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.14.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.14.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
+    "model.layers.14.mlp.shared_expert_gate.weight": "model-00002-of-00002.safetensors",
     "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.14.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.15.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.15.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.15.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
+    "model.layers.15.mlp.shared_expert_gate.weight": "model-00002-of-00002.safetensors",
     "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.15.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.16.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.16.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.16.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
+    "model.layers.16.mlp.shared_expert_gate.weight": "model-00002-of-00002.safetensors",
     "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.16.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.17.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.17.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.17.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
+    "model.layers.17.mlp.shared_expert_gate.weight": "model-00002-of-00002.safetensors",
     "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.17.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.18.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.18.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.18.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.shared_expert_gate.weight": "model-00002-of-00002.safetensors",
     "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.18.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.19.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.19.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.19.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.shared_expert_gate.weight": "model-00002-of-00002.safetensors",
     "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.19.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.19.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.2.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.20.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.20.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.20.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.shared_expert_gate.weight": "model-00002-of-00002.safetensors",
     "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.20.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.20.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.shared_expert_gate.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.21.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.shared_expert_gate.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.22.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.23.mlp.shared_expert.up_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.23.mlp.shared_expert.up_proj.weight_scale": "model-00002-of-00002.safetensors",
     "model.layers.23.mlp.shared_expert.up_proj.weight_shape": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.shared_expert_gate.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.23.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
     "model.layers.23.self_attn.k_proj.weight_packed": "model-00002-of-00002.safetensors",
     "model.layers.3.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.3.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.3.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.3.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.4.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.4.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.4.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.4.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.5.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.5.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.5.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.5.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.6.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.6.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.6.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.6.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.7.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.7.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.7.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.7.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.8.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.8.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.8.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.8.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.9.mlp.shared_expert.up_proj.weight_packed": "model-00001-of-00002.safetensors",
     "model.layers.9.mlp.shared_expert.up_proj.weight_scale": "model-00001-of-00002.safetensors",
     "model.layers.9.mlp.shared_expert.up_proj.weight_shape": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.shared_expert_gate.weight": "model-00001-of-00002.safetensors",
     "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
     "model.layers.9.self_attn.k_proj.weight_packed": "model-00001-of-00002.safetensors",

recipe.yaml CHANGED Viewed

@@ -3,4 +3,4 @@ DEFAULT_stage:
     GPTQModifier:
       scheme: W4A16
       targets: Linear
-      ignore: [lm_head, 're:.*mlp.gate$']

     GPTQModifier:
       scheme: W4A16
       targets: Linear
+      ignore: [lm_head, 're:.*mlp.gate$', 're:.*mlp.shared_expert_gate$']