Astaxanthin
/

KEEP

@@ -29,14 +29,15 @@ class KEEPModel(PreTrainedModel):
         super().__init__(config)
         # Vision Encoder (基于 timm 的 ViT)
         self.visual = timm.create_model(
             "vit_large_patch16_224",
             pretrained=False,
-            img_size=224,
-            patch_size=16,
-            init_values=1e-5,
-            num_classes=0,
-            dynamic_img_size=True,
         )
         # 线性投影层，将 Vision Encoder 的输出投影到 768 维

         super().__init__(config)
         # Vision Encoder (基于 timm 的 ViT)
+        vision_config = config.vision_config
         self.visual = timm.create_model(
             "vit_large_patch16_224",
             pretrained=False,
+            img_size=vision_config.get("img_size", 224),
+            patch_size=vision_config.get("patch_size", 16),
+            init_values=vision_config.get("init_values", 1e-5),
+            num_classes=vision_config.get("num_classes", 0),
+            dynamic_img_size=vision_config.get("dynamic_img_size", True),
         )
         # 线性投影层，将 Vision Encoder 的输出投影到 768 维