Upload 16 files

Browse files

Files changed (17) hide show

.gitattributes +1 -0
README.md +77 -3
Test.json +1027 -0
Train.json +0 -0
assets/datasample.PNG +3 -0
assets/overview.PNG +0 -0
environment.yml +23 -0
main.py +245 -0
merge.py +32 -0
optimizers/__init__.py +0 -0
optimizers/lr_scheduler.py +100 -0
test.py +145 -0
trainer.py +223 -0
utils/__init__.py +0 -0
utils/data_utils.py +169 -0
utils/textswin_unetr.py +1081 -0
utils/utils.py +69 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+assets/datasample.PNG filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,77 @@
----
-license: mit
----

+# TextBraTS
+A volume-level text-image public dataset with novel text-guided 3D brain tumor segmentation from BraTS challenge.
+---
+## Introduction
+**TextBraTS** is an open-access dataset designed to advance research in text-guided 3D brain tumor segmentation. It includes paired multi-modal brain MRI scans and expertly annotated radiology reports, enabling the development and evaluation of multi-modal deep learning models that bridge vision and language in neuro-oncology. Our work has been accepted by MICCAI 2025. The paper is also available on arXiv: [2506.16784](https://arxiv.org/abs/2506.16784).
+![TextBraTS datasample](assets/datasample.PNG)
+## Features
+- Multi-modal 3D brain MRI scans with expert-annotated segmentation (T1, T1ce, T2, FLAIR) from BraTS20 challenge training set
+- Structured radiology reports for each case
+- Text-image alignment method for research on multi-modal fusion
+![TextBraTS Overview](assets/overview.PNG)
+## Usage
+You can use this dataset for:
+- Developing and benchmarking text-guided segmentation models
+- Evaluating multi-modal fusion algorithms in medical imaging
+- Research in language-driven medical AI
+## Installing Dependencies
+Run the following commands to set up the environment:
+<pre>conda env create -f environment.yml
+pip install git+https://github.com/Project-MONAI/MONAI.git@07de215c </pre>
+If you need to activate the environment, use:
+<pre>conda activate TextBraTS </pre>
+## Dataset
+Due to BraTS official guidelines, MRI images must be downloaded directly from the [BraTS 2020 challenge website](https://www.med.upenn.edu/cbica/brats2020/data.html) (training set).
+**Download our text, feature, and prompt files:**
+You can download our dataset from [TextBraTSData](https://drive.google.com/file/d/1i1R6_bVY4VbNtxEIQVsiXUSWuVAtgJhg/view?usp=sharing).
+Our provided text reports, feature files, and prompt files are named to match the original BraTS folder IDs exactly. You can set the path and simply merge them with the downloaded MRI data by `merge.py`.
+<pre>python merge.py</pre>
+If you would like to change the dataset split, please modify the `Train.json` and `Test.json` files accordingly.
+## Inference
+We provide our pre-trained weights for direct inference and evaluation.
+Download the weights from [checkpoint](https://drive.google.com/file/d/147283LL2fRDcTYR_vQA-95vbZysjjD1v/view?usp=sharing).
+After downloading, place the weights in your desired directory, then run the `test.py` with following command for inference:
+<pre>python test.py --pretrained_dir=/path/to/your/weights/ --exp_name=TextBraTS</pre>
+## Training
+If you would like to train the model from scratch, you can modify the training code `main.py` and please use the following command:
+<pre>python main.py --distributed --use_ssl_pretrained --save_checkpoint --logdir=TextBraTS</pre>
+- The `--use_ssl_pretrained` option utilizes the pre-trained weights from NVIDIA's Swin UNETR model.
+- Download the Swin UNETR pre-trained weights from [Pre-trained weights](https://drive.google.com/file/d/1FJ0N_Xo3olzAV-oojEkAsbsUgiFsoPdl/view?usp=sharing).
+- Please place the downloaded weights in the appropriate directory as specified in your configuration or script.
+## Citation
+If you use TextBraTS in your research, please cite:
+```bibtex
+@inproceedings{shi2025textbrats,
+  title = {TextBraTS: Text-Guided Volumetric Brain Tumor Segmentation with Innovative Dataset Development and Fusion Module Exploration},
+  author = {Shi, Xiaoyu and Jain, Rahul Kumar and Li, Yinhao and Hou, Ruibo and Cheng, Jingliang and Bai, Jie and Zhao, Guohua and Lin, Lanfen and Xu, Rui and Chen, Yen-wei},
+  booktitle = {Proceedings of the International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI)},
+  year = {2025},
+  note = {to appear}
+}

Test.json ADDED Viewed

	@@ -0,0 +1,1027 @@

+{
+    "training": [
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_101/BraTS20_Training_101_flair.nii.gz",
+                "BraTS20_Training_101/BraTS20_Training_101_t1.nii.gz",
+                "BraTS20_Training_101/BraTS20_Training_101_t1ce.nii.gz",
+                "BraTS20_Training_101/BraTS20_Training_101_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_101/BraTS20_Training_101_seg.nii.gz",
+            "text_feature": "BraTS20_Training_101/BraTS20_Training_101_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_005/BraTS20_Training_005_flair.nii.gz",
+                "BraTS20_Training_005/BraTS20_Training_005_t1.nii.gz",
+                "BraTS20_Training_005/BraTS20_Training_005_t1ce.nii.gz",
+                "BraTS20_Training_005/BraTS20_Training_005_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_005/BraTS20_Training_005_seg.nii.gz",
+            "text_feature": "BraTS20_Training_005/BraTS20_Training_005_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_173/BraTS20_Training_173_flair.nii.gz",
+                "BraTS20_Training_173/BraTS20_Training_173_t1.nii.gz",
+                "BraTS20_Training_173/BraTS20_Training_173_t1ce.nii.gz",
+                "BraTS20_Training_173/BraTS20_Training_173_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_173/BraTS20_Training_173_seg.nii.gz",
+            "text_feature": "BraTS20_Training_173/BraTS20_Training_173_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_241/BraTS20_Training_241_flair.nii.gz",
+                "BraTS20_Training_241/BraTS20_Training_241_t1.nii.gz",
+                "BraTS20_Training_241/BraTS20_Training_241_t1ce.nii.gz",
+                "BraTS20_Training_241/BraTS20_Training_241_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_241/BraTS20_Training_241_seg.nii.gz",
+            "text_feature": "BraTS20_Training_241/BraTS20_Training_241_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_309/BraTS20_Training_309_flair.nii.gz",
+                "BraTS20_Training_309/BraTS20_Training_309_t1.nii.gz",
+                "BraTS20_Training_309/BraTS20_Training_309_t1ce.nii.gz",
+                "BraTS20_Training_309/BraTS20_Training_309_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_309/BraTS20_Training_309_seg.nii.gz",
+            "text_feature": "BraTS20_Training_309/BraTS20_Training_309_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_258/BraTS20_Training_258_flair.nii.gz",
+                "BraTS20_Training_258/BraTS20_Training_258_t1.nii.gz",
+                "BraTS20_Training_258/BraTS20_Training_258_t1ce.nii.gz",
+                "BraTS20_Training_258/BraTS20_Training_258_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_258/BraTS20_Training_258_seg.nii.gz",
+            "text_feature": "BraTS20_Training_258/BraTS20_Training_258_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_194/BraTS20_Training_194_flair.nii.gz",
+                "BraTS20_Training_194/BraTS20_Training_194_t1.nii.gz",
+                "BraTS20_Training_194/BraTS20_Training_194_t1ce.nii.gz",
+                "BraTS20_Training_194/BraTS20_Training_194_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_194/BraTS20_Training_194_seg.nii.gz",
+            "text_feature": "BraTS20_Training_194/BraTS20_Training_194_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_103/BraTS20_Training_103_flair.nii.gz",
+                "BraTS20_Training_103/BraTS20_Training_103_t1.nii.gz",
+                "BraTS20_Training_103/BraTS20_Training_103_t1ce.nii.gz",
+                "BraTS20_Training_103/BraTS20_Training_103_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_103/BraTS20_Training_103_seg.nii.gz",
+            "text_feature": "BraTS20_Training_103/BraTS20_Training_103_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_170/BraTS20_Training_170_flair.nii.gz",
+                "BraTS20_Training_170/BraTS20_Training_170_t1.nii.gz",
+                "BraTS20_Training_170/BraTS20_Training_170_t1ce.nii.gz",
+                "BraTS20_Training_170/BraTS20_Training_170_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_170/BraTS20_Training_170_seg.nii.gz",
+            "text_feature": "BraTS20_Training_170/BraTS20_Training_170_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_268/BraTS20_Training_268_flair.nii.gz",
+                "BraTS20_Training_268/BraTS20_Training_268_t1.nii.gz",
+                "BraTS20_Training_268/BraTS20_Training_268_t1ce.nii.gz",
+                "BraTS20_Training_268/BraTS20_Training_268_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_268/BraTS20_Training_268_seg.nii.gz",
+            "text_feature": "BraTS20_Training_268/BraTS20_Training_268_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_346/BraTS20_Training_346_flair.nii.gz",
+                "BraTS20_Training_346/BraTS20_Training_346_t1.nii.gz",
+                "BraTS20_Training_346/BraTS20_Training_346_t1ce.nii.gz",
+                "BraTS20_Training_346/BraTS20_Training_346_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_346/BraTS20_Training_346_seg.nii.gz",
+            "text_feature": "BraTS20_Training_346/BraTS20_Training_346_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_149/BraTS20_Training_149_flair.nii.gz",
+                "BraTS20_Training_149/BraTS20_Training_149_t1.nii.gz",
+                "BraTS20_Training_149/BraTS20_Training_149_t1ce.nii.gz",
+                "BraTS20_Training_149/BraTS20_Training_149_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_149/BraTS20_Training_149_seg.nii.gz",
+            "text_feature": "BraTS20_Training_149/BraTS20_Training_149_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_367/BraTS20_Training_367_flair.nii.gz",
+                "BraTS20_Training_367/BraTS20_Training_367_t1.nii.gz",
+                "BraTS20_Training_367/BraTS20_Training_367_t1ce.nii.gz",
+                "BraTS20_Training_367/BraTS20_Training_367_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_367/BraTS20_Training_367_seg.nii.gz",
+            "text_feature": "BraTS20_Training_367/BraTS20_Training_367_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_220/BraTS20_Training_220_flair.nii.gz",
+                "BraTS20_Training_220/BraTS20_Training_220_t1.nii.gz",
+                "BraTS20_Training_220/BraTS20_Training_220_t1ce.nii.gz",
+                "BraTS20_Training_220/BraTS20_Training_220_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_220/BraTS20_Training_220_seg.nii.gz",
+            "text_feature": "BraTS20_Training_220/BraTS20_Training_220_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_368/BraTS20_Training_368_flair.nii.gz",
+                "BraTS20_Training_368/BraTS20_Training_368_t1.nii.gz",
+                "BraTS20_Training_368/BraTS20_Training_368_t1ce.nii.gz",
+                "BraTS20_Training_368/BraTS20_Training_368_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_368/BraTS20_Training_368_seg.nii.gz",
+            "text_feature": "BraTS20_Training_368/BraTS20_Training_368_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_289/BraTS20_Training_289_flair.nii.gz",
+                "BraTS20_Training_289/BraTS20_Training_289_t1.nii.gz",
+                "BraTS20_Training_289/BraTS20_Training_289_t1ce.nii.gz",
+                "BraTS20_Training_289/BraTS20_Training_289_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_289/BraTS20_Training_289_seg.nii.gz",
+            "text_feature": "BraTS20_Training_289/BraTS20_Training_289_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_084/BraTS20_Training_084_flair.nii.gz",
+                "BraTS20_Training_084/BraTS20_Training_084_t1.nii.gz",
+                "BraTS20_Training_084/BraTS20_Training_084_t1ce.nii.gz",
+                "BraTS20_Training_084/BraTS20_Training_084_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_084/BraTS20_Training_084_seg.nii.gz",
+            "text_feature": "BraTS20_Training_084/BraTS20_Training_084_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_277/BraTS20_Training_277_flair.nii.gz",
+                "BraTS20_Training_277/BraTS20_Training_277_t1.nii.gz",
+                "BraTS20_Training_277/BraTS20_Training_277_t1ce.nii.gz",
+                "BraTS20_Training_277/BraTS20_Training_277_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_277/BraTS20_Training_277_seg.nii.gz",
+            "text_feature": "BraTS20_Training_277/BraTS20_Training_277_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_202/BraTS20_Training_202_flair.nii.gz",
+                "BraTS20_Training_202/BraTS20_Training_202_t1.nii.gz",
+                "BraTS20_Training_202/BraTS20_Training_202_t1ce.nii.gz",
+                "BraTS20_Training_202/BraTS20_Training_202_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_202/BraTS20_Training_202_seg.nii.gz",
+            "text_feature": "BraTS20_Training_202/BraTS20_Training_202_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_151/BraTS20_Training_151_flair.nii.gz",
+                "BraTS20_Training_151/BraTS20_Training_151_t1.nii.gz",
+                "BraTS20_Training_151/BraTS20_Training_151_t1ce.nii.gz",
+                "BraTS20_Training_151/BraTS20_Training_151_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_151/BraTS20_Training_151_seg.nii.gz",
+            "text_feature": "BraTS20_Training_151/BraTS20_Training_151_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_142/BraTS20_Training_142_flair.nii.gz",
+                "BraTS20_Training_142/BraTS20_Training_142_t1.nii.gz",
+                "BraTS20_Training_142/BraTS20_Training_142_t1ce.nii.gz",
+                "BraTS20_Training_142/BraTS20_Training_142_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_142/BraTS20_Training_142_seg.nii.gz",
+            "text_feature": "BraTS20_Training_142/BraTS20_Training_142_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_229/BraTS20_Training_229_flair.nii.gz",
+                "BraTS20_Training_229/BraTS20_Training_229_t1.nii.gz",
+                "BraTS20_Training_229/BraTS20_Training_229_t1ce.nii.gz",
+                "BraTS20_Training_229/BraTS20_Training_229_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_229/BraTS20_Training_229_seg.nii.gz",
+            "text_feature": "BraTS20_Training_229/BraTS20_Training_229_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_322/BraTS20_Training_322_flair.nii.gz",
+                "BraTS20_Training_322/BraTS20_Training_322_t1.nii.gz",
+                "BraTS20_Training_322/BraTS20_Training_322_t1ce.nii.gz",
+                "BraTS20_Training_322/BraTS20_Training_322_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_322/BraTS20_Training_322_seg.nii.gz",
+            "text_feature": "BraTS20_Training_322/BraTS20_Training_322_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_278/BraTS20_Training_278_flair.nii.gz",
+                "BraTS20_Training_278/BraTS20_Training_278_t1.nii.gz",
+                "BraTS20_Training_278/BraTS20_Training_278_t1ce.nii.gz",
+                "BraTS20_Training_278/BraTS20_Training_278_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_278/BraTS20_Training_278_seg.nii.gz",
+            "text_feature": "BraTS20_Training_278/BraTS20_Training_278_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_206/BraTS20_Training_206_flair.nii.gz",
+                "BraTS20_Training_206/BraTS20_Training_206_t1.nii.gz",
+                "BraTS20_Training_206/BraTS20_Training_206_t1ce.nii.gz",
+                "BraTS20_Training_206/BraTS20_Training_206_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_206/BraTS20_Training_206_seg.nii.gz",
+            "text_feature": "BraTS20_Training_206/BraTS20_Training_206_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_049/BraTS20_Training_049_flair.nii.gz",
+                "BraTS20_Training_049/BraTS20_Training_049_t1.nii.gz",
+                "BraTS20_Training_049/BraTS20_Training_049_t1ce.nii.gz",
+                "BraTS20_Training_049/BraTS20_Training_049_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_049/BraTS20_Training_049_seg.nii.gz",
+            "text_feature": "BraTS20_Training_049/BraTS20_Training_049_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_115/BraTS20_Training_115_flair.nii.gz",
+                "BraTS20_Training_115/BraTS20_Training_115_t1.nii.gz",
+                "BraTS20_Training_115/BraTS20_Training_115_t1ce.nii.gz",
+                "BraTS20_Training_115/BraTS20_Training_115_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_115/BraTS20_Training_115_seg.nii.gz",
+            "text_feature": "BraTS20_Training_115/BraTS20_Training_115_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_147/BraTS20_Training_147_flair.nii.gz",
+                "BraTS20_Training_147/BraTS20_Training_147_t1.nii.gz",
+                "BraTS20_Training_147/BraTS20_Training_147_t1ce.nii.gz",
+                "BraTS20_Training_147/BraTS20_Training_147_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_147/BraTS20_Training_147_seg.nii.gz",
+            "text_feature": "BraTS20_Training_147/BraTS20_Training_147_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_226/BraTS20_Training_226_flair.nii.gz",
+                "BraTS20_Training_226/BraTS20_Training_226_t1.nii.gz",
+                "BraTS20_Training_226/BraTS20_Training_226_t1ce.nii.gz",
+                "BraTS20_Training_226/BraTS20_Training_226_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_226/BraTS20_Training_226_seg.nii.gz",
+            "text_feature": "BraTS20_Training_226/BraTS20_Training_226_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_066/BraTS20_Training_066_flair.nii.gz",
+                "BraTS20_Training_066/BraTS20_Training_066_t1.nii.gz",
+                "BraTS20_Training_066/BraTS20_Training_066_t1ce.nii.gz",
+                "BraTS20_Training_066/BraTS20_Training_066_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_066/BraTS20_Training_066_seg.nii.gz",
+            "text_feature": "BraTS20_Training_066/BraTS20_Training_066_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_124/BraTS20_Training_124_flair.nii.gz",
+                "BraTS20_Training_124/BraTS20_Training_124_t1.nii.gz",
+                "BraTS20_Training_124/BraTS20_Training_124_t1ce.nii.gz",
+                "BraTS20_Training_124/BraTS20_Training_124_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_124/BraTS20_Training_124_seg.nii.gz",
+            "text_feature": "BraTS20_Training_124/BraTS20_Training_124_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_274/BraTS20_Training_274_flair.nii.gz",
+                "BraTS20_Training_274/BraTS20_Training_274_t1.nii.gz",
+                "BraTS20_Training_274/BraTS20_Training_274_t1ce.nii.gz",
+                "BraTS20_Training_274/BraTS20_Training_274_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_274/BraTS20_Training_274_seg.nii.gz",
+            "text_feature": "BraTS20_Training_274/BraTS20_Training_274_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_290/BraTS20_Training_290_flair.nii.gz",
+                "BraTS20_Training_290/BraTS20_Training_290_t1.nii.gz",
+                "BraTS20_Training_290/BraTS20_Training_290_t1ce.nii.gz",
+                "BraTS20_Training_290/BraTS20_Training_290_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_290/BraTS20_Training_290_seg.nii.gz",
+            "text_feature": "BraTS20_Training_290/BraTS20_Training_290_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_200/BraTS20_Training_200_flair.nii.gz",
+                "BraTS20_Training_200/BraTS20_Training_200_t1.nii.gz",
+                "BraTS20_Training_200/BraTS20_Training_200_t1ce.nii.gz",
+                "BraTS20_Training_200/BraTS20_Training_200_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_200/BraTS20_Training_200_seg.nii.gz",
+            "text_feature": "BraTS20_Training_200/BraTS20_Training_200_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_121/BraTS20_Training_121_flair.nii.gz",
+                "BraTS20_Training_121/BraTS20_Training_121_t1.nii.gz",
+                "BraTS20_Training_121/BraTS20_Training_121_t1ce.nii.gz",
+                "BraTS20_Training_121/BraTS20_Training_121_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_121/BraTS20_Training_121_seg.nii.gz",
+            "text_feature": "BraTS20_Training_121/BraTS20_Training_121_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_082/BraTS20_Training_082_flair.nii.gz",
+                "BraTS20_Training_082/BraTS20_Training_082_t1.nii.gz",
+                "BraTS20_Training_082/BraTS20_Training_082_t1ce.nii.gz",
+                "BraTS20_Training_082/BraTS20_Training_082_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_082/BraTS20_Training_082_seg.nii.gz",
+            "text_feature": "BraTS20_Training_082/BraTS20_Training_082_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_052/BraTS20_Training_052_flair.nii.gz",
+                "BraTS20_Training_052/BraTS20_Training_052_t1.nii.gz",
+                "BraTS20_Training_052/BraTS20_Training_052_t1ce.nii.gz",
+                "BraTS20_Training_052/BraTS20_Training_052_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_052/BraTS20_Training_052_seg.nii.gz",
+            "text_feature": "BraTS20_Training_052/BraTS20_Training_052_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_104/BraTS20_Training_104_flair.nii.gz",
+                "BraTS20_Training_104/BraTS20_Training_104_t1.nii.gz",
+                "BraTS20_Training_104/BraTS20_Training_104_t1ce.nii.gz",
+                "BraTS20_Training_104/BraTS20_Training_104_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_104/BraTS20_Training_104_seg.nii.gz",
+            "text_feature": "BraTS20_Training_104/BraTS20_Training_104_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_062/BraTS20_Training_062_flair.nii.gz",
+                "BraTS20_Training_062/BraTS20_Training_062_t1.nii.gz",
+                "BraTS20_Training_062/BraTS20_Training_062_t1ce.nii.gz",
+                "BraTS20_Training_062/BraTS20_Training_062_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_062/BraTS20_Training_062_seg.nii.gz",
+            "text_feature": "BraTS20_Training_062/BraTS20_Training_062_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_214/BraTS20_Training_214_flair.nii.gz",
+                "BraTS20_Training_214/BraTS20_Training_214_t1.nii.gz",
+                "BraTS20_Training_214/BraTS20_Training_214_t1ce.nii.gz",
+                "BraTS20_Training_214/BraTS20_Training_214_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_214/BraTS20_Training_214_seg.nii.gz",
+            "text_feature": "BraTS20_Training_214/BraTS20_Training_214_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_360/BraTS20_Training_360_flair.nii.gz",
+                "BraTS20_Training_360/BraTS20_Training_360_t1.nii.gz",
+                "BraTS20_Training_360/BraTS20_Training_360_t1ce.nii.gz",
+                "BraTS20_Training_360/BraTS20_Training_360_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_360/BraTS20_Training_360_seg.nii.gz",
+            "text_feature": "BraTS20_Training_360/BraTS20_Training_360_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_041/BraTS20_Training_041_flair.nii.gz",
+                "BraTS20_Training_041/BraTS20_Training_041_t1.nii.gz",
+                "BraTS20_Training_041/BraTS20_Training_041_t1ce.nii.gz",
+                "BraTS20_Training_041/BraTS20_Training_041_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_041/BraTS20_Training_041_seg.nii.gz",
+            "text_feature": "BraTS20_Training_041/BraTS20_Training_041_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_009/BraTS20_Training_009_flair.nii.gz",
+                "BraTS20_Training_009/BraTS20_Training_009_t1.nii.gz",
+                "BraTS20_Training_009/BraTS20_Training_009_t1ce.nii.gz",
+                "BraTS20_Training_009/BraTS20_Training_009_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_009/BraTS20_Training_009_seg.nii.gz",
+            "text_feature": "BraTS20_Training_009/BraTS20_Training_009_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_347/BraTS20_Training_347_flair.nii.gz",
+                "BraTS20_Training_347/BraTS20_Training_347_t1.nii.gz",
+                "BraTS20_Training_347/BraTS20_Training_347_t1ce.nii.gz",
+                "BraTS20_Training_347/BraTS20_Training_347_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_347/BraTS20_Training_347_seg.nii.gz",
+            "text_feature": "BraTS20_Training_347/BraTS20_Training_347_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_330/BraTS20_Training_330_flair.nii.gz",
+                "BraTS20_Training_330/BraTS20_Training_330_t1.nii.gz",
+                "BraTS20_Training_330/BraTS20_Training_330_t1ce.nii.gz",
+                "BraTS20_Training_330/BraTS20_Training_330_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_330/BraTS20_Training_330_seg.nii.gz",
+            "text_feature": "BraTS20_Training_330/BraTS20_Training_330_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_122/BraTS20_Training_122_flair.nii.gz",
+                "BraTS20_Training_122/BraTS20_Training_122_t1.nii.gz",
+                "BraTS20_Training_122/BraTS20_Training_122_t1ce.nii.gz",
+                "BraTS20_Training_122/BraTS20_Training_122_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_122/BraTS20_Training_122_seg.nii.gz",
+            "text_feature": "BraTS20_Training_122/BraTS20_Training_122_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_340/BraTS20_Training_340_flair.nii.gz",
+                "BraTS20_Training_340/BraTS20_Training_340_t1.nii.gz",
+                "BraTS20_Training_340/BraTS20_Training_340_t1ce.nii.gz",
+                "BraTS20_Training_340/BraTS20_Training_340_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_340/BraTS20_Training_340_seg.nii.gz",
+            "text_feature": "BraTS20_Training_340/BraTS20_Training_340_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_028/BraTS20_Training_028_flair.nii.gz",
+                "BraTS20_Training_028/BraTS20_Training_028_t1.nii.gz",
+                "BraTS20_Training_028/BraTS20_Training_028_t1ce.nii.gz",
+                "BraTS20_Training_028/BraTS20_Training_028_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_028/BraTS20_Training_028_seg.nii.gz",
+            "text_feature": "BraTS20_Training_028/BraTS20_Training_028_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_265/BraTS20_Training_265_flair.nii.gz",
+                "BraTS20_Training_265/BraTS20_Training_265_t1.nii.gz",
+                "BraTS20_Training_265/BraTS20_Training_265_t1ce.nii.gz",
+                "BraTS20_Training_265/BraTS20_Training_265_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_265/BraTS20_Training_265_seg.nii.gz",
+            "text_feature": "BraTS20_Training_265/BraTS20_Training_265_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_192/BraTS20_Training_192_flair.nii.gz",
+                "BraTS20_Training_192/BraTS20_Training_192_t1.nii.gz",
+                "BraTS20_Training_192/BraTS20_Training_192_t1ce.nii.gz",
+                "BraTS20_Training_192/BraTS20_Training_192_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_192/BraTS20_Training_192_seg.nii.gz",
+            "text_feature": "BraTS20_Training_192/BraTS20_Training_192_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_255/BraTS20_Training_255_flair.nii.gz",
+                "BraTS20_Training_255/BraTS20_Training_255_t1.nii.gz",
+                "BraTS20_Training_255/BraTS20_Training_255_t1ce.nii.gz",
+                "BraTS20_Training_255/BraTS20_Training_255_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_255/BraTS20_Training_255_seg.nii.gz",
+            "text_feature": "BraTS20_Training_255/BraTS20_Training_255_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_137/BraTS20_Training_137_flair.nii.gz",
+                "BraTS20_Training_137/BraTS20_Training_137_t1.nii.gz",
+                "BraTS20_Training_137/BraTS20_Training_137_t1ce.nii.gz",
+                "BraTS20_Training_137/BraTS20_Training_137_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_137/BraTS20_Training_137_seg.nii.gz",
+            "text_feature": "BraTS20_Training_137/BraTS20_Training_137_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_001/BraTS20_Training_001_flair.nii.gz",
+                "BraTS20_Training_001/BraTS20_Training_001_t1.nii.gz",
+                "BraTS20_Training_001/BraTS20_Training_001_t1ce.nii.gz",
+                "BraTS20_Training_001/BraTS20_Training_001_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_001/BraTS20_Training_001_seg.nii.gz",
+            "text_feature": "BraTS20_Training_001/BraTS20_Training_001_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_182/BraTS20_Training_182_flair.nii.gz",
+                "BraTS20_Training_182/BraTS20_Training_182_t1.nii.gz",
+                "BraTS20_Training_182/BraTS20_Training_182_t1ce.nii.gz",
+                "BraTS20_Training_182/BraTS20_Training_182_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_182/BraTS20_Training_182_seg.nii.gz",
+            "text_feature": "BraTS20_Training_182/BraTS20_Training_182_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_235/BraTS20_Training_235_flair.nii.gz",
+                "BraTS20_Training_235/BraTS20_Training_235_t1.nii.gz",
+                "BraTS20_Training_235/BraTS20_Training_235_t1ce.nii.gz",
+                "BraTS20_Training_235/BraTS20_Training_235_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_235/BraTS20_Training_235_seg.nii.gz",
+            "text_feature": "BraTS20_Training_235/BraTS20_Training_235_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_299/BraTS20_Training_299_flair.nii.gz",
+                "BraTS20_Training_299/BraTS20_Training_299_t1.nii.gz",
+                "BraTS20_Training_299/BraTS20_Training_299_t1ce.nii.gz",
+                "BraTS20_Training_299/BraTS20_Training_299_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_299/BraTS20_Training_299_seg.nii.gz",
+            "text_feature": "BraTS20_Training_299/BraTS20_Training_299_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_019/BraTS20_Training_019_flair.nii.gz",
+                "BraTS20_Training_019/BraTS20_Training_019_t1.nii.gz",
+                "BraTS20_Training_019/BraTS20_Training_019_t1ce.nii.gz",
+                "BraTS20_Training_019/BraTS20_Training_019_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_019/BraTS20_Training_019_seg.nii.gz",
+            "text_feature": "BraTS20_Training_019/BraTS20_Training_019_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_061/BraTS20_Training_061_flair.nii.gz",
+                "BraTS20_Training_061/BraTS20_Training_061_t1.nii.gz",
+                "BraTS20_Training_061/BraTS20_Training_061_t1ce.nii.gz",
+                "BraTS20_Training_061/BraTS20_Training_061_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_061/BraTS20_Training_061_seg.nii.gz",
+            "text_feature": "BraTS20_Training_061/BraTS20_Training_061_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_250/BraTS20_Training_250_flair.nii.gz",
+                "BraTS20_Training_250/BraTS20_Training_250_t1.nii.gz",
+                "BraTS20_Training_250/BraTS20_Training_250_t1ce.nii.gz",
+                "BraTS20_Training_250/BraTS20_Training_250_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_250/BraTS20_Training_250_seg.nii.gz",
+            "text_feature": "BraTS20_Training_250/BraTS20_Training_250_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_249/BraTS20_Training_249_flair.nii.gz",
+                "BraTS20_Training_249/BraTS20_Training_249_t1.nii.gz",
+                "BraTS20_Training_249/BraTS20_Training_249_t1ce.nii.gz",
+                "BraTS20_Training_249/BraTS20_Training_249_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_249/BraTS20_Training_249_seg.nii.gz",
+            "text_feature": "BraTS20_Training_249/BraTS20_Training_249_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_168/BraTS20_Training_168_flair.nii.gz",
+                "BraTS20_Training_168/BraTS20_Training_168_t1.nii.gz",
+                "BraTS20_Training_168/BraTS20_Training_168_t1ce.nii.gz",
+                "BraTS20_Training_168/BraTS20_Training_168_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_168/BraTS20_Training_168_seg.nii.gz",
+            "text_feature": "BraTS20_Training_168/BraTS20_Training_168_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_313/BraTS20_Training_313_flair.nii.gz",
+                "BraTS20_Training_313/BraTS20_Training_313_t1.nii.gz",
+                "BraTS20_Training_313/BraTS20_Training_313_t1ce.nii.gz",
+                "BraTS20_Training_313/BraTS20_Training_313_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_313/BraTS20_Training_313_seg.nii.gz",
+            "text_feature": "BraTS20_Training_313/BraTS20_Training_313_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_248/BraTS20_Training_248_flair.nii.gz",
+                "BraTS20_Training_248/BraTS20_Training_248_t1.nii.gz",
+                "BraTS20_Training_248/BraTS20_Training_248_t1ce.nii.gz",
+                "BraTS20_Training_248/BraTS20_Training_248_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_248/BraTS20_Training_248_seg.nii.gz",
+            "text_feature": "BraTS20_Training_248/BraTS20_Training_248_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_280/BraTS20_Training_280_flair.nii.gz",
+                "BraTS20_Training_280/BraTS20_Training_280_t1.nii.gz",
+                "BraTS20_Training_280/BraTS20_Training_280_t1ce.nii.gz",
+                "BraTS20_Training_280/BraTS20_Training_280_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_280/BraTS20_Training_280_seg.nii.gz",
+            "text_feature": "BraTS20_Training_280/BraTS20_Training_280_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_156/BraTS20_Training_156_flair.nii.gz",
+                "BraTS20_Training_156/BraTS20_Training_156_t1.nii.gz",
+                "BraTS20_Training_156/BraTS20_Training_156_t1ce.nii.gz",
+                "BraTS20_Training_156/BraTS20_Training_156_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_156/BraTS20_Training_156_seg.nii.gz",
+            "text_feature": "BraTS20_Training_156/BraTS20_Training_156_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_275/BraTS20_Training_275_flair.nii.gz",
+                "BraTS20_Training_275/BraTS20_Training_275_t1.nii.gz",
+                "BraTS20_Training_275/BraTS20_Training_275_t1ce.nii.gz",
+                "BraTS20_Training_275/BraTS20_Training_275_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_275/BraTS20_Training_275_seg.nii.gz",
+            "text_feature": "BraTS20_Training_275/BraTS20_Training_275_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_076/BraTS20_Training_076_flair.nii.gz",
+                "BraTS20_Training_076/BraTS20_Training_076_t1.nii.gz",
+                "BraTS20_Training_076/BraTS20_Training_076_t1ce.nii.gz",
+                "BraTS20_Training_076/BraTS20_Training_076_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_076/BraTS20_Training_076_seg.nii.gz",
+            "text_feature": "BraTS20_Training_076/BraTS20_Training_076_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_327/BraTS20_Training_327_flair.nii.gz",
+                "BraTS20_Training_327/BraTS20_Training_327_t1.nii.gz",
+                "BraTS20_Training_327/BraTS20_Training_327_t1ce.nii.gz",
+                "BraTS20_Training_327/BraTS20_Training_327_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_327/BraTS20_Training_327_seg.nii.gz",
+            "text_feature": "BraTS20_Training_327/BraTS20_Training_327_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_059/BraTS20_Training_059_flair.nii.gz",
+                "BraTS20_Training_059/BraTS20_Training_059_t1.nii.gz",
+                "BraTS20_Training_059/BraTS20_Training_059_t1ce.nii.gz",
+                "BraTS20_Training_059/BraTS20_Training_059_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_059/BraTS20_Training_059_seg.nii.gz",
+            "text_feature": "BraTS20_Training_059/BraTS20_Training_059_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_199/BraTS20_Training_199_flair.nii.gz",
+                "BraTS20_Training_199/BraTS20_Training_199_t1.nii.gz",
+                "BraTS20_Training_199/BraTS20_Training_199_t1ce.nii.gz",
+                "BraTS20_Training_199/BraTS20_Training_199_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_199/BraTS20_Training_199_seg.nii.gz",
+            "text_feature": "BraTS20_Training_199/BraTS20_Training_199_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_044/BraTS20_Training_044_flair.nii.gz",
+                "BraTS20_Training_044/BraTS20_Training_044_t1.nii.gz",
+                "BraTS20_Training_044/BraTS20_Training_044_t1ce.nii.gz",
+                "BraTS20_Training_044/BraTS20_Training_044_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_044/BraTS20_Training_044_seg.nii.gz",
+            "text_feature": "BraTS20_Training_044/BraTS20_Training_044_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_320/BraTS20_Training_320_flair.nii.gz",
+                "BraTS20_Training_320/BraTS20_Training_320_t1.nii.gz",
+                "BraTS20_Training_320/BraTS20_Training_320_t1ce.nii.gz",
+                "BraTS20_Training_320/BraTS20_Training_320_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_320/BraTS20_Training_320_seg.nii.gz",
+            "text_feature": "BraTS20_Training_320/BraTS20_Training_320_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_093/BraTS20_Training_093_flair.nii.gz",
+                "BraTS20_Training_093/BraTS20_Training_093_t1.nii.gz",
+                "BraTS20_Training_093/BraTS20_Training_093_t1ce.nii.gz",
+                "BraTS20_Training_093/BraTS20_Training_093_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_093/BraTS20_Training_093_seg.nii.gz",
+            "text_feature": "BraTS20_Training_093/BraTS20_Training_093_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_224/BraTS20_Training_224_flair.nii.gz",
+                "BraTS20_Training_224/BraTS20_Training_224_t1.nii.gz",
+                "BraTS20_Training_224/BraTS20_Training_224_t1ce.nii.gz",
+                "BraTS20_Training_224/BraTS20_Training_224_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_224/BraTS20_Training_224_seg.nii.gz",
+            "text_feature": "BraTS20_Training_224/BraTS20_Training_224_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_225/BraTS20_Training_225_flair.nii.gz",
+                "BraTS20_Training_225/BraTS20_Training_225_t1.nii.gz",
+                "BraTS20_Training_225/BraTS20_Training_225_t1ce.nii.gz",
+                "BraTS20_Training_225/BraTS20_Training_225_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_225/BraTS20_Training_225_seg.nii.gz",
+            "text_feature": "BraTS20_Training_225/BraTS20_Training_225_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_218/BraTS20_Training_218_flair.nii.gz",
+                "BraTS20_Training_218/BraTS20_Training_218_t1.nii.gz",
+                "BraTS20_Training_218/BraTS20_Training_218_t1ce.nii.gz",
+                "BraTS20_Training_218/BraTS20_Training_218_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_218/BraTS20_Training_218_seg.nii.gz",
+            "text_feature": "BraTS20_Training_218/BraTS20_Training_218_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_014/BraTS20_Training_014_flair.nii.gz",
+                "BraTS20_Training_014/BraTS20_Training_014_t1.nii.gz",
+                "BraTS20_Training_014/BraTS20_Training_014_t1ce.nii.gz",
+                "BraTS20_Training_014/BraTS20_Training_014_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_014/BraTS20_Training_014_seg.nii.gz",
+            "text_feature": "BraTS20_Training_014/BraTS20_Training_014_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_264/BraTS20_Training_264_flair.nii.gz",
+                "BraTS20_Training_264/BraTS20_Training_264_t1.nii.gz",
+                "BraTS20_Training_264/BraTS20_Training_264_t1ce.nii.gz",
+                "BraTS20_Training_264/BraTS20_Training_264_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_264/BraTS20_Training_264_seg.nii.gz",
+            "text_feature": "BraTS20_Training_264/BraTS20_Training_264_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_071/BraTS20_Training_071_flair.nii.gz",
+                "BraTS20_Training_071/BraTS20_Training_071_t1.nii.gz",
+                "BraTS20_Training_071/BraTS20_Training_071_t1ce.nii.gz",
+                "BraTS20_Training_071/BraTS20_Training_071_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_071/BraTS20_Training_071_seg.nii.gz",
+            "text_feature": "BraTS20_Training_071/BraTS20_Training_071_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_167/BraTS20_Training_167_flair.nii.gz",
+                "BraTS20_Training_167/BraTS20_Training_167_t1.nii.gz",
+                "BraTS20_Training_167/BraTS20_Training_167_t1ce.nii.gz",
+                "BraTS20_Training_167/BraTS20_Training_167_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_167/BraTS20_Training_167_seg.nii.gz",
+            "text_feature": "BraTS20_Training_167/BraTS20_Training_167_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_087/BraTS20_Training_087_flair.nii.gz",
+                "BraTS20_Training_087/BraTS20_Training_087_t1.nii.gz",
+                "BraTS20_Training_087/BraTS20_Training_087_t1ce.nii.gz",
+                "BraTS20_Training_087/BraTS20_Training_087_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_087/BraTS20_Training_087_seg.nii.gz",
+            "text_feature": "BraTS20_Training_087/BraTS20_Training_087_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_004/BraTS20_Training_004_flair.nii.gz",
+                "BraTS20_Training_004/BraTS20_Training_004_t1.nii.gz",
+                "BraTS20_Training_004/BraTS20_Training_004_t1ce.nii.gz",
+                "BraTS20_Training_004/BraTS20_Training_004_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_004/BraTS20_Training_004_seg.nii.gz",
+            "text_feature": "BraTS20_Training_004/BraTS20_Training_004_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_133/BraTS20_Training_133_flair.nii.gz",
+                "BraTS20_Training_133/BraTS20_Training_133_t1.nii.gz",
+                "BraTS20_Training_133/BraTS20_Training_133_t1ce.nii.gz",
+                "BraTS20_Training_133/BraTS20_Training_133_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_133/BraTS20_Training_133_seg.nii.gz",
+            "text_feature": "BraTS20_Training_133/BraTS20_Training_133_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_072/BraTS20_Training_072_flair.nii.gz",
+                "BraTS20_Training_072/BraTS20_Training_072_t1.nii.gz",
+                "BraTS20_Training_072/BraTS20_Training_072_t1ce.nii.gz",
+                "BraTS20_Training_072/BraTS20_Training_072_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_072/BraTS20_Training_072_seg.nii.gz",
+            "text_feature": "BraTS20_Training_072/BraTS20_Training_072_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_078/BraTS20_Training_078_flair.nii.gz",
+                "BraTS20_Training_078/BraTS20_Training_078_t1.nii.gz",
+                "BraTS20_Training_078/BraTS20_Training_078_t1ce.nii.gz",
+                "BraTS20_Training_078/BraTS20_Training_078_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_078/BraTS20_Training_078_seg.nii.gz",
+            "text_feature": "BraTS20_Training_078/BraTS20_Training_078_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_119/BraTS20_Training_119_flair.nii.gz",
+                "BraTS20_Training_119/BraTS20_Training_119_t1.nii.gz",
+                "BraTS20_Training_119/BraTS20_Training_119_t1ce.nii.gz",
+                "BraTS20_Training_119/BraTS20_Training_119_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_119/BraTS20_Training_119_seg.nii.gz",
+            "text_feature": "BraTS20_Training_119/BraTS20_Training_119_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_344/BraTS20_Training_344_flair.nii.gz",
+                "BraTS20_Training_344/BraTS20_Training_344_t1.nii.gz",
+                "BraTS20_Training_344/BraTS20_Training_344_t1ce.nii.gz",
+                "BraTS20_Training_344/BraTS20_Training_344_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_344/BraTS20_Training_344_seg.nii.gz",
+            "text_feature": "BraTS20_Training_344/BraTS20_Training_344_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_171/BraTS20_Training_171_flair.nii.gz",
+                "BraTS20_Training_171/BraTS20_Training_171_t1.nii.gz",
+                "BraTS20_Training_171/BraTS20_Training_171_t1ce.nii.gz",
+                "BraTS20_Training_171/BraTS20_Training_171_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_171/BraTS20_Training_171_seg.nii.gz",
+            "text_feature": "BraTS20_Training_171/BraTS20_Training_171_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_297/BraTS20_Training_297_flair.nii.gz",
+                "BraTS20_Training_297/BraTS20_Training_297_t1.nii.gz",
+                "BraTS20_Training_297/BraTS20_Training_297_t1ce.nii.gz",
+                "BraTS20_Training_297/BraTS20_Training_297_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_297/BraTS20_Training_297_seg.nii.gz",
+            "text_feature": "BraTS20_Training_297/BraTS20_Training_297_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_021/BraTS20_Training_021_flair.nii.gz",
+                "BraTS20_Training_021/BraTS20_Training_021_t1.nii.gz",
+                "BraTS20_Training_021/BraTS20_Training_021_t1ce.nii.gz",
+                "BraTS20_Training_021/BraTS20_Training_021_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_021/BraTS20_Training_021_seg.nii.gz",
+            "text_feature": "BraTS20_Training_021/BraTS20_Training_021_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_359/BraTS20_Training_359_flair.nii.gz",
+                "BraTS20_Training_359/BraTS20_Training_359_t1.nii.gz",
+                "BraTS20_Training_359/BraTS20_Training_359_t1ce.nii.gz",
+                "BraTS20_Training_359/BraTS20_Training_359_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_359/BraTS20_Training_359_seg.nii.gz",
+            "text_feature": "BraTS20_Training_359/BraTS20_Training_359_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_328/BraTS20_Training_328_flair.nii.gz",
+                "BraTS20_Training_328/BraTS20_Training_328_t1.nii.gz",
+                "BraTS20_Training_328/BraTS20_Training_328_t1ce.nii.gz",
+                "BraTS20_Training_328/BraTS20_Training_328_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_328/BraTS20_Training_328_seg.nii.gz",
+            "text_feature": "BraTS20_Training_328/BraTS20_Training_328_flair_text.npy"
+        },
+        {
+            "fold": 0,
+            "image": [
+                "BraTS20_Training_233/BraTS20_Training_233_flair.nii.gz",
+                "BraTS20_Training_233/BraTS20_Training_233_t1.nii.gz",
+                "BraTS20_Training_233/BraTS20_Training_233_t1ce.nii.gz",
+                "BraTS20_Training_233/BraTS20_Training_233_t2.nii.gz"
+            ],
+            "label": "BraTS20_Training_233/BraTS20_Training_233_seg.nii.gz",
+            "text_feature": "BraTS20_Training_233/BraTS20_Training_233_flair_text.npy"
+        }
+    ]
+}

Train.json ADDED Viewed

The diff for this file is too large to render. See raw diff

assets/datasample.PNG ADDED Viewed

Git LFS Details

SHA256: d4596574c72d3c7113f1b66cb98afd0493e9c0890f84b5ba4bb6c1a677099e49
Pointer size: 131 Bytes
Size of remote file: 181 kB

assets/overview.PNG ADDED Viewed

environment.yml ADDED Viewed

	@@ -0,0 +1,23 @@

+name: TextBraTS
+channels:
+  - pytorch
+  - nvidia
+  - conda-forge
+  - defaults
+dependencies:
+  - python=3.11
+  - pytorch=2.5.0
+  - torchvision
+  - torchaudio
+  - pytorch-cuda=12.1
+  - cudnn=8.9.7
+  - numpy=1.26.4
+  - sympy=1.13.1
+  - fsspec=2025.2
+  - tensorboardX=2.6.2.2
+  - pip
+  - pip:
+      - monai
+      - nibabel
+      - einops
+      - scipy

main.py ADDED Viewed

	@@ -0,0 +1,245 @@

+# Copyright 2020 - 2022 MONAI Consortium
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#     http://www.apache.org/licenses/LICENSE-2.0
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import warnings
+warnings.filterwarnings("ignore", category=FutureWarning, module="transformers.utils.generic")
+import argparse
+import os
+import numpy as np
+import torch
+import torch.distributed as dist
+import torch.multiprocessing as mp
+import torch.nn.parallel
+import torch.utils.data.distributed
+from optimizers.lr_scheduler import LinearWarmupCosineAnnealingLR
+from trainer import run_training
+from utils.data_utils import get_loader
+from monai.losses import DiceLoss
+from monai.metrics import DiceMetric
+from utils.textswin_unetr import TextSwinUNETR
+from monai.transforms import Activations, AsDiscrete, Compose
+from monai.utils.enums import MetricReduction
+import random
+parser = argparse.ArgumentParser(description="TextBraTS segmentation pipeline for TextBRATS image-text dataset")
+parser.add_argument("--checkpoint", default=None, help="start training from saved checkpoint")
+parser.add_argument("--logdir", default="TextBraTS", type=str, help="directory to save the tensorboard logs")
+parser.add_argument("--fold", default=0, type=int, help="data fold, 0 for validation and 1 for training")
+parser.add_argument("--pretrained_model_name", default="model.pt", type=str, help="pretrained model name")
+parser.add_argument("--data_dir", default="./data/TextBraTSData", type=str, help="dataset directory")
+parser.add_argument("--json_list", default="./Train.json", type=str, help="dataset json file")
+parser.add_argument("--save_checkpoint", action="store_true", help="save checkpoint during training")
+parser.add_argument("--max_epochs", default=200, type=int, help="max number of training epochs")
+parser.add_argument("--batch_size", default=2, type=int, help="number of batch size")
+parser.add_argument("--sw_batch_size", default=4, type=int, help="number of sliding window batch size")
+parser.add_argument("--optim_lr", default=1e-4, type=float, help="optimization learning rate")
+parser.add_argument("--optim_name", default="adamw", type=str, help="optimization algorithm")
+parser.add_argument("--reg_weight", default=1e-5, type=float, help="regularization weight")
+parser.add_argument("--momentum", default=0.99, type=float, help="momentum")
+parser.add_argument("--noamp", action="store_true", help="do NOT use amp for training")
+parser.add_argument("--val_every", default=1, type=int, help="validation frequency")
+parser.add_argument("--distributed", action="store_true", help="start distributed training")
+parser.add_argument("--world_size", default=1, type=int, help="number of nodes for distributed training")
+parser.add_argument("--rank", default=0, type=int, help="node rank for distributed training")
+parser.add_argument("--dist-url", default="tcp://127.0.0.1:23456", type=str, help="distributed url")
+parser.add_argument("--dist-backend", default="nccl", type=str, help="distributed backend")
+parser.add_argument("--norm_name", default="instance", type=str, help="normalization name")
+parser.add_argument("--workers", default=8, type=int, help="number of workers")
+parser.add_argument("--feature_size", default=48, type=int, help="feature size")
+parser.add_argument("--in_channels", default=4, type=int, help="number of input channels")
+parser.add_argument("--out_channels", default=3, type=int, help="number of output channels")
+parser.add_argument("--cache_dataset", action="store_true", help="use monai Dataset class")
+parser.add_argument("--a_min", default=-175.0, type=float, help="a_min in ScaleIntensityRanged")
+parser.add_argument("--a_max", default=250.0, type=float, help="a_max in ScaleIntensityRanged")
+parser.add_argument("--b_min", default=0.0, type=float, help="b_min in ScaleIntensityRanged")
+parser.add_argument("--b_max", default=1.0, type=float, help="b_max in ScaleIntensityRanged")
+parser.add_argument("--space_x", default=1.5, type=float, help="spacing in x direction")
+parser.add_argument("--space_y", default=1.5, type=float, help="spacing in y direction")
+parser.add_argument("--space_z", default=2.0, type=float, help="spacing in z direction")
+parser.add_argument("--roi_x", default=128, type=int, help="roi size in x direction")
+parser.add_argument("--roi_y", default=128, type=int, help="roi size in y direction")
+parser.add_argument("--roi_z", default=128, type=int, help="roi size in z direction")
+parser.add_argument("--dropout_rate", default=0.0, type=float, help="dropout rate")
+parser.add_argument("--dropout_path_rate", default=0.0, type=float, help="drop path rate")
+parser.add_argument("--RandScaleIntensityd_prob", default=0.1, type=float, help="RandScaleIntensityd aug probability")
+parser.add_argument("--RandShiftIntensityd_prob", default=0.1, type=float, help="RandShiftIntensityd aug probability")
+parser.add_argument("--infer_overlap", default=0.5, type=float, help="sliding window inference overlap")
+parser.add_argument("--lrschedule", default="warmup_cosine", type=str, help="type of learning rate scheduler")
+parser.add_argument("--warmup_epochs", default=50, type=int, help="number of warmup epochs")
+parser.add_argument("--resume_ckpt", action="store_true", help="resume training from pretrained checkpoint")
+parser.add_argument("--smooth_dr", default=1e-6, type=float, help="constant added to dice denominator to avoid nan")
+parser.add_argument("--smooth_nr", default=0.0, type=float, help="constant added to dice numerator to avoid zero")
+parser.add_argument("--use_checkpoint", action="store_true", help="use gradient checkpointing to save memory")
+parser.add_argument("--spatial_dims", default=3, type=int, help="spatial dimension of input data")
+parser.add_argument("--use_ssl_pretrained", action="store_true", help="use SSL pretrained ckpt")
+parser.add_argument(
+    "--pretrained_dir",
+    default="./runs/TextBraTS/",
+    type=str,
+    help="pretrained checkpoint directory",
+)
+parser.add_argument("--squared_dice", action="store_true", help="use squared Dice")
+parser.add_argument("--seed", type=int, default=23,help="use random seed")
+def main():
+    args = parser.parse_args()
+    args.amp = not args.noamp
+    args.logdir = "./runs/" + args.logdir
+    random.seed(args.seed)
+    np.random.seed(args.seed)
+    torch.manual_seed(args.seed)
+    if args.distributed:
+        torch.cuda.manual_seed_all(args.seed)
+        args.ngpus_per_node = torch.cuda.device_count()
+        print("Found total gpus", args.ngpus_per_node)
+        args.world_size = args.ngpus_per_node * args.world_size
+        mp.spawn(main_worker, nprocs=args.ngpus_per_node, args=(args,))
+    else:
+        torch.cuda.manual_seed(args.seed)
+        main_worker(gpu=0, args=args)
+def main_worker(gpu, args):
+    if args.distributed:
+        torch.multiprocessing.set_start_method("fork", force=True)
+    np.set_printoptions(formatter={"float": "{: 0.3f}".format}, suppress=True)
+    args.gpu = gpu
+    if args.distributed:
+        args.rank = args.rank * args.ngpus_per_node + gpu
+        dist.init_process_group(
+            backend=args.dist_backend, init_method=args.dist_url, world_size=args.world_size, rank=args.rank
+        )
+    torch.cuda.set_device(args.gpu)
+    torch.backends.cudnn.benchmark = True
+    args.test_mode = False
+    loader = get_loader(args)
+    print(args.rank, " gpu", args.gpu)
+    if args.rank == 0:
+        print("Batch size is:", args.batch_size, "epochs", args.max_epochs)
+    pretrained_dir = args.pretrained_dir
+    model_name = args.pretrained_model_name
+    pretrained_pth = os.path.join(pretrained_dir, model_name)
+    model = TextSwinUNETR(
+        img_size=(args.roi_x, args.roi_y, args.roi_z),
+        in_channels=args.in_channels,
+        out_channels=args.out_channels,
+        feature_size=args.feature_size,
+        use_checkpoint=args.use_checkpoint,
+        text_dim=768,
+    )
+    if args.resume_ckpt:
+        model_dict = torch.load(pretrained_pth)["state_dict"]
+        for key in list(model_dict.keys()):
+            model_dict[key.replace("module.", "")] = model_dict.pop(key)
+        model.load_state_dict(model_dict,strict=True)
+        print("Using pretrained weights")
+    if args.use_ssl_pretrained:
+        try:
+            model_dict = torch.load("/media/iipl/disk1/swinunetr/model_swinvit.pt",weights_only=True)
+            state_dict = model_dict["state_dict"]
+            # fix potential differences in state dict keys from pre-training to
+            # fine-tuning
+            for key in list(state_dict.keys()):
+                state_dict[key.replace("module.", "swinViT.")] = state_dict.pop(key)
+            for key in list(state_dict.keys()):
+                if "fc" in key:
+                    state_dict[key.replace("fc","linear")] = state_dict.pop(key)
+                if "patch_embed" in key:
+                    state_dict[key.replace("patch_embed","")] = state_dict.pop(key)
+            model.load_state_dict(state_dict, strict=False)
+        except ValueError:
+            raise ValueError("Self-supervised pre-trained weights not available for" + str(args.model_name))
+    if args.squared_dice:
+        dice_loss = DiceLoss(
+            to_onehot_y=False, sigmoid=True, squared_pred=True, smooth_nr=args.smooth_nr, smooth_dr=args.smooth_dr
+        )
+    else:
+        dice_loss = DiceLoss(to_onehot_y=False, sigmoid=True)
+    post_sigmoid = Activations(sigmoid=True)
+    post_pred = AsDiscrete(argmax=False, logit_thresh=0.5)
+    dice_acc = DiceMetric(include_background=True, reduction=MetricReduction.MEAN_BATCH, get_not_nans=True)
+    pytorch_total_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
+    print("Total parameters count", pytorch_total_params)
+    best_acc = 0
+    start_epoch = 0
+    if args.checkpoint is not None:
+        checkpoint = torch.load(args.checkpoint, map_location="cpu")
+        from collections import OrderedDict
+        new_state_dict = OrderedDict()
+        for k, v in checkpoint["state_dict"].items():
+            new_state_dict[k.replace("backbone.", "")] = v
+        model.load_state_dict(new_state_dict, strict=False)
+        if "epoch" in checkpoint:
+            start_epoch = checkpoint["epoch"]
+        if "best_acc" in checkpoint:
+            best_acc = checkpoint["best_acc"]
+        print("=> loaded checkpoint '{}' (epoch {}) (bestacc {})".format(args.checkpoint, start_epoch, best_acc))
+    model.cuda(args.gpu)
+    if args.distributed:
+        torch.cuda.set_device(args.gpu)
+        if args.norm_name == "batch":
+            model = torch.nn.SyncBatchNorm.convert_sync_batchnorm(model)
+        model.cuda(args.gpu)
+        model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[args.gpu], output_device=args.gpu, find_unused_parameters = False,)
+    if args.optim_name == "adam":
+        optimizer = torch.optim.Adam(model.parameters(), lr=args.optim_lr, weight_decay=args.reg_weight)
+    elif args.optim_name == "adamw":
+        optimizer = torch.optim.AdamW(model.parameters(), lr=args.optim_lr, weight_decay=args.reg_weight)
+    elif args.optim_name == "sgd":
+        optimizer = torch.optim.SGD(
+            model.parameters(), lr=args.optim_lr, momentum=args.momentum, nesterov=True, weight_decay=args.reg_weight
+        )
+    else:
+        raise ValueError("Unsupported Optimization Procedure: " + str(args.optim_name))
+    if args.lrschedule == "warmup_cosine":
+        scheduler = LinearWarmupCosineAnnealingLR(
+            optimizer, warmup_epochs=args.warmup_epochs, max_epochs=args.max_epochs
+        )
+    elif args.lrschedule == "cosine_anneal":
+        scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=args.max_epochs)
+        if args.checkpoint is not None:
+            scheduler.step(epoch=start_epoch)
+    else:
+        scheduler = None
+    semantic_classes = ["Dice_Val_TC", "Dice_Val_WT", "Dice_Val_ET"]
+    accuracy = run_training(
+        model=model,
+        train_loader=loader[0],
+        val_loader=loader[1],
+        optimizer=optimizer,
+        loss_func=dice_loss,
+        acc_func=dice_acc,
+        args=args,
+        scheduler=scheduler,
+        start_epoch=start_epoch,
+        post_sigmoid=post_sigmoid,
+        post_pred=post_pred,
+        semantic_classes=semantic_classes,
+    )
+    return accuracy
+if __name__ == "__main__":
+    main()

merge.py ADDED Viewed

	@@ -0,0 +1,32 @@

+import os
+import shutil
+# === Please set your own paths below! ===
+img_root = "/path/to/MICCAI_BraTS2020_TrainingData"
+txt_root = "/path/to/Download/TextBraTSData"
+out_root = "/path/to/TextBraTS/TextBraTSData"
+# Loop over all cases in the image folder
+for case in os.listdir(img_root):
+    img_case_dir = os.path.join(img_root, case)
+    txt_case_dir = os.path.join(txt_root, case)
+    out_case_dir = os.path.join(out_root, case)
+    if not os.path.isdir(img_case_dir):
+        continue  # Skip non-directory files
+    # Create output folder for each case
+    os.makedirs(out_case_dir, exist_ok=True)
+    # Copy all imaging files and segmentation labels
+    for file in os.listdir(img_case_dir):
+        shutil.copy2(os.path.join(img_case_dir, file), os.path.join(out_case_dir, file))
+    # Copy text reports and feature files if available
+    if os.path.exists(txt_case_dir):
+        for file in os.listdir(txt_case_dir):
+            shutil.copy2(os.path.join(txt_case_dir, file), os.path.join(out_case_dir, file))
+    else:
+        print(f"Warning: {txt_case_dir} does not exist, skipping.")
+print("Merge done! All cases are in:", out_root)

optimizers/__init__.py ADDED Viewed

File without changes

optimizers/lr_scheduler.py ADDED Viewed

	@@ -0,0 +1,100 @@

+# Copyright 2020 - 2021 MONAI Consortium
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#     http://www.apache.org/licenses/LICENSE-2.0
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import math
+import warnings
+from typing import List
+from torch.optim import Adam, Optimizer
+from torch.optim.lr_scheduler import _LRScheduler
+class LinearWarmupCosineAnnealingLR(_LRScheduler):
+    def __init__(
+        self,
+        optimizer: Optimizer,
+        warmup_epochs: int,
+        max_epochs: int,
+        warmup_start_lr: float = 0.0,
+        eta_min: float = 0.0,
+        last_epoch: int = -1,
+    ) -> None:
+        """
+        Args:
+            optimizer (Optimizer): Wrapped optimizer.
+            warmup_epochs (int): Maximum number of iterations for linear warmup
+            max_epochs (int): Maximum number of iterations
+            warmup_start_lr (float): Learning rate to start the linear warmup. Default: 0.
+            eta_min (float): Minimum learning rate. Default: 0.
+            last_epoch (int): The index of last epoch. Default: -1.
+        """
+        self.warmup_epochs = warmup_epochs
+        self.max_epochs = max_epochs
+        self.warmup_start_lr = warmup_start_lr
+        self.eta_min = eta_min
+        super(LinearWarmupCosineAnnealingLR, self).__init__(optimizer, last_epoch)
+    def get_lr(self) -> List[float]:
+        """
+        Compute learning rate using chainable form of the scheduler
+        """
+        if not self._get_lr_called_within_step:
+            warnings.warn(
+                "To get the last learning rate computed by the scheduler, " "please use `get_last_lr()`.", UserWarning
+            )
+        if self.last_epoch == 0:
+            return [self.warmup_start_lr] * len(self.base_lrs)
+        elif self.last_epoch < self.warmup_epochs:
+            return [
+                group["lr"] + (base_lr - self.warmup_start_lr) / (self.warmup_epochs - 1)
+                for base_lr, group in zip(self.base_lrs, self.optimizer.param_groups)
+            ]
+        elif self.last_epoch == self.warmup_epochs:
+            return self.base_lrs
+        elif (self.last_epoch - 1 - self.max_epochs) % (2 * (self.max_epochs - self.warmup_epochs)) == 0:
+            return [
+                group["lr"]
+                + (base_lr - self.eta_min) * (1 - math.cos(math.pi / (self.max_epochs - self.warmup_epochs))) / 2
+                for base_lr, group in zip(self.base_lrs, self.optimizer.param_groups)
+            ]
+        return [
+            (1 + math.cos(math.pi * (self.last_epoch - self.warmup_epochs) / (self.max_epochs - self.warmup_epochs)))
+            / (
+                1
+                + math.cos(
+                    math.pi * (self.last_epoch - self.warmup_epochs - 1) / (self.max_epochs - self.warmup_epochs)
+                )
+            )
+            * (group["lr"] - self.eta_min)
+            + self.eta_min
+            for group in self.optimizer.param_groups
+        ]
+    def _get_closed_form_lr(self) -> List[float]:
+        """
+        Called when epoch is passed as a param to the `step` function of the scheduler.
+        """
+        if self.last_epoch < self.warmup_epochs:
+            return [
+                self.warmup_start_lr + self.last_epoch * (base_lr - self.warmup_start_lr) / (self.warmup_epochs - 1)
+                for base_lr in self.base_lrs
+            ]
+        return [
+            self.eta_min
+            + 0.5
+            * (base_lr - self.eta_min)
+            * (1 + math.cos(math.pi * (self.last_epoch - self.warmup_epochs) / (self.max_epochs - self.warmup_epochs)))
+            for base_lr in self.base_lrs
+        ]

test.py ADDED Viewed

	@@ -0,0 +1,145 @@

+# Copyright 2020 - 2022 MONAI Consortium
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#     http://www.apache.org/licenses/LICENSE-2.0
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import argparse
+from utils.data_utils import get_loader
+from utils.textswin_unetr import TextSwinUNETR
+import os
+import time
+import torch
+import torch.nn.parallel
+import torch.utils.data.distributed
+from utils.utils import AverageMeter
+from monai.utils.enums import MetricReduction
+from monai.metrics import DiceMetric, HausdorffDistanceMetric
+parser = argparse.ArgumentParser(description="TextBraTS segmentation pipeline")
+parser.add_argument("--data_dir", default="./data/TextBraTSData", type=str, help="dataset directory")
+parser.add_argument("--exp_name", default="TextBraTS", type=str, help="experiment name")
+parser.add_argument("--json_list", default="Test.json", type=str, help="dataset json file")
+parser.add_argument("--fold", default=0, type=int, help="data fold")
+parser.add_argument("--pretrained_model_name", default="model.pt", type=str, help="pretrained model name")
+parser.add_argument("--feature_size", default=48, type=int, help="feature size")
+parser.add_argument("--infer_overlap", default=0.6, type=float, help="sliding window inference overlap")
+parser.add_argument("--in_channels", default=4, type=int, help="number of input channels")
+parser.add_argument("--out_channels", default=3, type=int, help="number of output channels")
+parser.add_argument("--a_min", default=-175.0, type=float, help="a_min in ScaleIntensityRanged")
+parser.add_argument("--a_max", default=250.0, type=float, help="a_max in ScaleIntensityRanged")
+parser.add_argument("--b_min", default=0.0, type=float, help="b_min in ScaleIntensityRanged")
+parser.add_argument("--b_max", default=1.0, type=float, help="b_max in ScaleIntensityRanged")
+parser.add_argument("--space_x", default=1.5, type=float, help="spacing in x direction")
+parser.add_argument("--space_y", default=1.5, type=float, help="spacing in y direction")
+parser.add_argument("--space_z", default=2.0, type=float, help="spacing in z direction")
+parser.add_argument("--roi_x", default=128, type=int, help="roi size in x direction")
+parser.add_argument("--roi_y", default=128, type=int, help="roi size in y direction")
+parser.add_argument("--roi_z", default=128, type=int, help="roi size in z direction")
+parser.add_argument("--dropout_rate", default=0.0, type=float, help="dropout rate")
+parser.add_argument("--distributed", action="store_true", help="start distributed training")
+parser.add_argument("--workers", default=8, type=int, help="number of workers")
+parser.add_argument("--RandScaleIntensityd_prob", default=0.1, type=float, help="RandScaleIntensityd aug probability")
+parser.add_argument("--RandShiftIntensityd_prob", default=0.1, type=float, help="RandShiftIntensityd aug probability")
+parser.add_argument("--spatial_dims", default=3, type=int, help="spatial dimension of input data")
+parser.add_argument("--use_checkpoint", action="store_true", help="use gradient checkpointing to save memory")
+parser.add_argument(
+    "--pretrained_dir",
+    default="./runs/TextBraTS/",
+    type=str,
+    help="pretrained checkpoint directory",
+)
+def main():
+    args = parser.parse_args()
+    args.test_mode = True
+    output_directory = "./outputs/" + args.exp_name
+    if not os.path.exists(output_directory):
+        os.makedirs(output_directory)
+    test_loader = get_loader(args)
+    pretrained_dir = args.pretrained_dir
+    model_name = args.pretrained_model_name
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    pretrained_pth = os.path.join(pretrained_dir, model_name)
+    model = TextSwinUNETR(
+        img_size=128,
+        in_channels=args.in_channels,
+        out_channels=args.out_channels,
+        feature_size=args.feature_size,
+        drop_rate=0.0,
+        attn_drop_rate=0.0,
+        dropout_path_rate=0.0,
+        use_checkpoint=args.use_checkpoint,
+        text_dim=768,
+    )
+    model_dict = torch.load(pretrained_pth)["state_dict"]
+    model.load_state_dict(model_dict, strict=False)
+    model.eval()
+    model.to(device)
+    def val_epoch(model, loader, acc_func,  hd95_func):
+        model.eval()
+        start_time = time.time()
+        run_acc = AverageMeter()
+        run_hd95 = AverageMeter()
+        with torch.no_grad():
+            for idx, batch_data in enumerate(loader):
+                data, target, text = batch_data["image"], batch_data["label"], batch_data["text_feature"]
+                data, target, text = data.cuda(), target.cuda(), text.cuda()
+                logits = model(data,text)
+                prob = torch.sigmoid(logits)
+                prob = (prob > 0.5).int()
+                acc_func(y_pred=prob, y=target)
+                acc, not_nans = acc_func.aggregate()
+                acc = acc.cuda()
+                run_acc.update(acc.cpu().numpy(), n=not_nans.cpu().numpy())
+                # HD95 Metric
+                hd95_func(y_pred=prob, y=target)
+                hd95 = hd95_func.aggregate()  # Assuming it returns a single value
+                run_hd95.update(hd95.cpu().numpy())
+                Dice_TC = run_acc.avg[0]
+                Dice_WT = run_acc.avg[1]
+                Dice_ET = run_acc.avg[2]
+                HD95_TC = run_hd95.avg[0]
+                HD95_WT = run_hd95.avg[1]
+                HD95_ET = run_hd95.avg[2]
+                print(
+                    "Val  {}/{}".format(idx, len(loader)),
+                    ", Dice_TC:", Dice_TC,
+                    ", Dice_WT:", Dice_WT,
+                    ", Dice_ET:", Dice_ET,
+                    ", Avg Dice:", (Dice_ET + Dice_TC + Dice_WT) / 3,
+                    ", HD95_TC:", HD95_TC,
+                    ", HD95_WT:", HD95_WT,
+                    ", HD95_ET:", HD95_ET,
+                    ", Avg HD95:", (HD95_ET + HD95_TC + HD95_WT) / 3,
+                    ", time {:.2f}s".format(time.time() - start_time),
+                )
+                start_time = time.time()
+            with open(output_directory+'/log.txt', "a") as log_file:
+                log_file.write(f"Experiment name:{args.pretrained_dir.split('/')[-2]}, "
+            f"Final Validation Results - Dice_TC: {Dice_TC}, Dice_WT: {Dice_WT}, Dice_ET: {Dice_ET}, "
+            f"Avg Dice: {(Dice_ET + Dice_TC + Dice_WT) / 3}, "
+            f"HD95_TC: {HD95_TC}, HD95_WT: {HD95_WT}, HD95_ET: {HD95_ET}, "
+            f"Avg HD95: {(HD95_ET + HD95_TC + HD95_WT) / 3}\n")
+        return run_acc.avg
+    dice_acc = DiceMetric(include_background=True, reduction=MetricReduction.MEAN_BATCH, get_not_nans=True)
+    hd95_acc = HausdorffDistanceMetric(include_background=True, reduction=MetricReduction.MEAN_BATCH, percentile=95.0)
+    val_epoch(model, test_loader, acc_func=dice_acc,hd95_func=hd95_acc)
+if __name__ == "__main__":
+    main()

trainer.py ADDED Viewed

	@@ -0,0 +1,223 @@

+# Copyright 2020 - 2022 MONAI Consortium
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#     http://www.apache.org/licenses/LICENSE-2.0
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import os
+import shutil
+import time
+import numpy as np
+import torch
+import torch.nn.parallel
+import torch.utils.data.distributed
+from tensorboardX import SummaryWriter
+from torch.amp import GradScaler, autocast
+from utils.utils import AverageMeter, distributed_all_gather
+from monai.data import decollate_batch
+def train_epoch(model, loader, optimizer, scaler, epoch, loss_func, args):
+    model.train()
+    start_time = time.time()
+    run_loss = AverageMeter()
+    for idx, batch_data in enumerate(loader):
+        if isinstance(batch_data, list):
+            data, target, text = batch_data
+        else:
+            data, target, text = batch_data["image"], batch_data["label"], batch_data["text_feature"]
+        data, target, text = data.cuda(args.rank), target.cuda(args.rank), text.cuda(args.rank)
+        optimizer.zero_grad(set_to_none=True)
+        with autocast('cuda',enabled=args.amp):
+            logits = model(data,text)
+            loss = loss_func(logits, target)
+        if args.amp:
+            scaler.scale(loss).backward()
+            scaler.step(optimizer)
+            scaler.update()
+        else:
+            loss.backward()
+            optimizer.step()
+        if args.distributed:
+            loss_list = distributed_all_gather([loss], out_numpy=True, is_valid=idx < loader.sampler.valid_length)
+            run_loss.update(
+                np.mean(np.mean(np.stack(loss_list, axis=0), axis=0), axis=0), n=args.batch_size * args.world_size
+            )
+        else:
+            run_loss.update(loss.item(), n=args.batch_size)
+        if args.rank == 0:
+            print(
+                "Epoch {}/{} {}/{}".format(epoch, args.max_epochs, idx, len(loader)),
+                "loss: {:.4f}".format(run_loss.avg),
+                "time {:.2f}s".format(time.time() - start_time),
+            )
+        start_time = time.time()
+    '''for param in model.parameters():
+        param.grad = None'''
+    optimizer.zero_grad(set_to_none=True)
+    return run_loss.avg
+def val_epoch(model, loader, epoch, acc_func, args, post_sigmoid=None, post_pred=None):
+    model.eval()
+    start_time = time.time()
+    run_acc = AverageMeter()
+    with torch.no_grad():
+        for idx, batch_data in enumerate(loader):
+            data, target, text = batch_data["image"], batch_data["label"], batch_data["text_feature"]
+            data, target, text = data.cuda(args.rank), target.cuda(args.rank), text.cuda(args.rank)
+            with autocast('cuda',enabled=args.amp):
+                logits = model(data,text)
+            val_labels_list = decollate_batch(target)
+            val_outputs_list = decollate_batch(logits)
+            val_output_convert = [post_pred(post_sigmoid(val_pred_tensor)) for val_pred_tensor in val_outputs_list]
+            acc_func.reset()
+            acc_func(y_pred=val_output_convert, y=val_labels_list)
+            acc, not_nans = acc_func.aggregate()
+            acc = acc.cuda(args.rank)
+            if args.distributed:
+                acc_list, not_nans_list = distributed_all_gather(
+                    [acc, not_nans], out_numpy=True, is_valid=idx < loader.sampler.valid_length
+                )
+                for al, nl in zip(acc_list, not_nans_list):
+                    run_acc.update(al, n=nl)
+            else:
+                run_acc.update(acc.cpu().numpy(), n=not_nans.cpu().numpy())
+            if args.rank == 0:
+                Dice_TC = run_acc.avg[0]
+                Dice_WT = run_acc.avg[1]
+                Dice_ET = run_acc.avg[2]
+                print(
+                    "Val {}/{} {}/{}".format(epoch, args.max_epochs, idx, len(loader)),
+                    ", Dice_TC:",
+                    Dice_TC,
+                    ", Dice_WT:",
+                    Dice_WT,
+                    ", Dice_ET:",
+                    Dice_ET,
+                    ", time {:.2f}s".format(time.time() - start_time),
+                )
+            start_time = time.time()
+    return run_acc.avg
+def save_checkpoint(model, epoch, args, filename="model.pt", best_acc=0, optimizer=None, scheduler=None):
+    state_dict = model.state_dict() if not args.distributed else model.module.state_dict()
+    save_dict = {"epoch": epoch, "best_acc": best_acc, "state_dict": state_dict}
+    if optimizer is not None:
+        save_dict["optimizer"] = optimizer.state_dict()
+    if scheduler is not None:
+        save_dict["scheduler"] = scheduler.state_dict()
+    filename = os.path.join(args.logdir, filename)
+    torch.save(save_dict, filename)
+    print("Saving checkpoint", filename)
+def run_training(
+    model,
+    train_loader,
+    val_loader,
+    optimizer,
+    loss_func,
+    acc_func,
+    args,
+    scheduler=None,
+    start_epoch=0,
+    post_sigmoid=None,
+    post_pred=None,
+    semantic_classes=None,
+):
+    writer = None
+    if args.logdir is not None and args.rank == 0:
+        writer = SummaryWriter(log_dir=args.logdir)
+        if args.rank == 0:
+            print("Writing Tensorboard logs to ", args.logdir)
+    scaler = None
+    if args.amp:
+        scaler = GradScaler()
+    val_acc_max = 0.0
+    for epoch in range(start_epoch, args.max_epochs):
+        if args.distributed:
+            train_loader.sampler.set_epoch(epoch)
+            torch.distributed.barrier()
+        print(args.rank, time.ctime(), "Epoch:", epoch)
+        epoch_time = time.time()
+        train_loss = train_epoch(
+            model, train_loader, optimizer, scaler=scaler, epoch=epoch, loss_func=loss_func, args=args
+        )
+        if args.rank == 0:
+            print(
+                "Final training  {}/{}".format(epoch, args.max_epochs - 1),
+                "loss: {:.4f}".format(train_loss),
+                "time {:.2f}s".format(time.time() - epoch_time),
+            )
+        if args.rank == 0 and writer is not None:
+            writer.add_scalar("train_loss", train_loss, epoch)
+        b_new_best = False
+        if (epoch + 1) % args.val_every == 0:
+            if args.distributed:
+                torch.distributed.barrier()
+            epoch_time = time.time()
+            val_acc = val_epoch(
+                model,
+                val_loader,
+                epoch=epoch,
+                acc_func=acc_func,
+                args=args,
+                post_sigmoid=post_sigmoid,
+                post_pred=post_pred,
+            )
+            if args.rank == 0:
+                Dice_TC = val_acc[0]
+                Dice_WT = val_acc[1]
+                Dice_ET = val_acc[2]
+                print(
+                    "Final validation stats {}/{}".format(epoch, args.max_epochs - 1),
+                    ", Dice_TC:",
+                    Dice_TC,
+                    ", Dice_WT:",
+                    Dice_WT,
+                    ", Dice_ET:",
+                    Dice_ET,
+                    ", time {:.2f}s".format(time.time() - epoch_time),
+                )
+                if writer is not None:
+                    writer.add_scalar("Mean_Val_Dice", np.mean(val_acc), epoch)
+                    if semantic_classes is not None:
+                        for val_channel_ind in range(len(semantic_classes)):
+                            if val_channel_ind < val_acc.size:
+                                writer.add_scalar(semantic_classes[val_channel_ind], val_acc[val_channel_ind], epoch)
+                val_avg_acc = np.mean(val_acc)
+                if val_avg_acc > val_acc_max:
+                    print("new best ({:.6f} --> {:.6f}). ".format(val_acc_max, val_avg_acc))
+                    val_acc_max = val_avg_acc
+                    b_new_best = True
+                    if args.rank == 0 and args.logdir is not None and args.save_checkpoint:
+                        save_checkpoint(
+                            model, epoch, args, best_acc=val_acc_max, optimizer=optimizer, scheduler=scheduler
+                        )
+            if args.rank == 0 and args.logdir is not None and args.save_checkpoint:
+                print("Saving")
+                save_checkpoint(model, epoch, args, best_acc=val_acc_max, filename="model_final.pt")
+                if b_new_best:
+                    print("Copying to model.pt new best model!!!!")
+                    shutil.copyfile(os.path.join(args.logdir, "model_final.pt"), os.path.join(args.logdir, "model.pt"))
+        if scheduler is not None:
+            scheduler.step()
+    print("Training Finished !, Best Accuracy: ", val_acc_max)
+    return val_acc_max

utils/__init__.py ADDED Viewed

File without changes

utils/data_utils.py ADDED Viewed

	@@ -0,0 +1,169 @@

+# Copyright 2020 - 2022 MONAI Consortium
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#     http://www.apache.org/licenses/LICENSE-2.0
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import json
+import math
+import os
+import numpy as np
+import torch
+from monai import data, transforms
+from monai.data import NibabelReader
+from monai.transforms import MapTransform
+#Load biobert features
+class LoadNumpyd(MapTransform):
+    def __init__(self, keys):
+        super().__init__(keys)
+    def __call__(self, data):
+        d = dict(data)
+        for key in self.keys:
+            d[key] = np.load(d[key])
+            d[key] = np.squeeze(d[key],axis=0)
+        return d
+class Sampler(torch.utils.data.Sampler):
+    def __init__(self, dataset, num_replicas=None, rank=None, shuffle=True, make_even=True):
+        if num_replicas is None:
+            if not torch.distributed.is_available():
+                raise RuntimeError("Requires distributed package to be available")
+            num_replicas = torch.distributed.get_world_size()
+        if rank is None:
+            if not torch.distributed.is_available():
+                raise RuntimeError("Requires distributed package to be available")
+            rank = torch.distributed.get_rank()
+        self.shuffle = shuffle
+        self.make_even = make_even
+        self.dataset = dataset
+        self.num_replicas = num_replicas
+        self.rank = rank
+        self.epoch = 0
+        self.num_samples = int(math.ceil(len(self.dataset) * 1.0 / self.num_replicas))
+        self.total_size = self.num_samples * self.num_replicas
+        indices = list(range(len(self.dataset)))
+        self.valid_length = len(indices[self.rank : self.total_size : self.num_replicas])
+    def __iter__(self):
+        if self.shuffle:
+            g = torch.Generator()
+            g.manual_seed(self.epoch)
+            indices = torch.randperm(len(self.dataset), generator=g).tolist()
+        else:
+            indices = list(range(len(self.dataset)))
+        if self.make_even:
+            if len(indices) < self.total_size:
+                if self.total_size - len(indices) < len(indices):
+                    indices += indices[: (self.total_size - len(indices))]
+                else:
+                    extra_ids = np.random.randint(low=0, high=len(indices), size=self.total_size - len(indices))
+                    indices += [indices[ids] for ids in extra_ids]
+            assert len(indices) == self.total_size
+        indices = indices[self.rank : self.total_size : self.num_replicas]
+        self.num_samples = len(indices)
+        return iter(indices)
+    def __len__(self):
+        return self.num_samples
+    def set_epoch(self, epoch):
+        self.epoch = epoch
+def datafold_read(datalist, basedir, fold=0, key="training"):
+    with open(datalist) as f:
+        json_data = json.load(f)
+    json_data = json_data[key]
+    for d in json_data:
+        for k, v in d.items():
+            if isinstance(d[k], list):
+                d[k] = [os.path.join(basedir, iv) for iv in d[k]]
+            elif isinstance(d[k], str):
+                d[k] = os.path.join(basedir, d[k]) if len(d[k]) > 0 else d[k]
+    tr = []
+    val = []
+    for d in json_data:
+        if "fold" in d and d["fold"] == fold:
+            val.append(d)
+        else:
+            tr.append(d)
+    return tr, val
+def get_loader(args):
+    data_dir = args.data_dir
+    datalist_json = args.json_list
+    train_files, validation_files = datafold_read(datalist=datalist_json, basedir=data_dir, fold=args.fold)
+    train_transform = transforms.Compose(
+        [
+            transforms.LoadImaged(keys=["image", "label"],reader=NibabelReader()),
+            LoadNumpyd(keys=["text_feature"]),
+            transforms.ConvertToMultiChannelBasedOnBratsClassesd(keys="label"),
+            transforms.Resized(keys=["image","label"],spatial_size=[args.roi_x,args.roi_y,args.roi_z]),
+            transforms.NormalizeIntensityd(keys="image", nonzero=True, channel_wise=True),
+            transforms.RandScaleIntensityd(keys="image", factors=0.1, prob=1.0),
+            transforms.RandShiftIntensityd(keys="image", offsets=0.1, prob=1.0),
+            transforms.ToTensord(keys=["image", "label", "text_feature"]),
+        ]
+    )
+    val_transform = transforms.Compose(
+        [
+            transforms.LoadImaged(keys=["image", "label"],reader=NibabelReader()),
+            LoadNumpyd(keys=["text_feature"]),
+            transforms.ConvertToMultiChannelBasedOnBratsClassesd(keys="label"),
+            transforms.Resized(keys=["image", "label"], spatial_size=[args.roi_x, args.roi_y, args.roi_z]),
+            transforms.NormalizeIntensityd(keys="image", nonzero=True, channel_wise=True),
+            transforms.ToTensord(keys=["image", "label", "text_feature"]),
+        ]
+    )
+    test_transform = transforms.Compose(
+        [
+            transforms.LoadImaged(keys=["image", "label"],reader=NibabelReader()),
+            LoadNumpyd(keys=["text_feature"]),
+            transforms.ConvertToMultiChannelBasedOnBratsClassesd(keys="label"),
+            transforms.Resized(keys=["image", "label"], spatial_size=[args.roi_x, args.roi_y, args.roi_z]),
+            transforms.NormalizeIntensityd(keys="image", nonzero=True, channel_wise=True),
+            transforms.ToTensord(keys=["image", "label", "text_feature"]),
+        ]
+    )
+    if args.test_mode:
+        val_ds = data.Dataset(data=validation_files, transform=test_transform)
+        val_sampler = Sampler(val_ds, shuffle=False) if args.distributed else None
+        test_loader = data.DataLoader(
+            val_ds, batch_size=1, shuffle=False, num_workers=args.workers, sampler=val_sampler, pin_memory=True
+        )
+        loader = test_loader
+    else:
+        train_ds = data.Dataset(data=train_files, transform=train_transform)
+        train_sampler = Sampler(train_ds) if args.distributed else None
+        train_loader = data.DataLoader(
+            train_ds,
+            batch_size=args.batch_size,
+            shuffle=(train_sampler is None),
+            num_workers=args.workers,
+            sampler=train_sampler,
+            pin_memory=True,
+        )
+        val_ds = data.Dataset(data=validation_files, transform=val_transform)
+        val_sampler = Sampler(val_ds, shuffle=False) if args.distributed else None
+        val_loader = data.DataLoader(
+            val_ds, batch_size=1, shuffle=False, num_workers=args.workers, sampler=val_sampler, pin_memory=True
+        )
+        loader = [train_loader, val_loader]
+    return loader

utils/textswin_unetr.py ADDED Viewed

	@@ -0,0 +1,1081 @@

+# Copyright 2020 - 2022 -> (c) MONAI Consortium
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#     http://www.apache.org/licenses/LICENSE-2.0
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from typing import Sequence, Tuple, Type, Union
+import numpy as np
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+import torch.utils.checkpoint as checkpoint
+from torch.nn import LayerNorm
+from monai.networks.blocks import MLPBlock as Mlp
+from monai.networks.blocks import PatchEmbed, UnetOutBlock, UnetrBasicBlock, UnetrUpBlock
+from monai.networks.layers import DropPath, trunc_normal_
+from monai.utils import ensure_tuple_rep, optional_import
+import math
+rearrange, _ = optional_import("einops", name="rearrange")
+class TextSwinUNETR(nn.Module):
+    """
+    Swin UNETR based on: "Hatamizadeh et al.,
+    Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images
+    <https://arxiv.org/abs/2201.01266>"
+    """
+    def __init__(
+        self,
+        img_size: Union[Sequence[int], int],
+        in_channels: int,
+        out_channels: int,
+        text_dim: int,
+        depths: Sequence[int] = (2, 2, 2, 2),
+        num_heads: Sequence[int] = (3, 6, 12, 24),
+        feature_size: int = 24,
+        norm_name: Union[Tuple, str] = "instance",
+        drop_rate: float = 0.0,
+        attn_drop_rate: float = 0.0,
+        dropout_path_rate: float = 0.0,
+        normalize: bool = True,
+        use_checkpoint: bool = False,
+        spatial_dims: int = 3,
+    ) -> None:
+        """
+        Args:
+            img_size: dimension of input image.
+            in_channels: dimension of input channels.
+            out_channels: dimension of output channels.
+            feature_size: dimension of network feature size.
+            depths: number of layers in each stage.
+            num_heads: number of attention heads.
+            norm_name: feature normalization type and arguments.
+            drop_rate: dropout rate.
+            attn_drop_rate: attention dropout rate.
+            dropout_path_rate: drop path rate.
+            normalize: normalize output intermediate features in each stage.
+            use_checkpoint: use gradient checkpointing for reduced memory usage.
+            spatial_dims: number of spatial dims.
+        Examples::
+            # for 3D single channel input with size (96,96,96), 4-channel output and feature size of 48.
+            #>>> net = SwinUNETR(img_size=(96,96,96), in_channels=1, out_channels=4, feature_size=48)
+            # for 3D 4-channel input with size (128,128,128), 3-channel output and (2,4,2,2) layers in each stage.
+            #>>> net = SwinUNETR(img_size=(128,128,128), in_channels=4, out_channels=3, depths=(2,4,2,2))
+            # for 2D single channel input with size (96,96), 2-channel output and gradient checkpointing.
+            #>>> net = SwinUNETR(img_size=(96,96), in_channels=3, out_channels=2, use_checkpoint=True, spatial_dims=2)
+        """
+        super().__init__()
+        img_size = ensure_tuple_rep(img_size, spatial_dims)
+        patch_size = ensure_tuple_rep(2, spatial_dims)
+        window_size = ensure_tuple_rep(7, spatial_dims)
+        if not (spatial_dims == 2 or spatial_dims == 3):
+            raise ValueError("spatial dimension should be 2 or 3.")
+        for m, p in zip(img_size, patch_size):
+            for i in range(5):
+                if m % np.power(p, i + 1) != 0:
+                    raise ValueError("input image size (img_size) should be divisible by stage-wise image resolution.")
+        if not (0 <= drop_rate <= 1):
+            raise ValueError("dropout rate should be between 0 and 1.")
+        if not (0 <= attn_drop_rate <= 1):
+            raise ValueError("attention dropout rate should be between 0 and 1.")
+        if not (0 <= dropout_path_rate <= 1):
+            raise ValueError("drop path rate should be between 0 and 1.")
+        if feature_size % 12 != 0:
+            raise ValueError("feature_size should be divisible by 12.")
+        self.normalize = normalize
+        self.swinViT = SwinTransformer(
+            in_chans=in_channels,
+            embed_dim=feature_size,
+            window_size=window_size,
+            patch_size=patch_size,
+            depths=depths,
+            num_heads=num_heads,
+            mlp_ratio=4.0,
+            qkv_bias=True,
+            drop_rate=drop_rate,
+            attn_drop_rate=attn_drop_rate,
+            drop_path_rate=dropout_path_rate,
+            norm_layer=nn.LayerNorm,
+            use_checkpoint=use_checkpoint,
+            spatial_dims=spatial_dims,
+            text_dim=text_dim,
+        )
+        self.encoder1 = UnetrBasicBlock(
+            spatial_dims=spatial_dims,
+            in_channels=in_channels,
+            out_channels=feature_size,
+            kernel_size=3,
+            stride=1,
+            norm_name=norm_name,
+            res_block=True,
+        )
+        self.encoder2 = UnetrBasicBlock(
+            spatial_dims=spatial_dims,
+            in_channels=feature_size,
+            out_channels=feature_size,
+            kernel_size=3,
+            stride=1,
+            norm_name=norm_name,
+            res_block=True,
+        )
+        self.encoder3 = UnetrBasicBlock(
+            spatial_dims=spatial_dims,
+            in_channels=2 * feature_size,
+            out_channels=2 * feature_size,
+            kernel_size=3,
+            stride=1,
+            norm_name=norm_name,
+            res_block=True,
+        )
+        self.encoder4 = UnetrBasicBlock(
+            spatial_dims=spatial_dims,
+            in_channels=4 * feature_size,
+            out_channels=4 * feature_size,
+            kernel_size=3,
+            stride=1,
+            norm_name=norm_name,
+            res_block=True,
+        )
+        self.encoder10 = UnetrBasicBlock(
+            spatial_dims=spatial_dims,
+            in_channels=16 * feature_size,
+            out_channels=16 * feature_size,
+            kernel_size=3,
+            stride=1,
+            norm_name=norm_name,
+            res_block=True,
+        )
+        self.decoder5 = UnetrUpBlock(
+            spatial_dims=spatial_dims,
+            in_channels=16 * feature_size,
+            out_channels=8 * feature_size,
+            kernel_size=3,
+            upsample_kernel_size=2,
+            norm_name=norm_name,
+            res_block=True,
+        )
+        self.decoder4 = UnetrUpBlock(
+            spatial_dims=spatial_dims,
+            in_channels=feature_size * 8,
+            out_channels=feature_size * 4,
+            kernel_size=3,
+            upsample_kernel_size=2,
+            norm_name=norm_name,
+            res_block=True,
+        )
+        self.decoder3 = UnetrUpBlock(
+            spatial_dims=spatial_dims,
+            in_channels=feature_size * 4,
+            out_channels=feature_size * 2,
+            kernel_size=3,
+            upsample_kernel_size=2,
+            norm_name=norm_name,
+            res_block=True,
+        )
+        self.decoder2 = UnetrUpBlock(
+            spatial_dims=spatial_dims,
+            in_channels=feature_size * 2,
+            out_channels=feature_size,
+            kernel_size=3,
+            upsample_kernel_size=2,
+            norm_name=norm_name,
+            res_block=True,
+        )
+        self.decoder1 = UnetrUpBlock(
+            spatial_dims=spatial_dims,
+            in_channels=feature_size,
+            out_channels=feature_size,
+            kernel_size=3,
+            upsample_kernel_size=2,
+            norm_name=norm_name,
+            res_block=True,
+        )
+        self.out = UnetOutBlock(
+            spatial_dims=spatial_dims, in_channels=feature_size, out_channels=out_channels
+        )  # type: ignore
+    def load_from(self, weights):
+        with torch.no_grad():
+            self.swinViT.patch_embed.proj.weight.copy_(weights["state_dict"]["module.patch_embed.proj.weight"])
+            self.swinViT.patch_embed.proj.bias.copy_(weights["state_dict"]["module.patch_embed.proj.bias"])
+            for bname, block in self.swinViT.layers1[0].blocks.named_children():
+                block.load_from(weights, n_block=bname, layer="layers1")
+            self.swinViT.layers1[0].downsample.reduction.weight.copy_(
+                weights["state_dict"]["module.layers1.0.downsample.reduction.weight"]
+            )
+            self.swinViT.layers1[0].downsample.norm.weight.copy_(
+                weights["state_dict"]["module.layers1.0.downsample.norm.weight"]
+            )
+            self.swinViT.layers1[0].downsample.norm.bias.copy_(
+                weights["state_dict"]["module.layers1.0.downsample.norm.bias"]
+            )
+            for bname, block in self.swinViT.layers2[0].blocks.named_children():
+                block.load_from(weights, n_block=bname, layer="layers2")
+            self.swinViT.layers2[0].downsample.reduction.weight.copy_(
+                weights["state_dict"]["module.layers2.0.downsample.reduction.weight"]
+            )
+            self.swinViT.layers2[0].downsample.norm.weight.copy_(
+                weights["state_dict"]["module.layers2.0.downsample.norm.weight"]
+            )
+            self.swinViT.layers2[0].downsample.norm.bias.copy_(
+                weights["state_dict"]["module.layers2.0.downsample.norm.bias"]
+            )
+            for bname, block in self.swinViT.layers3[0].blocks.named_children():
+                block.load_from(weights, n_block=bname, layer="layers3")
+            self.swinViT.layers3[0].downsample.reduction.weight.copy_(
+                weights["state_dict"]["module.layers3.0.downsample.reduction.weight"]
+            )
+            self.swinViT.layers3[0].downsample.norm.weight.copy_(
+                weights["state_dict"]["module.layers3.0.downsample.norm.weight"]
+            )
+            self.swinViT.layers3[0].downsample.norm.bias.copy_(
+                weights["state_dict"]["module.layers3.0.downsample.norm.bias"]
+            )
+            for bname, block in self.swinViT.layers4[0].blocks.named_children():
+                block.load_from(weights, n_block=bname, layer="layers4")
+            self.swinViT.layers4[0].downsample.reduction.weight.copy_(
+                weights["state_dict"]["module.layers4.0.downsample.reduction.weight"]
+            )
+            self.swinViT.layers4[0].downsample.norm.weight.copy_(
+                weights["state_dict"]["module.layers4.0.downsample.norm.weight"]
+            )
+            self.swinViT.layers4[0].downsample.norm.bias.copy_(
+                weights["state_dict"]["module.layers4.0.downsample.norm.bias"]
+            )
+    def forward(self, x_in, text_in):
+        hidden_states_out = self.swinViT(x_in, text_in, self.normalize)
+        enc0 = self.encoder1(x_in)
+        enc1 = self.encoder2(hidden_states_out[0])
+        enc2 = self.encoder3(hidden_states_out[1])
+        enc3 = self.encoder4(hidden_states_out[2])
+        dec4 = self.encoder10(hidden_states_out[4])
+        dec3 = self.decoder5(dec4, hidden_states_out[3])
+        dec2 = self.decoder4(dec3, enc3)
+        dec1 = self.decoder3(dec2, enc2)
+        dec0 = self.decoder2(dec1, enc1)
+        out = self.decoder1(dec0, enc0)
+        logits = self.out(out)
+        return logits
+def window_partition(x, window_size):
+    """window partition operation based on: "Liu et al.,
+    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
+    <https://arxiv.org/abs/2103.14030>"
+    https://github.com/microsoft/Swin-Transformer
+     Args:
+        x: input tensor.
+        window_size: local window size.
+    """
+    x_shape = x.size()
+    if len(x_shape) == 5:
+        b, d, h, w, c = x_shape
+        x = x.view(
+            b,
+            d // window_size[0],
+            window_size[0],
+            h // window_size[1],
+            window_size[1],
+            w // window_size[2],
+            window_size[2],
+            c,
+        )
+        windows = (
+            x.permute(0, 1, 3, 5, 2, 4, 6, 7).contiguous().view(-1, window_size[0] * window_size[1] * window_size[2], c)
+        )
+    elif len(x_shape) == 4:
+        b, h, w, c = x.shape
+        x = x.view(b, h // window_size[0], window_size[0], w // window_size[1], window_size[1], c)
+        windows = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(-1, window_size[0] * window_size[1], c)
+    return windows
+def window_reverse(windows, window_size, dims):
+    """window reverse operation based on: "Liu et al.,
+    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
+    <https://arxiv.org/abs/2103.14030>"
+    https://github.com/microsoft/Swin-Transformer
+     Args:
+        windows: windows tensor.
+        window_size: local window size.
+        dims: dimension values.
+    """
+    if len(dims) == 4:
+        b, d, h, w = dims
+        x = windows.view(
+            b,
+            d // window_size[0],
+            h // window_size[1],
+            w // window_size[2],
+            window_size[0],
+            window_size[1],
+            window_size[2],
+            -1,
+        )
+        x = x.permute(0, 1, 4, 2, 5, 3, 6, 7).contiguous().view(b, d, h, w, -1)
+    elif len(dims) == 3:
+        b, h, w = dims
+        x = windows.view(b, h // window_size[0], w // window_size[0], window_size[0], window_size[1], -1)
+        x = x.permute(0, 1, 3, 2, 4, 5).contiguous().view(b, h, w, -1)
+    return x
+def get_window_size(x_size, window_size, shift_size=None):
+    """Computing window size based on: "Liu et al.,
+    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
+    <https://arxiv.org/abs/2103.14030>"
+    https://github.com/microsoft/Swin-Transformer
+     Args:
+        x_size: input size.
+        window_size: local window size.
+        shift_size: window shifting size.
+    """
+    use_window_size = list(window_size)
+    if shift_size is not None:
+        use_shift_size = list(shift_size)
+    for i in range(len(x_size)):
+        if x_size[i] <= window_size[i]:
+            use_window_size[i] = x_size[i]
+            if shift_size is not None:
+                use_shift_size[i] = 0
+    if shift_size is None:
+        return tuple(use_window_size)
+    else:
+        return tuple(use_window_size), tuple(use_shift_size)
+class WindowAttention(nn.Module):
+    """
+    Window based multi-head self attention module with relative position bias based on: "Liu et al.,
+    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
+    <https://arxiv.org/abs/2103.14030>"
+    https://github.com/microsoft/Swin-Transformer
+    """
+    def __init__(
+        self,
+        dim: int,
+        num_heads: int,
+        window_size: Sequence[int],
+        qkv_bias: bool = False,
+        attn_drop: float = 0.0,
+        proj_drop: float = 0.0,
+    ) -> None:
+        """
+        Args:
+            dim: number of feature channels.
+            num_heads: number of attention heads.
+            window_size: local window size.
+            qkv_bias: add a learnable bias to query, key, value.
+            attn_drop: attention dropout rate.
+            proj_drop: dropout rate of output.
+        """
+        super().__init__()
+        self.dim = dim
+        self.window_size = window_size
+        self.num_heads = num_heads
+        head_dim = dim // num_heads
+        self.scale = head_dim**-0.5
+        mesh_args = torch.meshgrid.__kwdefaults__
+        if len(self.window_size) == 3:
+            self.relative_position_bias_table = nn.Parameter(
+                torch.zeros(
+                    (2 * self.window_size[0] - 1) * (2 * self.window_size[1] - 1) * (2 * self.window_size[2] - 1),
+                    num_heads,
+                )
+            )
+            coords_d = torch.arange(self.window_size[0])
+            coords_h = torch.arange(self.window_size[1])
+            coords_w = torch.arange(self.window_size[2])
+            if mesh_args is not None:
+                coords = torch.stack(torch.meshgrid(coords_d, coords_h, coords_w, indexing="ij"))
+            else:
+                coords = torch.stack(torch.meshgrid(coords_d, coords_h, coords_w))
+            coords_flatten = torch.flatten(coords, 1)
+            relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]
+            relative_coords = relative_coords.permute(1, 2, 0).contiguous()
+            relative_coords[:, :, 0] += self.window_size[0] - 1
+            relative_coords[:, :, 1] += self.window_size[1] - 1
+            relative_coords[:, :, 2] += self.window_size[2] - 1
+            relative_coords[:, :, 0] *= (2 * self.window_size[1] - 1) * (2 * self.window_size[2] - 1)
+            relative_coords[:, :, 1] *= 2 * self.window_size[2] - 1
+        elif len(self.window_size) == 2:
+            self.relative_position_bias_table = nn.Parameter(
+                torch.zeros((2 * window_size[0] - 1) * (2 * window_size[1] - 1), num_heads)
+            )
+            coords_h = torch.arange(self.window_size[0])
+            coords_w = torch.arange(self.window_size[1])
+            if mesh_args is not None:
+                coords = torch.stack(torch.meshgrid(coords_h, coords_w, indexing="ij"))
+            else:
+                coords = torch.stack(torch.meshgrid(coords_h, coords_w))
+            coords_flatten = torch.flatten(coords, 1)
+            relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]
+            relative_coords = relative_coords.permute(1, 2, 0).contiguous()
+            relative_coords[:, :, 0] += self.window_size[0] - 1
+            relative_coords[:, :, 1] += self.window_size[1] - 1
+            relative_coords[:, :, 0] *= 2 * self.window_size[1] - 1
+        relative_position_index = relative_coords.sum(-1)
+        self.register_buffer("relative_position_index", relative_position_index)
+        self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)
+        self.attn_drop = nn.Dropout(attn_drop)
+        self.proj = nn.Linear(dim, dim)
+        self.proj_drop = nn.Dropout(proj_drop)
+        trunc_normal_(self.relative_position_bias_table, std=0.02)
+        self.softmax = nn.Softmax(dim=-1)
+    def forward(self, x, mask):
+        b, n, c = x.shape
+        qkv = self.qkv(x).reshape(b, n, 3, self.num_heads, c // self.num_heads).permute(2, 0, 3, 1, 4)
+        q, k, v = qkv[0], qkv[1], qkv[2]
+        q = q * self.scale
+        attn = q @ k.transpose(-2, -1)
+        relative_position_bias = self.relative_position_bias_table[
+            self.relative_position_index[:n, :n].reshape(-1)
+        ].reshape(n, n, -1)
+        relative_position_bias = relative_position_bias.permute(2, 0, 1).contiguous()
+        attn = attn + relative_position_bias.unsqueeze(0)
+        if mask is not None:
+            nw = mask.shape[0]
+            attn = attn.view(b // nw, nw, self.num_heads, n, n) + mask.unsqueeze(1).unsqueeze(0)
+            attn = attn.view(-1, self.num_heads, n, n)
+            attn = self.softmax(attn)
+        else:
+            attn = self.softmax(attn)
+        attn = self.attn_drop(attn)
+        x = (attn @ v).transpose(1, 2).reshape(b, n, c)
+        x = self.proj(x)
+        x = self.proj_drop(x)
+        return x
+class SwinTransformerBlock(nn.Module):
+    """
+    Swin Transformer block based on: "Liu et al.,
+    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
+    <https://arxiv.org/abs/2103.14030>"
+    https://github.com/microsoft/Swin-Transformer
+    """
+    def __init__(
+        self,
+        dim: int,
+        num_heads: int,
+        window_size: Sequence[int],
+        shift_size: Sequence[int],
+        mlp_ratio: float = 4.0,
+        qkv_bias: bool = True,
+        drop: float = 0.0,
+        attn_drop: float = 0.0,
+        drop_path: float = 0.0,
+        act_layer: str = "GELU",
+        norm_layer: Type[LayerNorm] = nn.LayerNorm,  # type: ignore
+        use_checkpoint: bool = False,
+    ) -> None:
+        """
+        Args:
+            dim: number of feature channels.
+            num_heads: number of attention heads.
+            window_size: local window size.
+            shift_size: window shift size.
+            mlp_ratio: ratio of mlp hidden dim to embedding dim.
+            qkv_bias: add a learnable bias to query, key, value.
+            drop: dropout rate.
+            attn_drop: attention dropout rate.
+            drop_path: stochastic depth rate.
+            act_layer: activation layer.
+            norm_layer: normalization layer.
+            use_checkpoint: use gradient checkpointing for reduced memory usage.
+        """
+        super().__init__()
+        self.dim = dim
+        self.num_heads = num_heads
+        self.window_size = window_size
+        self.shift_size = shift_size
+        self.mlp_ratio = mlp_ratio
+        self.use_checkpoint = use_checkpoint
+        self.norm1 = norm_layer(dim)
+        self.attn = WindowAttention(
+            dim,
+            window_size=self.window_size,
+            num_heads=num_heads,
+            qkv_bias=qkv_bias,
+            attn_drop=attn_drop,
+            proj_drop=drop,
+        )
+        self.drop_path = DropPath(drop_path) if drop_path > 0.0 else nn.Identity()
+        self.norm2 = norm_layer(dim)
+        mlp_hidden_dim = int(dim * mlp_ratio)
+        self.mlp = Mlp(hidden_size=dim, mlp_dim=mlp_hidden_dim, act=act_layer, dropout_rate=drop, dropout_mode="swin")
+    def forward_part1(self, x, mask_matrix):
+        x_shape = x.size()
+        x = self.norm1(x)
+        if len(x_shape) == 5:
+            b, d, h, w, c = x.shape
+            window_size, shift_size = get_window_size((d, h, w), self.window_size, self.shift_size)
+            pad_l = pad_t = pad_d0 = 0
+            pad_d1 = (window_size[0] - d % window_size[0]) % window_size[0]
+            pad_b = (window_size[1] - h % window_size[1]) % window_size[1]
+            pad_r = (window_size[2] - w % window_size[2]) % window_size[2]
+            x = F.pad(x, (0, 0, pad_l, pad_r, pad_t, pad_b, pad_d0, pad_d1))
+            _, dp, hp, wp, _ = x.shape
+            dims = [b, dp, hp, wp]
+        elif len(x_shape) == 4:
+            b, h, w, c = x.shape
+            window_size, shift_size = get_window_size((h, w), self.window_size, self.shift_size)
+            pad_l = pad_t = 0
+            pad_r = (window_size[0] - h % window_size[0]) % window_size[0]
+            pad_b = (window_size[1] - w % window_size[1]) % window_size[1]
+            x = F.pad(x, (0, 0, pad_l, pad_r, pad_t, pad_b))
+            _, hp, wp, _ = x.shape
+            dims = [b, hp, wp]
+        if any(i > 0 for i in shift_size):
+            if len(x_shape) == 5:
+                shifted_x = torch.roll(x, shifts=(-shift_size[0], -shift_size[1], -shift_size[2]), dims=(1, 2, 3))
+            elif len(x_shape) == 4:
+                shifted_x = torch.roll(x, shifts=(-shift_size[0], -shift_size[1]), dims=(1, 2))
+            attn_mask = mask_matrix
+        else:
+            shifted_x = x
+            attn_mask = None
+        x_windows = window_partition(shifted_x, window_size)
+        attn_windows = self.attn(x_windows, mask=attn_mask)
+        attn_windows = attn_windows.view(-1, *(window_size + (c,)))
+        shifted_x = window_reverse(attn_windows, window_size, dims)
+        if any(i > 0 for i in shift_size):
+            if len(x_shape) == 5:
+                x = torch.roll(shifted_x, shifts=(shift_size[0], shift_size[1], shift_size[2]), dims=(1, 2, 3))
+            elif len(x_shape) == 4:
+                x = torch.roll(shifted_x, shifts=(shift_size[0], shift_size[1]), dims=(1, 2))
+        else:
+            x = shifted_x
+        if len(x_shape) == 5:
+            if pad_d1 > 0 or pad_r > 0 or pad_b > 0:
+                x = x[:, :d, :h, :w, :].contiguous()
+        elif len(x_shape) == 4:
+            if pad_r > 0 or pad_b > 0:
+                x = x[:, :h, :w, :].contiguous()
+        return x
+    def forward_part2(self, x):
+        return self.drop_path(self.mlp(self.norm2(x)))
+    def load_from(self, weights, n_block, layer):
+        root = f"module.{layer}.0.blocks.{n_block}."
+        block_names = [
+            "norm1.weight",
+            "norm1.bias",
+            "attn.relative_position_bias_table",
+            "attn.relative_position_index",
+            "attn.qkv.weight",
+            "attn.qkv.bias",
+            "attn.proj.weight",
+            "attn.proj.bias",
+            "norm2.weight",
+            "norm2.bias",
+            "mlp.fc1.weight",
+            "mlp.fc1.bias",
+            "mlp.fc2.weight",
+            "mlp.fc2.bias",
+        ]
+        with torch.no_grad():
+            self.norm1.weight.copy_(weights["state_dict"][root + block_names[0]])
+            self.norm1.bias.copy_(weights["state_dict"][root + block_names[1]])
+            self.attn.relative_position_bias_table.copy_(weights["state_dict"][root + block_names[2]])
+            self.attn.relative_position_index.copy_(weights["state_dict"][root + block_names[3]])
+            self.attn.qkv.weight.copy_(weights["state_dict"][root + block_names[4]])
+            self.attn.qkv.bias.copy_(weights["state_dict"][root + block_names[5]])
+            self.attn.proj.weight.copy_(weights["state_dict"][root + block_names[6]])
+            self.attn.proj.bias.copy_(weights["state_dict"][root + block_names[7]])
+            self.norm2.weight.copy_(weights["state_dict"][root + block_names[8]])
+            self.norm2.bias.copy_(weights["state_dict"][root + block_names[9]])
+            self.mlp.linear1.weight.copy_(weights["state_dict"][root + block_names[10]])
+            self.mlp.linear1.bias.copy_(weights["state_dict"][root + block_names[11]])
+            self.mlp.linear2.weight.copy_(weights["state_dict"][root + block_names[12]])
+            self.mlp.linear2.bias.copy_(weights["state_dict"][root + block_names[13]])
+    def forward(self, x, mask_matrix):
+        shortcut = x
+        if self.use_checkpoint:
+            x = checkpoint.checkpoint(self.forward_part1, x, mask_matrix)
+        else:
+            x = self.forward_part1(x, mask_matrix)
+        x = shortcut + self.drop_path(x)
+        if self.use_checkpoint:
+            x = x + checkpoint.checkpoint(self.forward_part2, x)
+        else:
+            x = x + self.forward_part2(x)
+        return x
+class PatchMerging(nn.Module):
+    """
+    Patch merging layer based on: "Liu et al.,
+    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
+    <https://arxiv.org/abs/2103.14030>"
+    https://github.com/microsoft/Swin-Transformer
+    """
+    def __init__(
+        self, dim: int, norm_layer: Type[LayerNorm] = nn.LayerNorm, spatial_dims: int = 3
+    ) -> None:  # type: ignore
+        """
+        Args:
+            dim: number of feature channels.
+            norm_layer: normalization layer.
+            spatial_dims: number of spatial dims.
+        """
+        super().__init__()
+        self.dim = dim
+        if spatial_dims == 3:
+            self.reduction = nn.Linear(8 * dim, 2 * dim, bias=False)
+            self.norm = norm_layer(8 * dim)
+        elif spatial_dims == 2:
+            self.reduction = nn.Linear(4 * dim, 2 * dim, bias=False)
+            self.norm = norm_layer(4 * dim)
+    def forward(self, x):
+        x_shape = x.size()
+        if len(x_shape) == 5:
+            b, d, h, w, c = x_shape
+            pad_input = (h % 2 == 1) or (w % 2 == 1) or (d % 2 == 1)
+            if pad_input:
+                x = F.pad(x, (0, 0, 0, d % 2, 0, w % 2, 0, h % 2))
+            x0 = x[:, 0::2, 0::2, 0::2, :]
+            x1 = x[:, 1::2, 0::2, 0::2, :]
+            x2 = x[:, 0::2, 1::2, 0::2, :]
+            x3 = x[:, 0::2, 0::2, 1::2, :]
+            x4 = x[:, 1::2, 0::2, 1::2, :]
+            x5 = x[:, 0::2, 1::2, 0::2, :]
+            x6 = x[:, 0::2, 0::2, 1::2, :]
+            x7 = x[:, 1::2, 1::2, 1::2, :]
+            x = torch.cat([x0, x1, x2, x3, x4, x5, x6, x7], -1)
+        elif len(x_shape) == 4:
+            b, h, w, c = x_shape
+            pad_input = (h % 2 == 1) or (w % 2 == 1)
+            if pad_input:
+                x = F.pad(x, (0, 0, 0, w % 2, 0, h % 2))
+            x0 = x[:, 0::2, 0::2, :]
+            x1 = x[:, 1::2, 0::2, :]
+            x2 = x[:, 0::2, 1::2, :]
+            x3 = x[:, 1::2, 1::2, :]
+            x = torch.cat([x0, x1, x2, x3], -1)
+        x = self.norm(x)
+        x = self.reduction(x)
+        return x
+def compute_mask(dims, window_size, shift_size, device):
+    """Computing region masks based on: "Liu et al.,
+    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
+    <https://arxiv.org/abs/2103.14030>"
+    https://github.com/microsoft/Swin-Transformer
+     Args:
+        dims: dimension values.
+        window_size: local window size.
+        shift_size: shift size.
+        device: device.
+    """
+    cnt = 0
+    if len(dims) == 3:
+        d, h, w = dims
+        img_mask = torch.zeros((1, d, h, w, 1), device=device)
+        for d in slice(-window_size[0]), slice(-window_size[0], -shift_size[0]), slice(-shift_size[0], None):
+            for h in slice(-window_size[1]), slice(-window_size[1], -shift_size[1]), slice(-shift_size[1], None):
+                for w in slice(-window_size[2]), slice(-window_size[2], -shift_size[2]), slice(-shift_size[2], None):
+                    img_mask[:, d, h, w, :] = cnt
+                    cnt += 1
+    elif len(dims) == 2:
+        h, w = dims
+        img_mask = torch.zeros((1, h, w, 1), device=device)
+        for h in slice(-window_size[0]), slice(-window_size[0], -shift_size[0]), slice(-shift_size[0], None):
+            for w in slice(-window_size[1]), slice(-window_size[1], -shift_size[1]), slice(-shift_size[1], None):
+                img_mask[:, h, w, :] = cnt
+                cnt += 1
+    mask_windows = window_partition(img_mask, window_size)
+    mask_windows = mask_windows.squeeze(-1)
+    attn_mask = mask_windows.unsqueeze(1) - mask_windows.unsqueeze(2)
+    attn_mask = attn_mask.masked_fill(attn_mask != 0, float(-100.0)).masked_fill(attn_mask == 0, float(0.0))
+    return attn_mask
+class BasicLayer(nn.Module):
+    """
+    Basic Swin Transformer layer in one stage based on: "Liu et al.,
+    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
+    <https://arxiv.org/abs/2103.14030>"
+    https://github.com/microsoft/Swin-Transformer
+    """
+    def __init__(
+        self,
+        dim: int,
+        depth: int,
+        num_heads: int,
+        window_size: Sequence[int],
+        drop_path: list,
+        mlp_ratio: float = 4.0,
+        qkv_bias: bool = False,
+        drop: float = 0.0,
+        attn_drop: float = 0.0,
+        norm_layer: Type[LayerNorm] = nn.LayerNorm,  # type: ignore
+        downsample: isinstance = None,  # type: ignore
+        use_checkpoint: bool = False,
+    ) -> None:
+        """
+        Args:
+            dim: number of feature channels.
+            depths: number of layers in each stage.
+            num_heads: number of attention heads.
+            window_size: local window size.
+            drop_path: stochastic depth rate.
+            mlp_ratio: ratio of mlp hidden dim to embedding dim.
+            qkv_bias: add a learnable bias to query, key, value.
+            drop: dropout rate.
+            attn_drop: attention dropout rate.
+            norm_layer: normalization layer.
+            downsample: downsample layer at the end of the layer.
+            use_checkpoint: use gradient checkpointing for reduced memory usage.
+        """
+        super().__init__()
+        self.window_size = window_size
+        self.shift_size = tuple(i // 2 for i in window_size)
+        self.no_shift = tuple(0 for i in window_size)
+        self.depth = depth
+        self.use_checkpoint = use_checkpoint
+        self.blocks = nn.ModuleList(
+            [
+                SwinTransformerBlock(
+                    dim=dim,
+                    num_heads=num_heads,
+                    window_size=self.window_size,
+                    shift_size=self.no_shift if (i % 2 == 0) else self.shift_size,
+                    mlp_ratio=mlp_ratio,
+                    qkv_bias=qkv_bias,
+                    drop=drop,
+                    attn_drop=attn_drop,
+                    drop_path=drop_path[i] if isinstance(drop_path, list) else drop_path,
+                    norm_layer=norm_layer,
+                    use_checkpoint=use_checkpoint,
+                )
+                for i in range(depth)
+            ]
+        )
+        self.downsample = downsample
+        if self.downsample is not None:
+            self.downsample = downsample(dim=dim, norm_layer=norm_layer, spatial_dims=len(self.window_size))
+    def forward(self, x):
+        x_shape = x.size()
+        if len(x_shape) == 5:
+            b, c, d, h, w = x_shape
+            window_size, shift_size = get_window_size((d, h, w), self.window_size, self.shift_size)
+            x = rearrange(x, "b c d h w -> b d h w c")
+            dp = int(np.ceil(d / window_size[0])) * window_size[0]
+            hp = int(np.ceil(h / window_size[1])) * window_size[1]
+            wp = int(np.ceil(w / window_size[2])) * window_size[2]
+            attn_mask = compute_mask([dp, hp, wp], window_size, shift_size, x.device)
+            for blk in self.blocks:
+                x = blk(x, attn_mask)
+            x = x.view(b, d, h, w, -1)
+            if self.downsample is not None:
+                x = self.downsample(x)
+            x = rearrange(x, "b d h w c -> b c d h w")
+        elif len(x_shape) == 4:
+            b, c, h, w = x_shape
+            window_size, shift_size = get_window_size((h, w), self.window_size, self.shift_size)
+            x = rearrange(x, "b c h w -> b h w c")
+            hp = int(np.ceil(h / window_size[0])) * window_size[0]
+            wp = int(np.ceil(w / window_size[1])) * window_size[1]
+            attn_mask = compute_mask([hp, wp], window_size, shift_size, x.device)
+            for blk in self.blocks:
+                x = blk(x, attn_mask)
+            x = x.view(b, h, w, -1)
+            if self.downsample is not None:
+                x = self.downsample(x)
+            x = rearrange(x, "b h w c -> b c h w")
+        return x
+class SwinTransformer(nn.Module):
+    """
+    Swin Transformer based on: "Liu et al.,
+    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
+    <https://arxiv.org/abs/2103.14030>"
+    https://github.com/microsoft/Swin-Transformer
+    """
+    def __init__(
+        self,
+        in_chans: int,
+        embed_dim: int,
+        text_dim: int,
+        window_size: Sequence[int],
+        patch_size: Sequence[int],
+        depths: Sequence[int],
+        num_heads: Sequence[int],
+        mlp_ratio: float = 4.0,
+        qkv_bias: bool = True,
+        drop_rate: float = 0.0,
+        attn_drop_rate: float = 0.0,
+        drop_path_rate: float = 0.0,
+        norm_layer: Type[LayerNorm] = nn.LayerNorm,  # type: ignore
+        patch_norm: bool = False,
+        use_checkpoint: bool = False,
+        spatial_dims: int = 3,
+    ) -> None:
+        """
+        Args:
+            in_chans: dimension of input channels.
+            embed_dim: number of linear projection output channels.
+            window_size: local window size.
+            patch_size: patch size.
+            depths: number of layers in each stage.
+            num_heads: number of attention heads.
+            mlp_ratio: ratio of mlp hidden dim to embedding dim.
+            qkv_bias: add a learnable bias to query, key, value.
+            drop_rate: dropout rate.
+            attn_drop_rate: attention dropout rate.
+            drop_path_rate: stochastic depth rate.
+            norm_layer: normalization layer.
+            patch_norm: add normalization after patch embedding.
+            use_checkpoint: use gradient checkpointing for reduced memory usage.
+            spatial_dims: spatial dimension.
+        """
+        super().__init__()
+        self.num_layers = len(depths)
+        self.embed_dim = embed_dim
+        self.patch_norm = patch_norm
+        self.window_size = window_size
+        self.patch_size = patch_size
+        self.patch_embed = PatchEmbed(
+            patch_size=self.patch_size,
+            in_chans=in_chans,
+            embed_dim=embed_dim,
+            norm_layer=norm_layer if self.patch_norm else None,  # type: ignore
+            spatial_dims=spatial_dims,
+        )
+        self.pos_drop = nn.Dropout(p=drop_rate)
+        dpr = [x.item() for x in torch.linspace(0, drop_path_rate, sum(depths))]
+        self.layers1 = nn.ModuleList()
+        self.layers2 = nn.ModuleList()
+        self.layers3 = nn.ModuleList()
+        self.layers4 = nn.ModuleList()
+        for i_layer in range(self.num_layers):
+            layer = BasicLayer(
+                dim=int(embed_dim * 2**i_layer),
+                depth=depths[i_layer],
+                num_heads=num_heads[i_layer],
+                window_size=self.window_size,
+                drop_path=dpr[sum(depths[:i_layer]) : sum(depths[: i_layer + 1])],
+                mlp_ratio=mlp_ratio,
+                qkv_bias=qkv_bias,
+                drop=drop_rate,
+                attn_drop=attn_drop_rate,
+                norm_layer=norm_layer,
+                downsample=PatchMerging,
+                use_checkpoint=use_checkpoint,
+            )
+            if i_layer == 0:
+                self.layers1.append(layer)
+            elif i_layer == 1:
+                self.layers2.append(layer)
+            elif i_layer == 2:
+                self.layers3.append(layer)
+            elif i_layer == 3:
+                self.layers4.append(layer)
+        self.num_features = int(embed_dim * 2 ** (self.num_layers - 1))
+        self.mlp_text = nn.Sequential(
+            nn.Conv1d(text_dim, 1024, kernel_size=1),
+            nn.ReLU(),
+            nn.Conv1d(1024, 768, kernel_size=1),
+        )
+        self.fw_mlp = nn.Sequential(
+            nn.Conv3d(768, 768, kernel_size=1),
+            nn.ReLU())
+        self.mlpk = nn.Conv1d(768, 768, kernel_size=1)
+        self.mlpv = nn.Conv1d(768, 768, kernel_size=1)
+        self.ly_norm = nn.LayerNorm(normalized_shape=(4,4,4))
+        self.mlp_text_q = nn.Conv1d(768, 768, kernel_size=1)
+        self.mlp_image_k = nn.Conv1d(768, 768, kernel_size=1)
+        self.mlp_image_v = nn.Conv1d(768, 768, kernel_size=1)
+        self.mlp_image_q = nn.Conv1d(768, 768, kernel_size=1)
+    def proj_out(self, x, normalize=False):
+        if normalize:
+            x_shape = x.size()
+            if len(x_shape) == 5:
+                n, ch, d, h, w = x_shape
+                x = rearrange(x, "n c d h w -> n d h w c")
+                x = F.layer_norm(x, [ch])
+                x = rearrange(x, "n d h w c -> n c d h w")
+            elif len(x_shape) == 4:
+                n, ch, h, w = x_shape
+                x = rearrange(x, "n c h w -> n h w c")
+                x = F.layer_norm(x, [ch])
+                x = rearrange(x, "n h w c -> n c h w")
+        return x
+    def sequential_cross_attention(self, image_features, text_features):
+        """
+        Cross attention between image and text features.
+        Args:
+            image_features: Tensor of shape (B, C, H, W, D)
+            text_features: Tensor of shape (B, T_dim, T_len)
+        Returns:
+            Processed image features with the same shape as input (B, C, H, W, D)
+        """
+        B, C, H, W, D = image_features.shape
+        _, T_dim, T_len = text_features.shape
+        # Step 1: Text-to-Image Cross Attention (Text as Q, Image as K/V)
+        # Project text features to Query
+        text_features = self.mlp_text(text_features.permute(0,2,1).contiguous())
+        text_q = self.mlp_text_q(text_features).permute(0,2,1).contiguous()  # Shape: (B, T_len, d_k)
+        # Flatten image features and project to Key and Value
+        image_features_flat = image_features.view(B, C, -1).contiguous()  # Shape: (B, N_img, C)
+        image_k = self.mlp_image_k(image_features_flat).permute(0,2,1).contiguous()  # Shape: (B, N_img, d_k)
+        image_v = self.mlp_image_v(image_features_flat).permute(0,2,1).contiguous()  # Shape: (B, N_img, d_v)
+        # Compute attention scores and weights
+        attn_scores_t2i = torch.matmul(text_q, image_k.transpose(-2, -1)) / math.sqrt(
+            text_q.size(-1))  # (B, T_len, N_img)
+        attn_weights_t2i = F.softmax(attn_scores_t2i, dim=-1)  # (B, T_len, N_img)
+        # Get attended image features
+        attended_image_features = torch.matmul(attn_weights_t2i, image_v).permute(0,2,1).contiguous()  # (B, T_len, d_v)
+        # Step 2: Image-to-AttendedImage(Text) Cross Attention (Image as Q, AttendedImage as K/V)
+        # Project image features to Query
+        image_q = self.mlp_image_q(image_features_flat).permute(0,2,1).contiguous()  # (B, N_img, d_k)
+        # Project attended text features to Key and Value
+        attended_image_k = self.mlpk(attended_image_features).permute(0,2,1).contiguous()  # (B, T_len, d_k)
+        attended_image_v = self.mlpv(attended_image_features).permute(0,2,1).contiguous()  # (B, T_len, d_v)
+        # Compute attention scores and weights
+        attn_scores_i2t = torch.matmul(image_q, attended_image_k.transpose(-2, -1)) / math.sqrt(
+            image_q.size(-1))  # (B, N_img, T_len)
+        attn_weights_i2t = F.softmax(attn_scores_i2t, dim=-1)  # (B, N_img, T_len)
+        # Get attended image features
+        attn_output_image = torch.matmul(attn_weights_i2t, attended_image_v)  # (B, N_img, d_v)
+        # Reshape back to original image feature shape
+        attn_output_image = attn_output_image.permute(0, 2, 1).contiguous()  # (B, d_v, N_img)
+        attn_output_image = attn_output_image.view(B, C, H, W, D)
+        # Apply layer normalization and final MLP processing
+        processed_image_features = self.ly_norm(attn_output_image)
+        processed_image_features = self.fw_mlp(processed_image_features.float())
+        processed_image_features = self.ly_norm(processed_image_features)
+        return processed_image_features
+    def forward(self, x, text, normalize=True):
+        x0 = self.patch_embed(x)
+        x0 = self.pos_drop(x0)
+        x0_out = self.proj_out(x0, normalize)
+        x1 = self.layers1[0](x0.contiguous())
+        x1_out = self.proj_out(x1, normalize)
+        x2 = self.layers2[0](x1.contiguous())
+        x2_out = self.proj_out(x2, normalize)
+        x3 = self.layers3[0](x2.contiguous())
+        x3_out = self.proj_out(x3, normalize)
+        x4 = self.layers4[0](x3.contiguous())
+        # Sequential cross-attention fusion
+        x4 = self.sequential_cross_attention(x4,text)
+        x4_out = self.proj_out(x4, normalize)
+        return [x0_out, x1_out, x2_out, x3_out, x4_out]
+if __name__ == "__main__":
+    model = TextSwinUNETR(
+        img_size=(128,128,128),
+        in_channels=4,
+        out_channels=3,
+        feature_size=48,
+        text_dim=768,
+        use_checkpoint=False,
+    ).cuda()
+    input = torch.randn(1,4,128,128,128).cuda()
+    text = torch.randn(1,128,768).cuda()
+    output = model(input,text)
+    print(output[0].shape)

utils/utils.py ADDED Viewed

	@@ -0,0 +1,69 @@

+# Copyright 2020 - 2022 MONAI Consortium
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#     http://www.apache.org/licenses/LICENSE-2.0
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import numpy as np
+import torch
+def dice(x, y):
+    intersect = np.sum(np.sum(np.sum(x * y)))
+    y_sum = np.sum(np.sum(np.sum(y)))
+    if y_sum == 0:
+        return 0.0
+    x_sum = np.sum(np.sum(np.sum(x)))
+    return 2 * intersect / (x_sum + y_sum)
+class AverageMeter(object):
+    def __init__(self):
+        self.reset()
+    def reset(self):
+        self.val = 0
+        self.avg = 0
+        self.sum = 0
+        self.count = 0
+    def update(self, val, n=1):
+        self.val = val
+        self.sum += val * n
+        self.count += n
+        self.avg = np.where(self.count > 0, self.sum / self.count, self.sum)
+def distributed_all_gather(
+    tensor_list, valid_batch_size=None, out_numpy=False, world_size=None, no_barrier=False, is_valid=None
+):
+    if world_size is None:
+        world_size = torch.distributed.get_world_size()
+    if valid_batch_size is not None:
+        valid_batch_size = min(valid_batch_size, world_size)
+    elif is_valid is not None:
+        is_valid = torch.tensor(bool(is_valid), dtype=torch.bool, device=tensor_list[0].device)
+    if not no_barrier:
+        torch.distributed.barrier()
+    tensor_list_out = []
+    with torch.no_grad():
+        if is_valid is not None:
+            is_valid_list = [torch.zeros_like(is_valid) for _ in range(world_size)]
+            torch.distributed.all_gather(is_valid_list, is_valid)
+            is_valid = [x.item() for x in is_valid_list]
+        for tensor in tensor_list:
+            gather_list = [torch.zeros_like(tensor) for _ in range(world_size)]
+            torch.distributed.all_gather(gather_list, tensor)
+            if valid_batch_size is not None:
+                gather_list = gather_list[:valid_batch_size]
+            elif is_valid is not None:
+                gather_list = [g for g, v in zip(gather_list, is_valid_list) if v]
+            if out_numpy:
+                gather_list = [t.cpu().numpy() for t in gather_list]
+            tensor_list_out.append(gather_list)
+    return tensor_list_out