Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

seg-best-dino-orb-slam/checkpoint.pt +3 -0
seg-best-dino-orb-slam/training_config.yaml +278 -0
seg-best-dino/checkpoint.pt +3 -0
seg-best-dino/training_config.yaml +277 -0
seg-best-dinov2/checkpoint.pt +3 -0
seg-best-dinov2/training_config.yaml +277 -0

seg-best-dino-orb-slam/checkpoint.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c18a5ce50958a99d36a62cae6a690ec41bc9368d5f2d3faaf2e139126f595b42
+size 764129470

seg-best-dino-orb-slam/training_config.yaml ADDED Viewed

	@@ -0,0 +1,278 @@

+dataset:
+  type: old_KITTI_360
+  data_path: /home/fb20user12/datasets/KITTI-360/
+  pose_path: /home/fb20user12/datasets/KITTI-360/data_poses
+  split_path: datasets/kitti_360/splits/sscbench
+  image_size:
+  - 192
+  - 640
+  data_stereo: true
+  data_fisheye: true
+  data_fc: 2
+  fisheye_offset:
+  - 10
+  - 11
+  - 12
+  - 13
+  - 14
+  - 15
+  - 16
+  - 17
+  - 18
+  - 19
+  - 20
+  - 21
+  - 22
+  - 23
+  - 24
+  - 25
+  - 26
+  - 27
+  - 28
+  - 29
+  - 30
+  - 31
+  - 32
+  - 33
+  - 34
+  - 35
+  - 36
+  - 37
+  - 38
+  - 39
+  - 40
+  stereo_offset:
+  - 0
+  is_preprocessed: true
+  fisheye_rotation: -15
+  data_segmentation: true
+  steps_per_epoch: 10328
+model:
+  arch: BTSNet
+  use_code: true
+  prediction_mode: default
+  predict_dino: true
+  dino_dims: 64
+  compensate_artifacts: true
+  flip_augmentation: true
+  encoder:
+    type: dinov2
+    mode: downsample-prediction
+    decoder_arch: dpt
+    downsampler_arch: featup
+    encoder_arch: vit-b
+    version: v1
+    separate_gt_version: v1
+    encoder_freeze: false
+    flip_avg_gt: false
+    dim_reduction_arch: mlp
+    num_ch_enc:
+    - 64
+    - 64
+    - 128
+    - 256
+    intermediate_features:
+    - 3
+    - 6
+    - 9
+    decoder_out_dim: 256
+    dino_pca_dim: 64
+    image_size:
+    - 192
+    - 640
+    key_features: false
+  code:
+    num_freqs: 6
+    freq_factor: 1.5
+    include_input: true
+  decoder_heads:
+  - type: resnet
+    name: normal_head
+    freeze: false
+    args:
+      n_blocks: 0
+      d_hidden: 128
+  final_prediction_head: normal_head
+  encoding_strategy:
+    name: default
+    args: {}
+  eval_encoding_strategy:
+    name: default
+    args: null
+  loss_renderer_strategy:
+    name: kitti_360
+    args: null
+  eval_loss_renderer_strategy:
+    name: single_renderer
+    args:
+      shuffle_frames: false
+      all_frames: true
+  inv_z: true
+  learn_empty: false
+  code_mode: z
+  n_frames_render: 4
+  sample_radius_3d: 0.5
+renderer:
+  n_coarse: 32
+  n_fine: 0
+  n_fine_depth: 0
+  depth_std: 1.0
+  sched: []
+  white_bkgd: false
+  lindisp: true
+  hard_alpha_cap: true
+  eval_batch_size: 65536
+  render_mode: volumetric
+  normalize_dino: true
+training:
+  optimizer:
+    type: adam
+    args:
+      lr: 0.0005
+      betas:
+      - 0.9
+      - 0.999
+      eps: 1.0e-08
+      weight_decay: 0.0
+      amsgrad: false
+  loss:
+  - type: stego
+    random_weight: 0.7104435477094759
+    knn_weight: 0.45714663697057617
+    self_weight: 0.0034456931615672037
+    random_shift: 0.9438917725068359
+    knn_shift: 0.15229132706463983
+    self_shift: 0.5457784695246396
+    pointwise: false
+  num_epochs: 1
+  epoch_length: 1000
+  continue: false
+  checkpoint_every: 5000
+  log_every_iters: 250
+  ray_sampler:
+    z_near: 3
+    z_far: 80
+    sample_mode: image
+  resume_from: /home/fb20user12/code/bts-thesis-dino/out/features-paper/scenedino-kitti-360-sscbench-orb-slam/training_checkpoint_180000.pt
+validation:
+  validation:
+    metrics:
+    - type: seg
+      agg_type: unsup_seg
+      args:
+        n_classes: 19
+        gt_classes: 19
+    - type: stego
+      agg_type: concat
+    subset:
+      type: random
+      args:
+        size: 32
+    save_best:
+      metric: stego_cluster_weighted_miou
+      update_model: true
+      dry_run: false
+    log_loss: false
+    global_step:
+      type: trainer iteration
+    events:
+    - type: ITERATION_COMPLETED
+      args:
+        every: 100
+  visualization_seg:
+    metrics: {}
+    subset:
+      type: range
+      args:
+        start: 300
+        end: 301
+    visualize:
+      input_imgs: null
+      dino_gt: null
+      batch_dino_gt: null
+      batch_dino_artifacts: null
+      segs_gt: null
+      segs_pred: null
+      batch_reconstructed_dino: null
+      batch_dino_features_kmeans: null
+      depth: null
+    log_loss: false
+    global_step:
+      type: trainer iteration
+    events:
+    - type: STARTED
+      args: null
+    - type: ITERATION_COMPLETED
+      args:
+        every: 100
+downstream:
+  type: segmentation
+  n_classes: 19
+  gt_classes: 19
+  input_dim: 768
+  code_dim: 64
+  knn_neighbors: 4
+  buffer_size: 256
+  patch_sample_size: 576
+  mode: 3d
+  apply_crf: false
+sweep:
+  study_name: orb_slam_sweep
+  storage_url: sqlite:////home/fb20user12/sweeps/optuna_study.db
+  direction: maximize
+  n_trials: 50
+  start_original_param: true
+  hparams:
+  - key: training.loss.0.random_weight
+    method: suggest_float
+    kwargs:
+      name: random_weight
+      low: 0.6
+      high: 0.8
+  - key: training.loss.0.knn_weight
+    method: suggest_float
+    kwargs:
+      name: knn_weight
+      low: 0.3
+      high: 0.5
+  - key: training.loss.0.self_weight
+    method: suggest_float
+    kwargs:
+      name: self_weight
+      low: 0.0
+      high: 0.2
+  - key: training.loss.0.random_shift
+    method: suggest_float
+    kwargs:
+      name: random_shift
+      low: 0.75
+      high: 0.95
+  - key: training.loss.0.knn_shift
+    method: suggest_float
+    kwargs:
+      name: knn_shift
+      low: 0.1
+      high: 0.3
+  - key: training.loss.0.self_shift
+    method: suggest_float
+    kwargs:
+      name: self_shift
+      low: 0.35
+      high: 0.55
+training_type: downstream_training
+mode: nvs
+seed: 18
+backend: null
+nproc_per_node: null
+with_amp: true
+name: training
+batch_size: 4
+gradient_accum_factor: 1
+num_workers: 6
+output:
+  path: out/sweep-orb-slam/sweep_18
+  unique_id: sweep_18
+  original_path: out/sweep-orb-slam
+  original_unique_id: sweep
+eval_seed: 13
+cuda device name: Tesla V100-SXM3-32GB

seg-best-dino/checkpoint.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d6d6ca7bd776f68e861639b56cc8b6ea42c8cc560e6711b2850cea1e15d6b01
+size 758231104

seg-best-dino/training_config.yaml ADDED Viewed

	@@ -0,0 +1,277 @@

+dataset:
+  type: old_KITTI_360
+  data_path: /home/fb20user12/datasets/KITTI-360/
+  pose_path: /home/fb20user12/datasets/KITTI-360/data_poses
+  split_path: datasets/kitti_360/splits/sscbench
+  image_size:
+  - 192
+  - 640
+  data_stereo: true
+  data_fisheye: true
+  data_fc: 2
+  fisheye_offset:
+  - 10
+  - 11
+  - 12
+  - 13
+  - 14
+  - 15
+  - 16
+  - 17
+  - 18
+  - 19
+  - 20
+  - 21
+  - 22
+  - 23
+  - 24
+  - 25
+  - 26
+  - 27
+  - 28
+  - 29
+  - 30
+  - 31
+  - 32
+  - 33
+  - 34
+  - 35
+  - 36
+  - 37
+  - 38
+  - 39
+  - 40
+  stereo_offset:
+  - 0
+  is_preprocessed: true
+  fisheye_rotation: -15
+  data_segmentation: true
+  steps_per_epoch: 10328
+model:
+  arch: BTSNet
+  use_code: true
+  prediction_mode: default
+  predict_dino: true
+  dino_dims: 64
+  compensate_artifacts: false
+  flip_augmentation: true
+  encoder:
+    type: dinov2
+    mode: downsample-prediction
+    decoder_arch: dpt
+    downsampler_arch: featup
+    encoder_arch: vit-b
+    version: v1
+    separate_gt_version: v1
+    encoder_freeze: false
+    flip_avg_gt: true
+    dim_reduction_arch: mlp
+    num_ch_enc:
+    - 64
+    - 64
+    - 128
+    - 256
+    intermediate_features:
+    - 3
+    - 6
+    - 9
+    decoder_out_dim: 256
+    dino_pca_dim: 64
+    image_size:
+    - 192
+    - 640
+    key_features: false
+  code:
+    num_freqs: 6
+    freq_factor: 1.5
+    include_input: true
+  decoder_heads:
+  - type: resnet
+    name: normal_head
+    freeze: false
+    args:
+      n_blocks: 0
+      d_hidden: 128
+  final_prediction_head: normal_head
+  encoding_strategy:
+    name: default
+    args: {}
+  eval_encoding_strategy:
+    name: default
+    args: null
+  loss_renderer_strategy:
+    name: kitti_360
+    args: null
+  eval_loss_renderer_strategy:
+    name: single_renderer
+    args:
+      shuffle_frames: false
+      all_frames: true
+  inv_z: true
+  learn_empty: false
+  code_mode: z
+  n_frames_render: 4
+  sample_radius_3d: 0.5
+renderer:
+  n_coarse: 32
+  n_fine: 0
+  n_fine_depth: 0
+  depth_std: 1.0
+  sched: []
+  white_bkgd: false
+  lindisp: true
+  hard_alpha_cap: true
+  eval_batch_size: 65536
+  render_mode: volumetric
+  normalize_dino: true
+training:
+  optimizer:
+    type: adam
+    args:
+      lr: 0.001
+      betas:
+      - 0.9
+      - 0.999
+      eps: 1.0e-08
+      weight_decay: 0.0
+      amsgrad: false
+  loss:
+  - type: stego
+    random_weight: 0.6702352279261414
+    knn_weight: 0.4156436438453117
+    self_weight: 0.08146997886146659
+    random_shift: 0.8709334888837256
+    knn_shift: 0.18458300726748128
+    self_shift: 0.43610463774158115
+    pointwise: false
+  num_epochs: 1
+  epoch_length: 1000
+  resume_from: /home/fb20user12/code/bts-thesis-dino/out/paper-runs/kitti-base/training_checkpoint_130000.pt
+  continue: false
+  checkpoint_every: 5000
+  log_every_iters: 250
+  ray_sampler:
+    z_near: 3
+    z_far: 80
+    sample_mode: image
+validation:
+  validation:
+    metrics:
+    - type: seg
+      agg_type: unsup_seg
+      args:
+        n_classes: 19
+        gt_classes: 19
+    - type: stego
+      agg_type: concat
+    subset:
+      type: random
+      args:
+        size: 32
+    save_best:
+      metric: stego_cluster_weighted_miou
+      update_model: true
+      dry_run: false
+    log_loss: false
+    global_step:
+      type: trainer iteration
+    events:
+    - type: ITERATION_COMPLETED
+      args:
+        every: 100
+  visualization_seg:
+    metrics: {}
+    subset:
+      type: range
+      args:
+        start: 300
+        end: 301
+    visualize:
+      input_imgs: null
+      dino_gt: null
+      batch_dino_gt: null
+      batch_dino_artifacts: null
+      segs_gt: null
+      segs_pred: null
+      batch_reconstructed_dino: null
+      batch_dino_features_kmeans: null
+      depth: null
+    log_loss: false
+    global_step:
+      type: trainer iteration
+    events:
+    - type: STARTED
+      args: null
+    - type: ITERATION_COMPLETED
+      args:
+        every: 100
+downstream:
+  type: segmentation
+  n_classes: 19
+  gt_classes: 19
+  input_dim: 768
+  code_dim: 64
+  knn_neighbors: 4
+  buffer_size: 256
+  patch_sample_size: 576
+  mode: 3d
+sweep:
+  study_name: sweep_pruned_offset_0
+  storage_url: sqlite:////home/fb20user12/sweeps/optuna_study.db
+  direction: maximize
+  n_trials: 100
+  start_original_param: true
+  hparams:
+  - key: training.loss.0.random_weight
+    method: suggest_float
+    kwargs:
+      name: random_weight
+      low: 0.0
+      high: 1.0
+  - key: training.loss.0.knn_weight
+    method: suggest_float
+    kwargs:
+      name: knn_weight
+      low: 0.0
+      high: 1.0
+  - key: training.loss.0.self_weight
+    method: suggest_float
+    kwargs:
+      name: self_weight
+      low: 0.0
+      high: 1.0
+  - key: training.loss.0.random_shift
+    method: suggest_float
+    kwargs:
+      name: random_shift
+      low: 0.6
+      high: 1.0
+  - key: training.loss.0.knn_shift
+    method: suggest_float
+    kwargs:
+      name: knn_shift
+      low: 0.0
+      high: 0.8
+  - key: training.loss.0.self_shift
+    method: suggest_float
+    kwargs:
+      name: self_shift
+      low: 0.0
+      high: 0.8
+training_type: downstream_training
+mode: nvs
+seed: 34
+backend: null
+nproc_per_node: null
+with_amp: true
+name: training
+batch_size: 4
+gradient_accum_factor: 1
+num_workers: 4
+output:
+  path: out/sweep_pruned_offset_0/sweep_34
+  unique_id: sweep_34
+  original_path: out/sweep_pruned_offset_0/
+  original_unique_id: sweep
+eval_seed: 33
+cuda device name: Tesla V100-SXM3-32GB

seg-best-dinov2/checkpoint.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7754f0e8b4476eae0531d089824892b8d4bb70161f0498bf70b1467a6605e218
+size 753457438

seg-best-dinov2/training_config.yaml ADDED Viewed

	@@ -0,0 +1,277 @@

+dataset:
+  type: old_KITTI_360
+  data_path: /home/fb20user12/datasets/KITTI-360/
+  pose_path: /home/fb20user12/datasets/KITTI-360/data_poses
+  split_path: datasets/kitti_360/splits/sscbench
+  image_size:
+  - 192
+  - 640
+  data_stereo: true
+  data_fisheye: true
+  data_fc: 2
+  fisheye_offset:
+  - 10
+  - 11
+  - 12
+  - 13
+  - 14
+  - 15
+  - 16
+  - 17
+  - 18
+  - 19
+  - 20
+  - 21
+  - 22
+  - 23
+  - 24
+  - 25
+  - 26
+  - 27
+  - 28
+  - 29
+  - 30
+  - 31
+  - 32
+  - 33
+  - 34
+  - 35
+  - 36
+  - 37
+  - 38
+  - 39
+  - 40
+  stereo_offset:
+  - 0
+  is_preprocessed: true
+  fisheye_rotation: -15
+  data_segmentation: true
+  steps_per_epoch: 5164
+model:
+  arch: BTSNet
+  use_code: true
+  prediction_mode: default
+  predict_dino: true
+  dino_dims: 64
+  compensate_artifacts: true
+  flip_augmentation: true
+  encoder:
+    type: dinov2
+    mode: downsample-prediction
+    decoder_arch: dpt
+    downsampler_arch: featup
+    encoder_arch: vit-b
+    version: v2
+    separate_gt_version: v2
+    encoder_freeze: false
+    flip_avg_gt: false
+    dim_reduction_arch: mlp
+    num_ch_enc:
+    - 64
+    - 64
+    - 128
+    - 256
+    intermediate_features:
+    - 3
+    - 6
+    - 9
+    decoder_out_dim: 256
+    dino_pca_dim: 64
+    image_size:
+    - 192
+    - 640
+    key_features: false
+  code:
+    num_freqs: 6
+    freq_factor: 1.5
+    include_input: true
+  decoder_heads:
+  - type: resnet
+    name: normal_head
+    freeze: false
+    args:
+      n_blocks: 0
+      d_hidden: 128
+  final_prediction_head: normal_head
+  encoding_strategy:
+    name: default
+    args: {}
+  eval_encoding_strategy:
+    name: default
+    args: null
+  loss_renderer_strategy:
+    name: kitti_360
+    args: null
+  eval_loss_renderer_strategy:
+    name: single_renderer
+    args:
+      shuffle_frames: false
+      all_frames: true
+  inv_z: true
+  learn_empty: false
+  code_mode: z
+  n_frames_render: 4
+  sample_radius_3d: 0.5
+renderer:
+  n_coarse: 32
+  n_fine: 0
+  n_fine_depth: 0
+  depth_std: 1.0
+  sched: []
+  white_bkgd: false
+  lindisp: true
+  hard_alpha_cap: true
+  eval_batch_size: 65536
+  render_mode: volumetric
+  normalize_dino: true
+training:
+  optimizer:
+    type: adam
+    args:
+      lr: 0.0005
+      betas:
+      - 0.9
+      - 0.999
+      eps: 1.0e-08
+      weight_decay: 0.0
+      amsgrad: false
+  loss:
+  - type: stego
+    random_weight: 0.7681858818342623
+    knn_weight: 0.40262895957374445
+    self_weight: 0.2478902214214737
+    random_shift: 0.8167245534406465
+    knn_shift: 0.11229105513980008
+    self_shift: 0.5397087004143353
+    pointwise: false
+  num_epochs: 1
+  epoch_length: 1000
+  resume_from: /home/fb20user12/code/bts-thesis-dino/out/paper-runs/kitti-dinov2/training_checkpoint_210000.pt
+  continue: false
+  checkpoint_every: 5000
+  log_every_iters: 250
+  ray_sampler:
+    z_near: 3
+    z_far: 80
+    sample_mode: image
+validation:
+  validation:
+    metrics:
+    - type: seg
+      agg_type: unsup_seg
+      args:
+        n_classes: 19
+        gt_classes: 19
+    - type: stego
+      agg_type: concat
+    subset:
+      type: random
+      args:
+        size: 32
+    save_best:
+      metric: stego_cluster_weighted_miou
+      update_model: true
+      dry_run: false
+    log_loss: false
+    global_step:
+      type: trainer iteration
+    events:
+    - type: ITERATION_COMPLETED
+      args:
+        every: 100
+  visualization_seg:
+    metrics: {}
+    subset:
+      type: range
+      args:
+        start: 300
+        end: 301
+    visualize:
+      input_imgs: null
+      dino_gt: null
+      batch_dino_gt: null
+      batch_dino_artifacts: null
+      segs_gt: null
+      segs_pred: null
+      batch_reconstructed_dino: null
+      batch_dino_features_kmeans: null
+      depth: null
+    log_loss: false
+    global_step:
+      type: trainer iteration
+    events:
+    - type: STARTED
+      args: null
+    - type: ITERATION_COMPLETED
+      args:
+        every: 100
+downstream:
+  type: segmentation
+  n_classes: 19
+  gt_classes: 19
+  input_dim: 768
+  code_dim: 64
+  knn_neighbors: 4
+  buffer_size: 256
+  patch_sample_size: 576
+  mode: 3d
+sweep:
+  study_name: sweep_dinov2
+  storage_url: sqlite:////home/fb20user12/sweeps/optuna_study.db
+  direction: maximize
+  n_trials: 50
+  start_original_param: true
+  hparams:
+  - key: training.loss.0.random_weight
+    method: suggest_float
+    kwargs:
+      name: random_weight
+      low: 0.0
+      high: 1.0
+  - key: training.loss.0.knn_weight
+    method: suggest_float
+    kwargs:
+      name: knn_weight
+      low: 0.0
+      high: 1.0
+  - key: training.loss.0.self_weight
+    method: suggest_float
+    kwargs:
+      name: self_weight
+      low: 0.0
+      high: 1.0
+  - key: training.loss.0.random_shift
+    method: suggest_float
+    kwargs:
+      name: random_shift
+      low: 0.6
+      high: 1.0
+  - key: training.loss.0.knn_shift
+    method: suggest_float
+    kwargs:
+      name: knn_shift
+      low: 0.0
+      high: 0.4
+  - key: training.loss.0.self_shift
+    method: suggest_float
+    kwargs:
+      name: self_shift
+      low: 0.2
+      high: 0.6
+training_type: downstream_training
+mode: nvs
+seed: 66
+backend: null
+nproc_per_node: null
+with_amp: true
+name: training
+batch_size: 8
+gradient_accum_factor: 1
+num_workers: 8
+output:
+  path: out/sweep_dinov2/sweep_66
+  unique_id: sweep_66
+  original_path: out/sweep_dinov2/
+  original_unique_id: sweep
+eval_seed: 65
+cuda device name: Tesla V100-SXM3-32GB