allenai
/

Molmo-7B-D-0924

Image-Text-to-Text

text-generation

Model card Files Files and versions Community

Remove In-place operations

#40

by yyyyifan - opened 18 days ago

base: refs/heads/main

←

from: refs/pr/40

Discussion Files changed

Files changed (1) hide show

modeling_molmo.py +3 -3

modeling_molmo.py CHANGED Viewed

@@ -1163,7 +1163,7 @@ class MultiHeadAttentionPool(nn.Module):
         if self.dropout:
             attn_output = self.residual_dropout(attn_output)
         if self.mean_residual:
-            attn_output += inputs_kv.mean(dim=1, keepdim=True)
         return attn_output
@@ -1879,7 +1879,7 @@ class Molmo(nn.Module):
             # For hf demo/endpoint
             image_features = image_features.to(x.device)
-            x[batch_idx[valid], image_input_idx[valid]] += image_features[valid]
         if not self.config.rope:
             # Get positional embeddings.
@@ -2145,7 +2145,7 @@ class MolmoForCausalLM(PreTrainedModel):
                     z_loss = z_loss.view(input_ids.shape[0], -1)
                     z_loss = z_loss * loss_masks
                     z_loss = z_loss.sum() / batch_size_in_tokens
-                    loss += z_loss
             else:
                 # Shift so that tokens < n predict n
                 shift_logits = logits[..., :-1, :].contiguous()

         if self.dropout:
             attn_output = self.residual_dropout(attn_output)
         if self.mean_residual:
+            attn_output = attn_output + inputs_kv.mean(dim=1, keepdim=True)
         return attn_output
             # For hf demo/endpoint
             image_features = image_features.to(x.device)
+            x[batch_idx[valid], image_input_idx[valid]] = x[batch_idx[valid], image_input_idx[valid]] + image_features[valid]
         if not self.config.rope:
             # Get positional embeddings.
                     z_loss = z_loss.view(input_ids.shape[0], -1)
                     z_loss = z_loss * loss_masks
                     z_loss = z_loss.sum() / batch_size_in_tokens
+                    loss = loss + z_loss
             else:
                 # Shift so that tokens < n predict n
                 shift_logits = logits[..., :-1, :].contiguous()