概要

CodeMorph-ModernBERT-large-vocab は、CodeMorph-ModernBERTの改良版で,コード検索およびコード理解のタスク向けに1からトレーニングした事前学習済みモデルです。本モデルは code-search-net/code_search_net データセットを活用し、コードの意味的な理解を強化するために訓練されています。 またvocab_sizeを50000から75000に拡張したトークナイザを使用し、未知語に対応しやすくしました。 最大シーケンス長2048トークン(従来のMicrosoftモデルは512トークン)に対応し、特にPythonコード検索において抜群の性能を発揮します。

  • アーキテクチャ: ModernBERT ベース
  • 目的: コード検索 / コード理解 / コード補完
  • トレーニングデータ: CodeSearchNet (全言語)
  • ライセンス: Apache 2.0

主な特徴

  • 長いシーケンス対応
    最大2048トークンのシーケンス処理が可能。長いコードや複雑な関数にも対応します。

  • 高いコード検索性能
    Pythonをはじめとする6言語対応のSentencepieceを用いて作成したトークナイザを採用し、従来モデルを大幅に上回る検索精度を実現しています。

  • 専用にトレーニングされたモデル
    CodeSearchNetデータセットを活用して1から学習。コード特有の文法やコメントとの関係を深く理解します。

パラメータについて

以下のパラメータで設計しています。

パラメータ名 設定値
vocab_size 50000 → 75000
hidden_size 768
num_hidden_layers 12
num_attention_heads 12
intermediate_size 3072
max_position_embeddings 2048
type_vocab_size 2
hidden_dropout_prob 0.1
attention_probs_dropout_prob 0.1
local_attention_window 128
rope_theta 160000
local_attention_rope_theta 10000
Downloads last month
20
Safetensors
Model size
172M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API: The model has no library tag.

Dataset used to train Shuu12121/CodeMorph-ModernBERT-large-vocab