Shuu12121/CodeMorph-ModernBERT-large-vocab

概要

CodeMorph-ModernBERT-large-vocab は、CodeMorph-ModernBERTの改良版で,コード検索およびコード理解のタスク向けに１からトレーニングした事前学習済みモデルです。本モデルは code-search-net/code_search_net データセットを活用し、コードの意味的な理解を強化するために訓練されています。またvocab_sizeを50000から75000に拡張したトークナイザを使用し、未知語に対応しやすくしました。 最大シーケンス長2048トークン（従来のMicrosoftモデルは512トークン）に対応し、特にPythonコード検索において抜群の性能を発揮します。

アーキテクチャ: ModernBERT ベース
目的: コード検索 / コード理解 / コード補完
トレーニングデータ: CodeSearchNet (全言語)
ライセンス: Apache 2.0

主な特徴

長いシーケンス対応
最大2048トークンのシーケンス処理が可能。長いコードや複雑な関数にも対応します。
高いコード検索性能
Pythonをはじめとする6言語対応のSentencepieceを用いて作成したトークナイザを採用し、従来モデルを大幅に上回る検索精度を実現しています。
専用にトレーニングされたモデル
CodeSearchNetデータセットを活用して1から学習。コード特有の文法やコメントとの関係を深く理解します。

パラメータについて

以下のパラメータで設計しています。

パラメータ名	設定値
vocab_size	50000 → 75000
hidden_size	768
num_hidden_layers	12
num_attention_heads	12
intermediate_size	3072
max_position_embeddings	2048
type_vocab_size	2
hidden_dropout_prob	0.1
attention_probs_dropout_prob	0.1
local_attention_window	128
rope_theta	160000
local_attention_rope_theta	10000

Shuu12121
/

CodeMorph-ModernBERT-large-vocab

概要

主な特徴

パラメータについて

Dataset used to train Shuu12121/CodeMorph-ModernBERT-large-vocab