概要
CodeMorph-ModernBERT-large-vocab は、CodeMorph-ModernBERTの改良版で,コード検索およびコード理解のタスク向けに1からトレーニングした事前学習済みモデルです。本モデルは code-search-net/code_search_net
データセットを活用し、コードの意味的な理解を強化するために訓練されています。
またvocab_sizeを50000から75000に拡張したトークナイザを使用し、未知語に対応しやすくしました。
最大シーケンス長2048トークン(従来のMicrosoftモデルは512トークン)に対応し、特にPythonコード検索において抜群の性能を発揮します。
- アーキテクチャ: ModernBERT ベース
- 目的: コード検索 / コード理解 / コード補完
- トレーニングデータ: CodeSearchNet (全言語)
- ライセンス: Apache 2.0
主な特徴
長いシーケンス対応
最大2048トークンのシーケンス処理が可能。長いコードや複雑な関数にも対応します。高いコード検索性能
Pythonをはじめとする6言語対応のSentencepieceを用いて作成したトークナイザを採用し、従来モデルを大幅に上回る検索精度を実現しています。専用にトレーニングされたモデル
CodeSearchNetデータセットを活用して1から学習。コード特有の文法やコメントとの関係を深く理解します。
パラメータについて
以下のパラメータで設計しています。
パラメータ名 | 設定値 |
---|---|
vocab_size | 50000 → 75000 |
hidden_size | 768 |
num_hidden_layers | 12 |
num_attention_heads | 12 |
intermediate_size | 3072 |
max_position_embeddings | 2048 |
type_vocab_size | 2 |
hidden_dropout_prob | 0.1 |
attention_probs_dropout_prob | 0.1 |
local_attention_window | 128 |
rope_theta | 160000 |
local_attention_rope_theta | 10000 |
- Downloads last month
- 20