DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing
Paper
• 2111.09543 • Published
• 3
💡 아래 프로젝트는 KPMG Lighthouse Korea에서 진행하였습니다.
KPMG Lighthouse Korea에서는, Financial area의 다양한 문제들을 해결하기 위해 Edge Technology의 NLP/Vision AI를 모델링하고 있습니다. https://kpmgkr.notion.site/
Disentangled Attention + Enhanced Mask Decoder 를 적용하여 단어의 positional information을 효과적으로 학습합니다. 이와 같은 아이디어를 통해, 기존의 BERT, RoBERTa에서 사용했던 absolute position embedding과는 달리 DeBERTa는 단어의 상대적인 위치 정보를 학습 가능한 벡터로 표현하여 모델을 학습하게 됩니다. 결과적으로, BERT, RoBERTA 와 비교했을 때 더 준수한 성능을 보여주었습니다.mDeBERTa-v3-base-kor-further 는 microsoft 가 발표한 mDeBERTa-v3-base 를 약 40GB의 한국어 데이터에 대해서 추가적인 사전학습을 진행한 언어 모델입니다.pip install transformers
pip install sentencepiece
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("lighthouse/mdeberta-v3-base-kor-further") # DebertaV2ForModel
tokenizer = AutoTokenizer.from_pretrained("lighthouse/mdeberta-v3-base-kor-further") # DebertaV2Tokenizer (SentencePiece)
모델의 아키텍처는 기존 microsoft에서 발표한 mdeberta-v3-base와 동일한 구조입니다.
| Vocabulary(K) | Backbone Parameters(M) | Hidden Size | Layers | Note | |
|---|---|---|---|---|---|
| mdeberta-v3-base-kor-further (mdeberta-v3-base와 동일) | 250 | 86 | 768 | 12 | 250K new SPM vocab |
mDeBERTa-v3-base-kor-further 는 microsoft/mDeBERTa-v3-base 를 약 40GB의 한국어 데이터에 대해서 MLM Task를 적용하여 추가적인 사전 학습을 진행하였습니다.
| Max length | Learning Rate | Batch Size | Train Steps | Warm-up Steps | |
|---|---|---|---|---|---|
| mdeberta-v3-base-kor-further | 512 | 2e-5 | 8 | 5M | 50k |
| Model | Size | NSMC(acc) | Naver NER(F1) | PAWS (acc) | KorNLI (acc) | KorSTS (spearman) | Question Pair (acc) | KorQuaD (Dev) (EM/F1) | Korean-Hate-Speech (Dev) (F1) |
|---|---|---|---|---|---|---|---|---|---|
| XLM-Roberta-Base | 1.03G | 89.03 | 86.65 | 82.80 | 80.23 | 78.45 | 93.80 | 64.70 / 88.94 | 64.06 |
| mdeberta-base | 534M | 90.01 | 87.43 | 85.55 | 80.41 | 82.65 | 94.06 | 65.48 / 89.74 | 62.91 |
| mdeberta-base-kor-further (Ours) | 534M | 90.52 | 87.87 | 85.85 | 80.65 | 81.90 | 94.98 | 66.07 / 90.35 | 68.16 |
@misc{he2021debertav3,
title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing},
author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
year={2021},
eprint={2111.09543},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}
Totally Free + Zero Barriers + No Login Required