Update README.md
Browse files
README.md
CHANGED
@@ -9,11 +9,12 @@ tags:
|
|
9 |
|
10 |
이 모델은 KM-BERT의 모델을 다운 받아, 임의로 허깅페이스 모델의 형태로 사용하기 좋게 변환한 모델 입니다.
|
11 |
<br>
|
12 |
-
|
13 |
-
<br>
|
14 |
-
<br>
|
15 |
모델은 그대로이나, 토크나이저를 허깅페이스에 맞게 조정하는 과정에서 오류가 있을 수도 있음을 알립니다.
|
|
|
|
|
16 |
KM-BERT를 사용해볼 수 있게 공유해주신 저자분께 감사드립니다.
|
|
|
17 |
|
18 |
|
19 |
## Model Details
|
@@ -23,36 +24,36 @@ bing 활용 요약:
|
|
23 |
|
24 |
이 문서는 다음과 같은 내용을 다룹니다:
|
25 |
|
26 |
-
한국어 의료 자연어 처리를 위한 사전 훈련된 BERT 모델.
|
27 |
-
이 모델은 의료 분야에서 사용되는 한국어 텍스트를 분석하기 위해 KR-BERT 모델을 기반으로 한국어 의료 코퍼스로 사전 훈련한 KM-BERT라고 합니다.
|
28 |
-
이 모델은 의료 교과서, 건강 정보 뉴스, 의료 연구 논문 등 세 가지 유형의 문서로 구성된 약 1억 1천 6백만 단어의 한국어 의료 코퍼스를 사용했습니다.
|
29 |
|
30 |
-
내부 평가와 외부 평가.
|
31 |
-
이 모델은 MLM과 NSP라는 두 가지 비지도 사전 훈련 과제를 수행하고, 새로운 한국어 의료 코퍼스와 MedSTS 데이터셋을 이용하여 언어 이해 능력을 내부 평가했습니다.
|
32 |
-
또한, 한국어 의료 의미론적 텍스트 유사도(MedSTS) 데이터셋과 한국어 의료 개체 인식(NER) 데이터셋을 이용하여 하류 과제에 대한 성능을 외부 평가했습니다.
|
33 |
-
결과적으로, KM-BERT는 기존의 언어 모델들보다 우수한 성능을 보였습니다.
|
34 |
|
35 |
-
언어별 및 분야별 관점.
|
36 |
-
M-BERT는 다양한 언어에 대한 NLP 과제에 높은 전이성을 보이지만, 언어별 BERT 모델들이 M-BERT보다 더 나은 성능을 보인다는 것이
|
37 |
-
1. 한국어는 영어와 같은 인도유럽어와는 다른 단어 순서를 가지고 있기 때문에, 한국어에 특화된 BERT 모델이 필요합니다.
|
38 |
-
2. 또한, SciBERT나 LEGAL-BERT와 같은 분야별 BERT 임베딩이 BERT보다 전문 용어와 용법에 대한 이해력을 향상시킨다는 것이 밝혀졌습니다.
|
39 |
-
3. 이러한 연구 결과들은 한국어 의료 분야에 적합한 BERT 모델 개발의 필요성과 효과성을 보여줍니다.
|
40 |
|
41 |
|
42 |
### Model Sources [optional]
|
43 |
|
44 |
|
45 |
-
- **Repository:** https://github.com/KU-RIAS/KM-BERT-Korean-Medical-BERT
|
46 |
-
- **Paper:** https://www.nature.com/articles/s41598-022-17806-8
|
47 |
|
48 |
|
49 |
## Citation [optional]
|
50 |
|
51 |
|
52 |
-
@article{KMBERT,
|
53 |
-
title={KM-BERT: A Pre-trained BERT for Korean Medical Natural Language Processing},
|
54 |
-
author={TBD},
|
55 |
-
year={TBD},
|
56 |
-
journal={TBD},
|
57 |
-
volume={TBD}
|
58 |
}
|
|
|
9 |
|
10 |
이 모델은 KM-BERT의 모델을 다운 받아, 임의로 허깅페이스 모델의 형태로 사용하기 좋게 변환한 모델 입니다.
|
11 |
<br>
|
12 |
+
|
|
|
|
|
13 |
모델은 그대로이나, 토크나이저를 허깅페이스에 맞게 조정하는 과정에서 오류가 있을 수도 있음을 알립니다.
|
14 |
+
<br>
|
15 |
+
|
16 |
KM-BERT를 사용해볼 수 있게 공유해주신 저자분께 감사드립니다.
|
17 |
+
<br>
|
18 |
|
19 |
|
20 |
## Model Details
|
|
|
24 |
|
25 |
이 문서는 다음과 같은 내용을 다룹니다:
|
26 |
|
27 |
+
한국어 의료 자연어 처리를 위한 사전 훈련된 BERT 모델. <br>
|
28 |
+
이 모델은 의료 분야에서 사용되는 한국어 텍스트를 분석하기 위해 KR-BERT 모델을 기반으로 한국어 의료 코퍼스로 사전 훈련한 KM-BERT라고 합니다. <br>
|
29 |
+
이 모델은 의료 교과서, 건강 정보 뉴스, 의료 연구 논문 등 세 가지 유형의 문서로 구성된 약 1억 1천 6백만 단어의 한국어 의료 코퍼스를 사용했습니다. <br>
|
30 |
|
31 |
+
내부 평가와 외부 평가. <br>
|
32 |
+
이 모델은 MLM과 NSP라는 두 가지 비지도 사전 훈련 과제를 수행하고, 새로운 한국어 의료 코퍼스와 MedSTS 데이터셋을 이용하여 언어 이해 능력을 내부 평가했습니다. <br>
|
33 |
+
또한, 한국어 의료 의미론적 텍스트 유사도(MedSTS) 데이터셋과 한국어 의료 개체 인식(NER) 데이터셋을 이용하여 하류 과제에 대한 성능을 외부 평가했습니다. <br>
|
34 |
+
결과적으로, KM-BERT는 기존의 언어 모델들보다 우수한 성능을 보였습니다. <br>
|
35 |
|
36 |
+
언어별 및 분야별 관점. <br>
|
37 |
+
M-BERT는 다양한 언어에 대한 NLP 과제에 높은 전이성을 보이지만, 언어별 BERT 모델들이 M-BERT보다 더 나은 성능을 보인다는 것이 증명되었습니다. <br>
|
38 |
+
1. 한국어는 영어와 같은 인도유럽어와는 다른 단어 순서를 가지고 있기 때문에, 한국어에 특화된 BERT 모델이 필요합니다. <br>
|
39 |
+
2. 또한, SciBERT나 LEGAL-BERT와 같은 분야별 BERT 임베딩이 BERT보다 전문 용어와 용법에 대한 이해력을 향상시킨다는 것이 밝혀졌습니다. <br>
|
40 |
+
3. 이러한 연구 결과들은 한국어 의료 분야에 적합한 BERT 모델 개발의 필요성과 효과성을 보여줍니다. <br>
|
41 |
|
42 |
|
43 |
### Model Sources [optional]
|
44 |
|
45 |
|
46 |
+
- **Repository:** https://github.com/KU-RIAS/KM-BERT-Korean-Medical-BERT <br>
|
47 |
+
- **Paper:** https://www.nature.com/articles/s41598-022-17806-8 <br>
|
48 |
|
49 |
|
50 |
## Citation [optional]
|
51 |
|
52 |
|
53 |
+
@article{KMBERT, <br>
|
54 |
+
title={KM-BERT: A Pre-trained BERT for Korean Medical Natural Language Processing}, <br>
|
55 |
+
author={TBD}, <br>
|
56 |
+
year={TBD}, <br>
|
57 |
+
journal={TBD}, <br>
|
58 |
+
volume={TBD} <br>
|
59 |
}
|