msbayindir's picture
Update README.md
10bfb7b verified
metadata
language: tr
tags:
  - turkish
  - masked-lm
  - legal
  - dbmdz/bert-base-turkish-cased
license: mit
datasets:
  - custom_legal_dataset
model-index:
  - name: legal-turkish-bert-base-cased
    results:
      - task:
          name: Masked Language Modeling
          type: masked-lm
        metrics:
          - name: Validation Loss
            type: loss
            value: 0.582253
base_model: dbmdz/bert-base-turkish-cased
widget:
  - text: Anayasa, Türk Vatanı ve [MASK] ebedi varlığını korur.
pipeline_tag: fill-mask

legal-turkish-bert-base-cased

Bu model, Türkçe hukuk metinleri üzerinde fine-tune edilmiş dbmdz/bert-base-turkish-cased modelidir.

Kullanım Alanları

  • Hukuki metin analizi
  • Hukuki metin anlama

Model Detayları

  • Base Model: dbmdz/bert-base-turkish-cased
  • Dataset Size: 150k
  • Training Parameters:
    • Batch Size: 64
    • Learning Rate: 2e-5
    • Epochs: 10
    • Max Length: 256

Kullanım Örneği

from transformers import AutoTokenizer, TFAutoModelForMaskedLM
import tensorflow as tf

# Tokenizer ve model yükleme
tokenizer = AutoTokenizer.from_pretrained("msbayindir/legal-turkish-bert-base-cased")
model = TFAutoModelForMaskedLM.from_pretrained("msbayindir/legal-turkish-bert-base-cased")

# Örnek metin                                              "Hukuk"
text = "Anayasa, millet iradesinin hürriyetçi demokrasi ve [MASK] düzeni çerçevesinde kullanılacağını belirtiyor."

# Tokenizer kullanarak metni işleme
inputs = tokenizer(text, return_tensors="tf")

# Maskeli tokenın indeksini bulma
mask_token_index = tf.where(inputs["input_ids"] == tokenizer.mask_token_id)[0, 1]

# Modeli çalıştırma ve logits değerlerini alma
logits = model(**inputs).logits

# Maskelenmiş token için tahmin edilen olasılıkları alma
mask_token_logits = logits[0, mask_token_index, :]

# En iyi 3 tahmini seçme
top_3_tokens = tf.math.top_k(mask_token_logits, 3).indices.numpy()

# Tahmin edilen kelimelerle metni değiştirme ve yazdırma
for token in top_3_tokens:
    print(text.replace(tokenizer.mask_token, tokenizer.decode([token])))

## Output
Anayasa, millet iradesinin hürriyetçi demokrasi ve hukuk düzeni çerçevesinde kullanılacağını belirtiyor.
Anayasa, millet iradesinin hürriyetçi demokrasi ve kamu düzeni çerçevesinde kullanılacağını belirtiyor.
Anayasa, millet iradesinin hürriyetçi demokrasi ve toplum düzeni çerçevesinde kullanılacağını belirtiyor.