krinal
/

BertWordPieceTokenizer-hi

Token Classification

Inference Endpoints

Model card Files Files and versions Community

krinal commited on Jun 27, 2024

Commit

2b28239

·

verified ·

1 Parent(s): 57dca78

Update README.md

Files changed (1) hide show

README.md +8 -5

README.md CHANGED Viewed

@@ -12,7 +12,7 @@ pipeline_tag: token-classification
 - tokenizer for hindi language
-#### usage
 ```py
 from transformers import AutoTokenizer
@@ -28,18 +28,21 @@ encoded_str = hi_tokenizer.encode(hi_str)
 decoded_str = hi_tokenizer.decode(encoded_str)
 ```
-#### language
 - hi
-#### dataset
 - trained on BHAAV (hi sentiment analysis dataset)
 - dataset source: [Bhaav](https://github.com/midas-research/bhaav)
 - Hindi text corpus (20,304 sentences)
-#### citation
 ```shell
 @article{kumar2019bhaav,

 - tokenizer for hindi language
+#### Usage
 ```py
 from transformers import AutoTokenizer
 decoded_str = hi_tokenizer.decode(encoded_str)
 ```
+#### Language
 - hi
+#### Training
+- For training see [Train BertWordPieceTokenizer](https://gist.github.com/kjdeveloper8/57d9e16848cd77df778804c9e2214a78)
+#### Dataset
 - trained on BHAAV (hi sentiment analysis dataset)
 - dataset source: [Bhaav](https://github.com/midas-research/bhaav)
 - Hindi text corpus (20,304 sentences)
+#### Citation
 ```shell
 @article{kumar2019bhaav,