SbertPuncCase
SbertPuncCase - модель восстановления пунктуации и регистра для русского языка. Модель способна расставлять точки, запятые и знаки вопроса; определять регистр - слово в нижнем регистре, слово с первой буквой в верхнем регистре, слово в верхнем регистре. Модель разработана для восстановления текста после распознавания речи, поэтому работает со строками в нижнем регистре. В основу модели легла sbert_large_nlu_ru. В качестве обучающих данных использованы текстовые расшифровки интервью.
Как это работает
- Текст переводится в нижний регистр и разбивается на слова.
- Слова разделяются на токены.
- Модель (по аналогии с задачей NER) предсказывает класс для каждого токена. Классификация на 12 классов: 3+1 знака препинания * 3 варианта регистра.
- Функция декодировки восстанавливает текст соответственно предсказанным классам.
Как использовать
Код модели находится в файле sbert-punc-case-ru/sbertpunccase.py
.
Убедитесь, что у вас установлен
git-lfs
.Далее для быстрой установки можно воспользоваться командой:
pip install git+https://huggingface.co/kontur-ai/sbert_punc_case_ru
Использование модели:
from sbert_punc_case_ru import SbertPuncCase
model = SbertPuncCase()
model.punctuate("sbert punc case расставляет точки запятые и знаки вопроса вам нравится")
Авторы
- Downloads last month
- 8,100
Inference API (serverless) has been turned off for this model.
Model tree for kontur-ai/sbert_punc_case_ru
Base model
ai-forever/sbert_large_nlu_ru