Новая версия

#4
by NGC404 - opened

Доброе утро , когда ждать новую версию модели ?

Доброе, после праздников

Крута, буду ждать с нетерпением. )))

Во-первых, спасибо за русский язык! Это то, чего многим клонированиям не хватает, тем более с таким доступным подключением (в локальной среде). Во-вторых, можно ли вам как-то помочь с апдейтами?)
И можно узнать, что нового будет в обновлении? По поводу ударений в словах из другого топика - да, прям очень часто не туда они.

🖐️, в новом релизе будет расширен датасет (возможно уйдет проблема с ударениями) и будет добавлен английский язык

То есть нет точной зависимости между ударениями и объёмом датасета?

Ооо, за английский одновременно с русским отдельное спасибо.

Спасибо за модель. Хочу натренировать эту модель на другом языке. Подскажите сколько данных и какого характера желательно нужно для получения хороших результатов?

Добрый день, можно получить хорошие результаты, начиная с 50к семплов, но чем больше, тем лучше. Важно, чтобы каждый голос был уникальным. Подробнее можно почитать в оригинальном репозитории

Как узнал о проекте, уже несколько недель каждый день захожу сюда чтобы проверить, не появилась-ли новая версия.
Нету-ли до сих пор каких-то примерных дат, когда стоит ожидать модель? 🥲

@AugustLight вся правда, тоже захожу сюда в надежде на появление новой версии)

Доброе утро, к концу недели будет новая версия, если качество модели меня устроит

Я такая же фигня 😀 Очень жду !!!

Тоже захожу каждый день )))

Нас таких уже несколько)

Спасибо за новую версию. К сожалению "акцентатор нада". Русский язык слишком сложный для этой модели. Пример слова "слова".

В каком то из обсуждений советовали вставлять @ в качестве ударений

Я игрался со знаком ' . Это работает, но после ударение падает на несколько слог.

В моём случае знак ' не давал положительного эффекта

у меня есть очень крутая идея: сделать так чтобы за ударения отвечал знак "+".
я уже знаю хорошую модель для расставления ударений - RUAccent(даже знаком с автором). И она работает просто превосходно.
я думаю даже смогу сам дописать поддержку Ruaccent перед синтезом. Главное чтобы модель понимала что это.

P.S: либо просто + заменю на @. Думаю там знак для ударения не так принципиален.

вот статья на хабре: https://habr.com/ru/articles/767560/

у меня есть очень крутая идея: сделать так чтобы за ударения отвечал знак "+".
я уже знаю хорошую модель для расставления ударений - RUAccent(даже знаком с автором). И она работает просто превосходно.
я думаю даже смогу сам дописать поддержку Ruaccent перед синтезом. Главное чтобы модель понимала что это.

P.S: либо просто + заменю на @. Думаю там знак для ударения не так принципиален.

вот статья на хабре: https://habr.com/ru/articles/767560/

У меня есть такой скрипт могу скинуть я уже это сделал

у меня есть очень крутая идея: сделать так чтобы за ударения отвечал знак "+".
я уже знаю хорошую модель для расставления ударений - RUAccent(даже знаком с автором). И она работает просто превосходно.
я думаю даже смогу сам дописать поддержку Ruaccent перед синтезом. Главное чтобы модель понимала что это.

P.S: либо просто + заменю на @. Думаю там знак для ударения не так принципиален.

вот статья на хабре: https://habr.com/ru/articles/767560/

Есть много хороших. Знаки и место можно переписать с питоном, несложно соединить с F5TTS, чтобы подготовили текст для воспроизведения. Всё упирается в модель интерпретации. "Датасет нада" :)

у меня есть очень крутая идея: сделать так чтобы за ударения отвечал знак "+".
я уже знаю хорошую модель для расставления ударений - RUAccent(даже знаком с автором). И она работает просто превосходно.
я думаю даже смогу сам дописать поддержку Ruaccent перед синтезом. Главное чтобы модель понимала что это.

P.S: либо просто + заменю на @. Думаю там знак для ударения не так принципиален.

вот статья на хабре: https://habr.com/ru/articles/767560/

У меня есть такой скрипт могу скинуть я уже это сделал

я думаю, если на то пошло, то лучше сразу сделать с ним space.

Есть такой датасет https://ankiweb.net/shared/info/613414639 , но с ним поработать надо.

Будет ли исправление ударений или может у кого-нибудь есть мысли, как их исправить?

Будет ли исправление ударений или может у кого-нибудь есть мысли, как их исправить?

что я только не пробовал: и использовать "@" и "`" и "+". Даже буквы повышал. Но ничего из этого не дало результат.
RUAccent неплохо расставляет ударения. Главное понять, как заставить модель акцентировать внимание в нужных местах.

@AugustLight Единственный вариант который увидел, это подсказка в ветке "Ударения?"
Расширить словарь символами а', о', и' и так далее. Для этого нужно будет прогнать расшифровки всех датасетов через ruAccent, а потом заново натренировать модель.
Не знаю насколько это реализуемо, всего лишь теория, я явно не эксперт в этом. Единственный вопрос как модель будет понимать символ a', это ведь по сути 2 символа.

@AugustLight Единственный вариант который увидел, это подсказка в ветке "Ударения?"
Расширить словарь символами а', о', и' и так далее. Для этого нужно будет прогнать расшифровки всех датасетов через ruAccent, а потом заново натренировать модель.
Не знаю насколько это реализуемо, всего лишь теория, я явно не эксперт в этом. Единственный вопрос как модель будет понимать символ a', это ведь по сути 2 символа.

надеюсь автор заметит и реализует, потому что у меня к сожалению сейчас нет возможности зафайнтюнить модель 😭🙏

Для такого нужен новый tokenizer, у меня сейчас нет возможности делать свою реализацию. Сейчас экспериментирую с параметрами обучения, возможно будут улучшения

у меня есть очень крутая идея: сделать так чтобы за ударения отвечал знак "+".
я уже знаю хорошую модель для расставления ударений - RUAccent(даже знаком с автором). И она работает просто превосходно.
я думаю даже смогу сам дописать поддержку Ruaccent перед синтезом. Главное чтобы модель понимала что это.

P.S: либо просто + заменю на @. Думаю там знак для ударения не так принципиален.

вот статья на хабре: https://habr.com/ru/articles/767560/

Есть много хороших. Знаки и место можно переписать с питоном, несложно соединить с F5TTS, чтобы подготовили текст для воспроизведения. Всё упирается в модель интерпретации. "Датасет нада" :)
@tomasris
Даже интересно, какие есть еще ударяторы?

Появился такой вопрос: если токенайзер с символов апострофа (или любым другим) сложно реализуем, то никак не получится использовать заглавную букву?
Слышал о проблеме, что F5-TTS просто пропускает заглавную букву или она звучит как-то неправильно.
У меня в голове вырисовывается план, поэтому хочу услышать ваше мнение:

  1. Прогнать все расшифровки голосов датасетов через ruaccent следующим образом: сначала весь текст в lowercase, потом в каждом слове ударная буква превращается в заглавную.
  2. Натренировать модель на этом датасете
  3. Во время использования в поле text to generate подавать полностью lowercase текст и делать ударные буквы заглавными

Появился такой вопрос: если токенайзер с символов апострофа (или любым другим) сложно реализуем, то никак не получится использовать заглавную букву?
Слышал о проблеме, что F5-TTS просто пропускает заглавную букву или она звучит как-то неправильно.
У меня в голове вырисовывается план, поэтому хочу услышать ваше мнение:

  1. Прогнать все расшифровки голосов датасетов через ruaccent следующим образом: сначала весь текст в lowercase, потом в каждом слове ударная буква превращается в заглавную.
  2. Натренировать модель на этом датасете
  3. Во время использования в поле text to generate подавать полностью lowercase текст и делать ударные буквы заглавными

Хорошая идея, но ruaccent проставляет ударения через зам+ок, жарк+ое итп, то есть знаком плюс перед ударной гласной.
Попробую внедрить обработку ruaccent в процесс транскрибирования(делается буквально в десяток строк) и пофайнтюнить модель на не большом объеме данных.

Появился такой вопрос: если токенайзер с символов апострофа (или любым другим) сложно реализуем, то никак не получится использовать заглавную букву?
Слышал о проблеме, что F5-TTS просто пропускает заглавную букву или она звучит как-то неправильно.
У меня в голове вырисовывается план, поэтому хочу услышать ваше мнение:

  1. Прогнать все расшифровки голосов датасетов через ruaccent следующим образом: сначала весь текст в lowercase, потом в каждом слове ударная буква превращается в заглавную.
  2. Натренировать модель на этом датасете
  3. Во время использования в поле text to generate подавать полностью lowercase текст и делать ударные буквы заглавными

Хорошая идея, но ruaccent проставляет ударения через зам+ок, жарк+ое итп, то есть знаком плюс перед ударной гласной.
Попробую внедрить обработку ruaccent в процесс транскрибирования(делается буквально в десяток строк) и пофайнтюнить модель на не большом объеме данных.

А в чем проблема в токенизатор докинуть токенов для ударений? Ну или заюзать какой-нибудь символ для этого уже присутвствующий?

Кстати, можно вот тут спросить в телеграме: @speech_recognition_ru, наверное, подскажут

А в чем проблема в токенизатор докинуть токенов для ударений? Ну или заюзать какой-нибудь символ для этого уже присутвствующий?

Проблема в том, чтобы эти токены ударений проставить в выборку для обучения, если модель при обучении ни разу не видела ударений в валидационном тексте, то она без понятия что с ними делать.

А в чем проблема в токенизатор докинуть токенов для ударений? Ну или заюзать какой-нибудь символ для этого уже присутвствующий?

Проблема в том, чтобы эти токены ударений проставить в выборку для обучения, если модель при обучении ни разу не видела ударений в валидационном тексте, то она без понятия что с ними делать.

Ну да, нужно чтобы либо автор заново обучил модель, либо поучить на небольшом корпусе поверх.

Ну да, нужно чтобы либо автор заново обучил модель, либо поучить на небольшом корпусе поверх.

Ну да, вот я и хочу добавить ruaccent в текущую логику транскрибирования при подготовке сета. Закинуть пару аудиокниг и проверить эту гипотезу, прежде, чем думать о более глобальном переобучении. =)

Отличная работа с ruaccent, кстати. Очень шустро, и качественно расставляет ударения!

Sign up or log in to comment