У V3 есть проблема с длинным контентом. Из-за того, что она очень умная озвучка получается слишком разнородная. Это в целом проблема всех ИИ движков, но в случае с V3 это было очень сильно заметно и поэтому слушать было неприятно. Хотя это может уже починили: я пробовал V3 почти на самом старте.
Я использую Salute Speech. Это голосовые модели от Сбера. У них, на мой взгляд, оптимально по соотношению цена-качество даже для физического лица, а если покупать токены как юридическое лицо, то будет примерно в 5 раз выгоднее.
Да. Мне их модели меньше понравились. У ElevenLabs нет золотой середины, модель либо очень пафосная, либо очень безэмоциональная. Конечно можно это побороть настройками конкретной модели, но работает не очень стабильно, например, могут появляться неестественные паузы, будто «человек думает», а это не очень уместно. Также у меня сложилось ощущение, что артефактов с ударениями у ElevenLabs больше. А уж если заниматься коррекцией ударений, то их модели очень выборочно следуют указаниям, будто для них это рекомендация, что тоже не очень хорошо.
Если честно, я впервые сталкиваюсь с тем, чтобы кто‑то объективно проявлял себя в комментариях и в общении с публикой. Но даже если это действительно правда, то почему из‑за этого должен оставаться неприятный осадок? Ведь объективность (лично для меня) — положительное качество. Объясните, пожалуйста.
Зайдите в телеграм канал чтеца. В закреплённом сообщении есть статья в telegraph. Там в самом низу есть раздел «полезные ссылки», где есть ссылка на гугл-диск.
Я использую Salute Speech. Это голосовые модели от Сбера. У них, на мой взгляд, оптимально по соотношению цена-качество даже для физического лица, а если покупать токены как юридическое лицо, то будет примерно в 5 раз выгоднее.