У V3 есть проблема с длинным контентом. Из-за того, что она очень умная озвучка получается слишком разнородная. Это в целом проблема всех ИИ движков, но в случае с V3 это было очень сильно заметно и поэтому слушать было неприятно. Хотя это может уже починили: я пробовал V3 почти на самом старте.
Я использую Salute Speech. Это голосовые модели от Сбера. У них, на мой взгляд, оптимально по соотношению цена-качество даже для физического лица, а если покупать токены как юридическое лицо, то будет примерно в 5 раз выгоднее.
Да. Мне их модели меньше понравились. У ElevenLabs нет золотой середины, модель либо очень пафосная, либо очень безэмоциональная. Конечно можно это побороть настройками конкретной модели, но работает не очень стабильно, например, могут появляться неестественные паузы, будто «человек думает», а это не очень уместно. Также у меня сложилось ощущение, что артефактов с ударениями у ElevenLabs больше. А уж если заниматься коррекцией ударений, то их модели очень выборочно следуют указаниям, будто для них это рекомендация, что тоже не очень хорошо.
Если честно, я впервые сталкиваюсь с тем, чтобы кто‑то объективно проявлял себя в комментариях и в общении с публикой. Но даже если это действительно правда, то почему из‑за этого должен оставаться неприятный осадок? Ведь объективность (лично для меня) — положительное качество. Объясните, пожалуйста.
Зайдите в телеграм канал чтеца. В закреплённом сообщении есть статья в telegraph. Там в самом низу есть раздел «полезные ссылки», где есть ссылка на гугл-диск.
Если это текст с автор тудей, то он (как правило) пишется обычными людьми. Несколько раз замечал в работах с данного сайта слово «нету», «длинна» (именно с двумя буквами «н») и так далее. Декламатор просто передаёт то, что написал автор.
Исполнение хорошее. Паузы между предложениями расставлены, количество огрехов в ударениях пренебрежимо мало, поэтому слушать комфортно. Из минусов можно сказать, что темп медленный, но ускорение +30% решает эту проблему поэтому совершенно не критично, также слышится дыхание, но тоже привыкаешь через некоторое время.
Когда это было озвучено нейронкой, тогда были только старые озвучки не очень хорошего качества. Сейчас есть хорошая современная озвучка (https://akniga.org/u-chen-en-puteshestvie-na-zapad-1), но её лучше слушать с ускорением хотя бы +40%.
26 том соответствует 25-й арке. До этого нумерация была по аркам, но так как за произведение взялся другой исполнитель, то нумерация по аркам сменилась на нумерацию по томам. Вы можете сами убедиться, что 24-я арка «Одного поля ягоды» соответствует 25-му тому (например, на ranobes.com/ranobe/196470-everybody-loves-large-chests.html).
Лучше сразу после окончания абзаца или мысли, а не в середине предложения. То есть закончилась мысль, затем небольшая пауза (обычно от 0,5 секунды до секунды в зависимости от темпа), затем примечание: фраза … означает …, затем ещё одна пауза, затем продолжение.
Чтец уже отвечал на этот вопрос в своём телеграм-канале. Он никогда не будет озвучивать ЛН. Если вы зайдёте в телеграм-канал, перейдёте в закреплённое сообщение и откроете статью в telegraph, то эта информация содержится в первом абзаце текста (во втором предложении первого абзаца).
В телеграм-канале чтеца в закреплённом сообщении есть статья в telegraph. Там в самом низу есть раздел «полезные ссылки», там есть ссылки на google диск для скачивания.
Я использую Salute Speech. Это голосовые модели от Сбера. У них, на мой взгляд, оптимально по соотношению цена-качество даже для физического лица, а если покупать токены как юридическое лицо, то будет примерно в 5 раз выгоднее.