HappyHorse-1.0: Из чартов — в релиз

Разбираемся в релизе от Alibaba ATH, который за месяц прошел путь от анонимного фаворита рейтингов до официального инструмента. Рассказываем, как работает нативная синхронизация звука, чем крут мультиязычный липсинк и почему «Лошадка» стала новым эталоном в оживлении статичных кадров.

Та самая модель от Alibaba ATH, которая наделала шума в апрельских рейтингах, наконец стала доступна официально. Громкий дебют в «слепых» тестах Artificial Analysis подтвердился полноценным запуском: теперь мощная генерация видео из текста и картинок со встроенным аудио открыта для всех. Пора проверить на практике, почему о ней так много спорили.

Четыре причины попробовать HappyHorse

Честная синхронизация звука. Модель не просто накладывает фоновый шум, а генерирует видео и аудио одновременно за один проход. Благодаря этому звуки среды — будь то шипение масла на сковороде или плеск воды — ложатся точно в тайминг движений в кадре.
Мультиязычный липсинк. В модель заложена нативная поддержка 7 языков. Если персонаж в кадре говорит, например, на французском или корейском, артикуляция и мимика подстраиваются под фонетику конкретного языка, а не живут отдельной жизнью.
Понимание киноязыка. Разработчики обучили нейронку нормальным операторским приемам. Она адекватно отрабатывает промпты с техническими терминами вроде dolly zoom или crane shot, сохраняя правильную физику и перспективу при движении камеры.
Рекорды в работе со статикой. В режиме оживления изображений (Image-to-Video) HappyHorse-1.0 сейчас удерживает один из самых высоких рейтингов в индустрии. Это отличный вариант, когда нужно превратить фото в динамичный ролик без потери деталей и «галлюцинаций».

Модель заточена под короткие (5–15 секунд), но максимально проработанные клипы. Если вам нужен качественный B-roll, рекламный футаж или просто эффектное видео, где важна физика и звук «из коробки» — самое время прогнать через неё свои идеи.