Эксперт озвучила реальную инфляцию и влияние крепкого рубля на стоимость товаров
22 апреля, 18:40
Всего 20 минут в день: простой способ вернуть спокойствие без лекарств
22 апреля, 21:32
Обзор самых популярных новостей за 22 апреля
22 апреля, 21:00
Сбер перевёл оценку рисков корпоративного кредитования на российское ПО
22 апреля, 21:00
Сбер выпустил открытые токенизаторы — компоненты для создания современных моделей ИИ
22 апреля, 20:57
СберБизнес запустил подписание платёжек по QR-коду и увеличил лимиты для массовых платежей
22 апреля, 20:51
В территориях Приангарья 9 Мая в разных форматах пройдет акция "Бессмертный полк"
22 апреля, 20:16
"Единая Россия" включит в новую народную программу предложения муниципалитетов
22 апреля, 19:56
Алексей Цыденов о коррупции в Бурятии: Вообще все уровни власти
22 апреля, 19:50
Дело о гибели 26-летнего мужчины на площадке "УсольеХимпрома" передали в суд
22 апреля, 19:37
Снежное утро ожидается в Иркутске 23 апреля
22 апреля, 19:32
Владимир Путин дал старт голосованию по проектам развития комфортной городской среды
22 апреля, 19:22
Новосельцев хочет удаленку: как бы выглядел "Служебный роман" сегодня и кто самый стильный
22 апреля, 19:00
Жители Приангарья могут проголосовать за благоустройство одного из 114 общественных мест
22 апреля, 18:28
На юге Приангарья выросло энергопотребление среди жителей посёлков за прошедшую зиму
22 апреля, 17:30
Эффективность управления электроснабжением в Иркутской области обсудили в Заксобрании
22 апреля, 17:07

Сбер выпустил открытые токенизаторы — компоненты для создания современных моделей ИИ

С новым решением можно сжимать видео до четырёх раз сильнее по сравнению с предыдущей версией
Сбер выпустил открытые токенизаторы — компоненты для создания современных моделей ИИ ИА ChitaMedia
Сбер выпустил открытые токенизаторы — компоненты для создания современных моделей ИИ
Фото: ИА ChitaMedia

Команда Kandinsky выложила в открытый доступ KVAE-2.0 (18+) — семейство токенизаторов для диффузионных моделей генерации изображений и видео. Это базовые компоненты для создания современных моделей искусственного интеллекта, которые умеют генерировать картинки и ролики. 

С новым решением можно сжимать видео до четырёх раз сильнее по сравнению с предыдущей версией, при этом качество восстановления изображения становится только лучше. Для разработчиков и исследователей это означает, что обучение диффузионных моделей ускоряется на порядок, сами ИИ-решения работают качественнее, а требования к вычислительной инфраструктуре снижаются. 

По ключевым метрикам качества KVAE-2.0 опережает аналоги от Tencent и Alibaba — одни из крупнейших игроков в генеративном ИИ. Решение распространяется под открытой лицензией MIT, его можно использовать в исследовательских задачах и коммерческих проектах.

"С KVAE-2.0 качественная видеогенерация стала доступнее для всех: стартапов, университетов, независимых разработчиков. Решение позволяет обучать модели генерации видео с нуля в разы быстрее и дешевле, не зависеть от зарубежных токенизаторов, достигая при этом лучших результатов по качеству. Это открывает новые сценарии — от генерации рекламных роликов с точными логотипами и текстом до учебных материалов с чёткими визуальными деталями. Все модели линейки — в открытом доступе. Это даёт инженерам и исследователям по всему миру возможность использовать их в своих разработках и стимулирует рост открытой экосистемы отечественных технологий", — рассказал руководитель проекта Kandinsky, управляющий директор по исследованию данных Сбера Денис Димитров.

Токенизаторы преобразуют изображения и видео в компактный числовой код (так называемые латентные представления), с которым работают генеративные модели, такие как Kandinsky. От структуры этого представления напрямую зависят вычислительные затраты на обучение генеративной модели и её итоговое качество.

Ключевое преимущество KVAE-2.0 — в фокусе на создании семантически устойчивых представлений — специальных кодов, точно и стабильно отражающих смысл изображения. Они лучше сохраняют значимые элементы сцены, такие как текст, лица и структурные объекты. Это критично для работы основной генеративной модели в прикладных сценариях — от генерации рекламных материалов до образовательного контента. Модели KVAE-2.0 дополнительно обучили работе с русским текстом в кадре, в этих сценариях их качество значительно выше аналогов. 

Реклама. Рекламодатель — ПАО "Сбербанк" (ОГРН 1027700132195. Юридический адрес: Москва, ул. Вавилова, 19). 

234715
14
48