Можно ли снять видеоролик с людьми, которых не существует в природе? Да, благодаря «дружбе» нейросетей, фейстрекинга и морфинга лиц. Пример такого синтеза технологий — экспозиция «Энергия в людях» на Петербургском международном экономическом форуме — 2023. Подойдем поближе, рассмотрим получше и выясним, как все это работает, вместе с разработчиками — студией Radugadesign.
Перед нами огромный куб высотой 7,5 и шириной 13 метров. Внутри — зал для подписания соглашений, а снаружи — большие экраны, которые перетекают друг в друга благодаря скругленным ребрам куба. На одной из граней крутится видео, и сейчас единственный герой в нем — геологоразведчик с пультом управления. Он смотрит вдаль и нажимает на кнопки, и не успевают гости ПМЭФ навести на экран видеокамеру, как сцена с геологоразведчиком меняется.
Перед нами появляется оператор буровой, но погодите… Черты лица героя начинают плавно меняться, и он превращается в другого человека, который продолжает движения первого, затем портрет трансформируется снова и снова, символизируя множество людей одной профессии.
За минуту каждый из 12 показанных на экспозиции героев успевал «сменить» несколько лиц. Галерея динамичных портретов сложилась в цифровой образ компании «Газпром нефть», новый слоган которой — «Энергия в людях».
На экранах транслировались шесть локаций, в каждую из которых «поселили» представителя разных профессий: оператора бурения, рабочего и лаборанта нефтеперерабатывающего завода, капитана ледокола, сотрудника АЗС, оператора топливозаправщика и других. Разрешение видео на всех экранах составило 19 968 на 2880 пикселей. Для сравнения стандартное разрешение современного телевизора — 1920 пикселей на 1080, а экрана 4К — 3840 на 2160 пикселей.
Для создания видеоконтента специалисты студии Radugadesign разработали цифровой алгоритм, который использовал возможности десяти нейросетей. У каждой была своя «зона ответственности»: одни меняли и дорисовывали изображение, чтобы естественно соединить несколько портретов и фонов в статике и динамике; другие отслеживали пол и возраст героев; третьи направляли креатив «коллег» в заданное программистами русло.
Сначала искусственному интеллекту показали 200 тысяч фотографий сотрудников «Газпром нефти». Алгоритм отфильтровал подходящие по качеству и композиции — например, чтобы лицо человека было хорошо видно. Вручную перебрать столько снимков в короткие сроки было бы невозможно. В «финал» прошли 90 тысяч фото, которые и взяли в работу.
Разбив фотоархив по разным категориям (профессия, пол, возраст), алгоритм под контролем программистов составил несколько собирательных образов представителей разных профессий. Эти портреты и «проступали» на лицах персонажей роликов. Ни на миг на экранах не появилось лицо реального сотрудника, но образ каждого героя стал суперпозицией тысяч настоящих фотографий.
Почему это не дипфейк
В основе дипфейка — подмена одного реального лица на фото или видео другим реальным. В случае с визуальным манифестом «Газпром нефти» на ПМЭФ на основе реальных портретов создали образы не существующих в действительности людей.
Чтобы оживить собирательные портреты, использовали композиторинг — метод, объединяющий 3D-графику и реальные съемки. Созданные нейросетями лица накладывали на движущихся актеров. Для этого во время съемок реальных людей на их лицах расставили точки мимики: на зрачках, веках, губах, бровях и других частях. По словам разработчиков, это позволило избежать эффекта «зловещей долины» и помогло придать персонажам естественности.
Прием с маркированием лица точками называется фейстрекинг, его применяют в уличном распознавании лиц и анимированных масках в соцсетях, но в более простом варианте.
Для анимации и изменения черт лица персонажа по ходу видеосюжета использовали морфинг — цифровой визуальный эффект, когда один объект трансформируется в другой. Чтобы это происходило плавно, компьютер создает ряд промежуточных образов, немного отличных от исходных: столько, сколько нужно для заполнения «пустоты» между двумя объектами. При этом он ориентируется на опорные фигуры и точки — в данном случае точки мимики.
На съемочной площадке мы так организовали процесс, чтобы алгоритм давал команду «Стоп, снято!», ведь он подмечал мельчайшие неточности в движениях актеров.
На обучение алгоритма ушло около полугода, а графический контент готовили примерно девять месяцев. Над ним работала группа из 23 российских специалистов. По их оценкам, это первый случай в нашей стране, когда для художественного контента использовали базу данных корпорации и «команду» нейросетей.