Как определить, что видео создала нейросеть (Спойлер: смотрим на руки, ноги и рот)
Учимся различать фейковые ролики от ИИ.
Мы в 1Gai.Ru уже писали о «талантах» искусственного интеллекта и его потенциальных возможностях. И пока мы, люди, создатели искусственного интеллекта (ИИ), не решим ряда задач и не адаптируем свое же изобретение для безопасного использования, «машинная» продукция может нанести немалый вред.
Если трудно вывести нейросеть на чистую воду в плане текста, то не легче уличить его в создании видео: здесь мы до сих пор склонны проявить максимум доверчивости. В этом посте попробуем выявить опознавательные знаки, признаки, побочные артефакты, характерные черты, которые помогут вам отличить искусственный сгенерированный видеоконтент от созданного человеком.
Обратная сторона видеонейросетей
Компании, занимающиеся разработкой нейросетей, в восторге от видеогенераторов: они превозносят творческие возможности, которые открывают эти новые модели, и радуются тому, насколько впечатляющими могут быть их конечные результаты. Однако стоит задуматься: технология, позволяющая любому человеку создавать реалистичные видеоролики с помощью простой схемы, не столько удивляет и обещает светлое будущее, сколько пугает. Так ли мы хотим жить в мире, где любое видео, которое видим в Интернете, может быть создано из ничего с помощью ИИ? Нравится нам это или нет, но мы движемся именно к этому.
Когда вы даете плохим людям, которые понимают, как генерировать контент, современные инструменты для манипуляций с видео, продукт на выходе получается настолько совершенен, что большинство людей будут верить в реальность экранной истории и у них даже мысли не появится, что перед ними фейк. В случае умышленного обмана они, по сути, когда нужно, умело подливают бензин в огонь, который горит с тех пор, как первый человек солгал в Сети.
Сейчас как никогда важно быть бдительным к тому, что мы видим в Интернете, и критически относиться к любым видеороликам, которые похожи на реальность, особенно если эта реальность призвана спровоцировать нас или повлиять на наше мировоззрение.
Видеоролики от искусственного интеллекта не все одинаковы
В настоящее время существует два вида видео от нейросетей, на которые стоит обратить внимание. Первый — это контент, полностью сгенерированный моделями искусственного интеллекта, где целые последовательности видеокадров от и до сгенерированы машиной. То есть которых никогда не существовало до того, как были созданы.
Например, видеомодель Sora от OpenAI способна делать короткие, но качественные Full HD-видео, которые «прикидываются» реальным видеоконтентом и могут легко вводить людей в заблуждение. К счастью для нас, нейросеть Sora все еще находится в разработке и пока недоступна широкой публике, но есть и другие инструменты, которые продвинутые специалисты могут использовать для производства подобного контента с нуля.
Однако на данный момент более чреваты с точки зрения последствий ролики, измененные ботами. Вот именно такой контент может влиять на общество. Например, опаснее всего дипфейки: реальные видео, в которых ИИ накладывает лицо одного человека на лицо другого или изменяет в аудиоконтенте голос человека на любой другой.
Давайте же рассмотрим, как распознать оба типа видеоконтента, созданного нейросетями. Нам всем это очень пригодится по мере того, как подобные видеогенераторы от ИИ будут и дальше совершенствоваться и становиться все более доступными, технологичными и крутыми. Начав изучать этот вопрос сейчас, вы сможете научиться замечать подвох, распознав фейки. Главное — быть бдительными.
Как работают ИИ, чтобы сгенерировать видео
Как и другие генеративные модели искусственного интеллекта, видеогенераторы должны получить огромное количество данных для своей успешной работы. Если модели изображений изначально обучаются на отдельных фото и картинках, создавая нейросвязи между изображениями (примерно так же делают нейроны нашего мозга), чтобы получить способность распознавать паттерны и взаимосвязи на статичных фрагментах, то генераторы видеороликов должны искать связи между несколькими изображениями одной темы, распределяя все по кадрам, а также делать анализ, как они меняются в последовательности.
Видео, по сути, — это серия отдельных изображений (кадров), воспроизводимых с определенной скоростью, создающей иллюзию движения. Если вы хотите, чтобы программа генерировала видео из ниоткуда, вам нужно, чтобы она не только умела воплощать на экране ПК или телефона видеообъекты, но и знала, как они должны меняться от кадра к кадру.
Нейросети для дипфейков специально обучаются на лицах, и их задача — имитировать движения и эмоции человека на видео, на которое они накладываются. В них часто используется генеративно-состязательная сеть (GAN), которая заставляет две модели ИИ «соревноваться» друг с другом: одна генерирует контент, другая пытается определить, является ли результат «машинным».
С другой стороны, нейросеть Sora теоретически способна создавать видео по любому текстовому запросу (промту). Это так называемая диффузионная модель, которая добавляет «шум» (на самом деле статичный) к обучающим данным до тех пор, пока он не преобразуется в нужное изображение.
Пока еще рано говорить о создании полноценных профессиональных видеороликов с помощью искусственного интеллекта. Также не совершенны еще модели, на базе которых создаются дипфейки. И дело не только в технологиях.
Многие машины с искусственным интеллектом имеют встроенные ограничения на генерацию результатов. Так создатели пытаются оградить свои боты от использования плохими людьми. Но многие ограничения, возможно, исчезнут в будущих версиях. Поэтому качество видеогенерации уже совсем скоро может выйти на новый уровень. Именно поэтому мы обязаны научиться распознавать сгенерированный контент. И, благо, на сегодняшний день есть подсказки, по которым можно его определить. Как? Читаем ниже.
Лица выглядят не совсем правильно
Технология наложения лица одного человека на лицо другого впечатляет, но она далека от совершенства. Во многих (если не в большинстве) случаев дипфейк имеет явные признаки фальшивки. Часто это выглядит как кустарный фотошоп: лицо не идеально сливается с остальной частью головы человека, освещение не соответствует сцене, и все это имеет эффект «зловещей долины». То есть у нас, наблюдателей, подобный контент вызывает неприязнь и отвращение.
YouTube (если из-за замедления видеохостинга ролик не загружается, используйте различные способы обхода блокировок загрузки)
Если вы смотрите видео, на котором известный человек говорит или делает что-то неоднозначное, внимательно вглядитесь в его лицо: возможно, здесь сыграла свою роль нейросеть? Этот видеоролик с «президентом Обамой», говорящим нелепые вещи, демонстрирует некоторые из недостатков ИИ. Дипфейк был сделан шесть лет назад, но показывает некоторые из заметных визуальных недостатков, которыми славятся измененные ботами видео.
Рот не соответствует речи
Аналогично еще один недостаток нынешней технологии дипфейков заключается в том, что она с трудом сопоставляет движения рта поддельного лица с речью реального человека, который находится на исходном видео, — особенно это видно, если речь тоже сгенерирована.
Взгляните на эту видеоподделку журналиста Андерсона Купера, созданную в прошлом году: ненастоящее лицо более реалистично, чем на видео с Обамой выше, но движения губ не соответствуют его речи:
YouTube (если из-за замедления видеохостинга ролик не загружается, используйте различные способы обхода блокировок загрузки)
Многие фейки, распространяемые в соцсетях, сделаны очень плохо. Если вы знаете, что ищете, на что обратить внимание, то подделка заметна сразу. Не все знают об этом явлении, поэтому видят ролик, на котором политик говорит то, что им не нравится, и полагают, что это правда, или же это их забавляет, но совершенно не волнует, что перед ними фейк.
Ищите глюки и артефакты
Как и ИИ по генерации изображений, видеонейросети создают продукцию со странными глюками и артефактами. Например, вы можете увидеть, что листья на деревьях мерцают, когда камера движется к ним, или что люди на заднем плане идут со скоростью, отличной от остальной части ролика. На первый взгляд видео ниже кажется реалистичным, но на самом деле оно полно таких несоответствий, особенно на деревьях (обратите внимание, как постоянно исчезают машины на дороге слева).
YouTube (если из-за замедления видеохостинга ролик не загружается, используйте различные способы обхода блокировок загрузки)
Про дипфейки отдельный разговор. У них, как правило, больше всего артефактов. Эти видео часто выглядят ужасно, как будто их скачали и перезагрузили 1000 раз, потеряв при этом все качество. Это сделано специально в попытке скрыть недостатки сгенерированного видеоряда с наложением. Большинство фейкового видеоконтента мгновенно выдало бы себя, если бы было представлено в качестве 4K, так как видео в высоком разрешении подчеркнуло бы все их вышеупомянутые ошибки. Но когда вы снижаете качество картинки, становится проще скрыть обман, а значит, проще ввести людей в заблуждение, заставив их поверить в то, что ролик настоящий.
Физика не работает
Видеокамера снимает мир таким, какой он есть, по крайней мере, так, как это могут сделать объектив и матрица камеры. ИИ-видеогенератор, с другой стороны, создает продукцию на основе того, что он обработал раньше, но без какого-либо дополнительного контекста. На самом деле бот перед генерацией ничего не знает о том, что вы его просите, и поэтому, основываясь на своих уже сформированных в процессе первоначального обучения нейросвязях, заполняет пробелы как может. Это приводит к тому, что физика в видеоряде, созданном нейросетями, может быть не совсем реальной.
Например, Sora сгенерировала видео с церковью на скале вдоль Амальфитанского побережья. На первый взгляд это выглядит довольно убедительно и правдоподобно. Однако если вы обратите внимание на океан, то увидите, что волны, на самом деле, движутся от берега, в противоположном направлении.
YouTube (если из-за замедления видеохостинга ролик не загружается, используйте различные способы обхода блокировок загрузки)
Генератор также создал убедительное видео с человеком, бегущим по беговой дорожке. Главная особенность заключается в том, что человек бежит «вперед», стоя лицом от тренажера, поскольку модель не понимает, как именно должны работать эти спортивные механизмы. Но если присмотреться, то можно заметить, что бег мужчины не совсем обычный: верхняя половина его тела то и дело останавливается, а нижняя продолжает двигаться. В реальном мире такого быть не может, но Sora не понимает, как должна работать физика бега.
В другом ролике «археологи» обнаруживают в песках пустыни пластиковый стул, вытаскивают его и вытирают с него пыль. Хотя это сложная задача для модели и она действительно передает некоторые реалистичные моменты, физика, связанная со всей этой затеей, оставляет желать лучшего: кресло появляется из воздуха, человек несет его так, как в реальности бы не смог нести, и в итоге к концу ролика кресло улетает само по себе, превращаясь в нечто совершенно иное.
YouTube (если из-за замедления видеохостинга ролик не загружается, используйте различные способы обхода блокировок загрузки)
Слишком много конечностей
ИИ-модели, создающие видеоконтент, не понимают, сколько конечностей должно быть у человека. Они отразили, что эти части тел перемещаются между кадрами, но не совсем понимают, что это должны быть одни и те же ноги и руки на протяжении всей сцены.
Вот почему в видеороликах от нейросетей можно увидеть, как руки, ноги (или лапы) то появляются в кадрах, то исчезают. Хотя это происходит не всегда, факт наглядно продемонстрирован в фильме от Sora: когда «камера» следит за женщиной, идущей вперед, между ее левой рукой и левым боком появляется третья рука. Это малозаметно, но именно так генерирует видео ИИ.
YouTube (если из-за замедления видеохостинга ролик не загружается, используйте различные способы обхода блокировок загрузки)
В этом примере внимательно посмотрите на кошку: ближе к концу ролика у нее внезапно появляется третья лапа, поскольку модель не понимает, что в реальном мире такие вещи не могут происходить. С другой стороны, когда женщина переворачивается в постели, ее «рука», кажется, превращается в простыню.
YouTube (если из-за замедления видеохостинга ролик не загружается, используйте различные способы обхода блокировок загрузки)
Некоторые вещи просто не имеют смысла
Лишние ноги и руки не имеют особого смысла, но в видеороликах с ИИ это часто не так. Опять же, эти модели на самом деле ничего не знают: они просто пытаются воспроизвести то, что запросил пользователь на основе набора данных, на котором их обучали. Например, они «усвоили», что в городе на Амальфитанском побережье должно быть много каменных лестниц, но, похоже, не понимают, что они должны куда-то вести. В демонстрационном видео OpenAI многие из этих лестниц расположены бессистемно, без реального назначения.
В этом же видео обратите внимание на «людей» в толпе. Сначала может показаться, что это группа туристов, прогуливающихся по городу, но некоторые из них затем исчезают в воздухе. Многие выглядят так, будто идут вниз по ступенькам, только они не пользуются лестницами, ведущими в никуда: просто «идут вниз» по ровной земле.
В общем, важно воспринимать все, что вы видите в интернете, с долей критики. Вам не нужен искусственный интеллект, чтобы писать вводящие в заблуждение сообщения в блогах, искажающие правду, или манипулировать людьми с помощью видеосюжета, созданного обычным образом, чтобы выстроить сюжет так, как вам заблагорассудится.
Но видео, созданное искусственным интеллектом, — совсем другое дело: мало того, что оно само является сгенерированным контентом, который никогда прежде не существовал, так еще в умелых руках недобросовестных журналистов, нечистых на руку людей или мошенников может превратиться в грозное оружие для манипулирования сознанием как отдельных людей, так и общества.
Жаль, что нам приходится относиться к нынешнему интернету (и всему миру в целом) так цинично, но когда всего одна подсказка-промт может создать целое видео в буквальном смысле из ничего, что нам остается делать?