Как россияне создали приложение endel, где теперь есть колыбельная grimes и искусственного интеллекта

Ян Гудфеллоу — хороший друг

Генеративно-состязательные сети, или GAN, как их сокращённо называют, придумал молодой американский исследователь Ян Гудфеллоу в 2014 году. Идея родилась у него случайно во время спора с друзьями.

Ян учился в аспирантуре Монреальского университета (Канада) и работал над диссертацией по нейронным сетям. Однажды вечером начинающие учёные отмечали в баре защиту диплома своего коллеги. Они обсуждали, как можно научить компьютер рисовать. И не просто рисовать, а создавать изображения, неотличимые от настоящих фотографий. Например, кошек, ведь все же любят разглядывать фото котиков. И почему бы не заставить алгоритмы генерировать их в неограниченном количестве?

Друзья Гудфеллоу полагали, что для этого потребуется заложить в компьютерную программу математические формулы и правила, описывающие, как должны располагаться элементы фотографии, чтобы из них получилось реалистичное изображение. Но Ян утверждал, что такой подход не сработает. Невозможно измерить гармонию и перевести её на сухой язык математики.

Гудфеллоу настаивал на использовании нейронных сетей, исследованием которых занимался. Однако коллеги скептически отнеслись к этой идее. Нейросети ранее уже пытались применять для рисования, и результаты были далеки от идеала. К тому же нейросети требовали длительного процесса обучения с участием человека.

И тогда Гудфеллоу предложил гениальную модель: в ней не одна, а две нейронные сети. И они сами обучают друг друга. Первая генерирует изображения, вторая оценивает плоды её работы. Если созданная картинка выглядит неестественно, вторая сеть вернёт её на доработку. Но если картинка окажется хорошей, нейросеть допустит её для показа людям.

Все сомневались, что это сработает. Вернувшись домой, Гудфеллоу не лёг спать. Всю ночь он писал программу, работающую по этой модели. К утру всё было готово: нейросети успешно генерировали реалистичные изображения. И не только кошек, но и практически чего угодно.

Ян Гудфеллоу опубликовал результаты в научной статье. Новую модель он назвал генеративно-состязательной сетью (GAN). Так молодой учёный не только помог своим друзьям, но и подарил искусственному интеллекту возможность творить.

«Генеративно-состязательные сети — это самая интересная идея в машинном обучении за последние десять лет».

Ян Лекун, директор по исследованиям искусственного интеллекта Facebook (цитата)

Сейчас GAN повсеместно применяют для автоматической генерации изображений. Они создают картинки с животными (котики традиционно в приоритете) и с людьми, пишут произведения изобразительного искусства, которые выставляются в крупных галереях, в том числе и в нашей Третьяковке.

Пожалуй, самым известным и скандальным достижением генеративно-состязательных сетей стала продажа на аукционе Christie’s картины, созданной искусственным интеллектом. Полотно под названием «Портрет Эдмонда Белами» (на нём изображен вымышленный человек) ушло в 2018 году с молотка за 432 500 долларов.

Изображение: Wikimedia Commons

Придумав персонажа по фамилии Белами, создатели картины остроумно отдали дань уважения Яну Гудфеллоу, изобретателю GAN. Его фамилия на английском означает «хороший друг». А если перевести её на французский, то как раз получится bel ami.

Что еще умеет DALL-E?

Конечно, пока DALL-E кажется просто игрушкой, пусть и с серьезным научным значением. Но у нее большое будущее. Пожалуй, впервые появилась технология, где результаты ограничены не алгоритмом, а лишь нашим воображением.

Фактически создается новый вид программирования, открытый каждому, даже людям без каких-либо технических знаний. В будущем такое программирование будет все более и более распространенным. Пока это лишь предварительные результаты, но они уже поражают.

Например, DALL-E может создавать художественные иллюстрации с очень тонким контролем над их содержимым. Нарисовать можно практически все, смотрите:

Текстовый запрос: капибара на закате.

Текстовый запрос: капибара ночью

Текстовый запрос: капибара в кожаной куртке играет на гитаре

Учитываются нюансы типа отражений и теней, цветов окружения. Нейросеть понимает геометрию, формы и материалы, время года и суток, художественные стили, ракурсы и способы отображения.

Как уже упоминалось, вы можете попробовать все это сами – примеры опубликованы в блоге OpenAI. К сожалению, пока в свободном доступе можно лишь выбирать из фиксированных наборов вариантов заданий, а не вводить произвольный текст, да и результаты не всегда идеальны.

Но даже то, что уже доступно, поражает. Язык пока поддерживается только английский, хотя это вопрос обучающей выборки.

https://youtube.com/watch?v=C7D5EzkhT6A

Уже сейчас DALL-E может фактически изобретать новые вещи. Например, в видео выше есть пример с зелеными треугольными часами.

Одним кликом мышки они превращались в пяти- или шестиугольные, причем предлагалось огромное количество вариантов. Можно задать любую задачу и за несколько секунд получить кучу прототипов.

Гостиная с картиной, на которой изображен Сиднейский оперный театр

Текстовый запрос: кожаное кресло в виде пончика

Текстовый запрос: манекен в джинсах и красном поло

Сложно даже представить себе все, что позволит сделать эта нейросеть в недалеком будущем, когда мы сможем получить обученные модели. Пока в тестовом режиме DALL-E пробовали применять для дизайна одежды и интерьеров.

Для чего нужны нейросети

Нейросети встречаются везде. Основная их функция — это управление различными частями организма в зависимости от изменения окружающих условий. В качестве примера можно рассмотреть механизм сужения и расширения зрачка в зависимости от уровня освещения.

В нашем глазу есть сенсоры, которые улавливают количество света попадающего через зрачок на заднюю поверхность глаза. Они преобразуют эту информацию в электрические импульсы и передают на прикрепленные к ним нервные окончания. Далее это сигнал проходит по всей нейронной сети, которая принимает решение о том, не опасно ли такое количество света для глаза, достаточно ли оно для того, чтобы четко распознавать визуальную информацию, и нужно ли, исходя из этих факторов, уменьшить или увеличить количество света.

На выходе этой сети находятся мышцы, отвечающие за расширение или сужение зрачка, и приводят эти механизмы в действие в зависимости от сигнала, полученного из нейросети. И таких механизмов огромное количество в теле любого живого существа, обладающего нервной системой.

AR и паблик-арт

AR-технологии могут как дополнить уже существующие арт-инсталляции, так и создать объекты, которые можно увидеть только на экране устройства. В некоторых случаях эти проекты затрагивают актуальные проблемы и стремятся вызвать общественный резонанс.

Дополненная реальность также помогает показывать историческое и культурное наследие. В проекте от Snapchat и Los Angeles County Museum of Art создали AR-монументы. Пользователи могли гулять по улицам и узнавать истории городских сообществ.

Фестиваль Vancouver Mural Festival Winter Arts в январе 2021-го объединил две реальности: чтобы увидеть цифровой контент, пользователи должны были скачать приложение и прийти в реальную геолокацию.

В июле 2021 года в шести городах России прошёл первый фестиваль цифрового паблик-арта Rosbank Future Cities. Его придумали, чтобы популяризировать диджитал-искусство. Виртуальные работы расположили в разных точках городов. Посмотреть на них можно было с помощью WebAR-технологий, смартфона и открытой страницы сайта.

Арт-объект «Памятник всему». Изображение: Ян Посадский, Вадим Эпштейн

В проекте участвовали художники Анна Таганцева-Кобзева, Ян Посадский и Вадим Эпштейн, коллектив Digital Object Alliance (Анна Леонова и Саша Пучкова), Кирилл Макаров и Софья Скидан. В своих работах они отразили размышления на тему цифрового мира.

Арт-объект «Пыльца», созданный Анной Таганцевой-Кобзевой, проводит параллель между цифровыми данными, передающимися при помощи беспроводных технологий, и пыльцой растений, которая передаёт знания о виде и его популяции.

Арт-объект «Пыльца». Изображение: Анна Таганцева-Кобзева

«Памятник всему» — проект Яна Посадского в коллаборации с Вадимом Эпштейном. Художники исследовали памятники как властные образы, организующие публичное пространство. Арт-объекты создала нейросеть, обученная на датасете из монументов российских городов.

Арт-объект «Памятник всему». Изображение: Ян Посадский, Вадим Эпштейн

Цифровую поэзию привычных городских образов, воплощённую в арт-объекте «Невыносимая бесконечность быть подключёнными к сети», создали художницы Анна Леонова и Саша Пучкова (Digital Object Alliance). Коллектив рассматривает цифровую инфраструктуру через одно из самых невидимых её проявлений — провода: электрические, транспортные, интернет-кабели.

Арт-объект «Невыносимая бесконечность быть подключёнными к сети». Изображение: Digital Object Alliance / Анна Леонова / Саша Пучкова

Проект «Доверие» Кирилла Макарова стал визуализацией важнейшего моста всех социальных взаимодействий. Доверие как тип взаимоотношений художник рассматривает в контексте города со стороны человека-субъекта, находящегося внутри совокупности систем.

Арт-объект «Доверие». Изображение: Кирилл Макаров

«What is hidden does not need to be hidden» — это арт-объект Софьи Скидан. Диджитал-скульптура стала методом для цифровой медитации и замедления в перенасыщенной информацией городской среде.

Арт-объект «What is hidden does not need to be hidden». Изображение: Софья Скидан

Способы нейминга

А теперь поговорим о том, как создавать уникальные наименования. На войне все средства хороши. Используем:

Ассоциации. Учитываются все варианты, связанные с какими-либо свойствами бренда.
Аббревиатуры. Тут нейм складывается из сокращений. Сюда же относят акронимы, когда нейм составляется из первых букв полного названия. Например, BMW – акроним, расшифровывающийся как Bayerische Motoren Werke.
Неологизмы. Фантазийные слова, которые сложно подделать, но легко запатентовать. Google является типичным примером.
Усечения. За основу берется несколько ключевых слов, связанных с преимуществами или свойствами, затем их «распиливают», а получившиеся части компонуют в нейм.
Имена. Тут все просто – берется имя, фамилия или отчество. Способ широко распространен, но в то же время не всегда демонстрирует качества продукта.
Рифмы. Яркий пример в этой категории – Seven-Eleven. Также можно использовать неологизмы.
Интернет-нейминги. Суть этого способа – использовать домен в качестве наименования. Например, Авто.ру или Мэйл.ру.
Превосходство. В данном случае используются приставки супер-, гипер-, мега- и так далее.

WebScore AI

Еще один сервис на базе нейросети от команды uKit Group. Фишкой сервиса является функция оценки привлекательности сайта.

Ребята из uKit Group прошерстили Интернет и сформировали выборку из 12 000 сайтов: от очень старых страниц до лендингов мировых ИТ-флагманов.
Затем профи по дизайну помогли выделить 125 параметров, по которым обычные посетители оценивают веб-страницы.
Далее фокус-группа оценила сайты в выборке по шкале от 1 до 10, чтобы моделям машинного обучения было на что ориентироваться.

В итоге оценка системы стала точнее, чем оценки её учителей, а нейросеть самостоятельно выделила еще 1000 признаков привлекательности сайта.
Сейчас WebScore AI умеет выставлять странице общий балл и находится в публичном доступе для продолжения обучения.

Какие сайты умеет обрабатывать WebScore AI?

Лендинги без сложных анимаций идеально подойдут для оценки: одностраничники товаров, услуг, семинаров, мероприятий и прочего.

При анализе дизайн-параметров WebScore AI использует скриншот сайта: если страница сильно анимирована и система запомнила не лучший кадр, это может привести к снижению балла.

Сайты-визитки и магазины. Каждую страницу сайта стоит оценивать по отдельности, давая системе нужную ссылку.

Оценка некоторых онлайн-витрин может быть понижена, если они используют много всплывающих сообщений или очень плотно размещают контент.

Современные тренды развития нейросетевых технологий

Итак, особенно активно текущие нейросетевые технологии развиваются с 2000-х годов, когда мощность графических процессоров стала достаточной для быстрого и недорогого обучения нейросетей, а также в мире накопилось большое количество датасетов для тренировки. К примеру, до 2010 года не существовало базы данных, чтобы качественно обучить нейросети решать задачи по распознаванию и классификации изображений. Поэтому нейросети часто ошибались, путая кошку с собакой, или снимок здорового органа с больным. Однако, с появлением базы ImageNet в 2010 году, которая содержала 15 миллионов изображений в 22 тысячах категорий и была доступна для любого исследователя, качество результатов существенно улучшилось. Кроме того, к этому времени появились новые достижения ученых в области искусственного интеллекта: Джеффри Хинтон реализовал предобучение сети при помощи машины Больцмана, обучая каждый слой отдельно. Ян ЛеКан предложил использовать сверточные нейросети для распознавания изображений, а Иошуа Бенджио разработал каскадный автокодировщик, позволивший задействовать все слои в глубокой нейронной сети . Именно эти исследования легли в основу современных тенденций развития нейросетевых технологий, наиболее значимыми среди которых можно назвать следующие:

глубокое обучение (Deep Learning, DL) – иерархическое сочетание нескольких алгоритмов обучения (с учителем, без учителя, с подкреплением), когда нейросеть сперва тренируется на большом количестве данных общего характера, а затем целенаправленно обучается на датасетах, специфичных для конкретной задачи.
гибридное обучение – сочетание DL-моделей с байесовскими подходами, которые хорошо подходят для вероятностного моделирования и вычисления причинно-следственных отношений в биоинформатике (генетические сети, структура белков), медицине, классификации документов, обработке изображений и системах поддержки принятия решений . Байесовские алгоритмы значительно повышают качество обучения, способствуя генерации тренировочных данных, максимально близких к реальным, в генеративно-состязательных сетях (GAN, Generative adversarial network) .
автоматическое обучение (AutoML) – автоматизация всех ML-процессов, от предварительной подготовки данных до анализа результатов моделирования. Инструменты AutoML (Google AutoML, Auto Keras, RECIPE, TransmogrifAI, Auto-WEKA, H2O AutoML и другие фреймворки и библиотеки) существенно облегчают работу Data Scientist’a, экономя его время за счет автоматического конструирования признаков, оптимизации гиперпараметров, поиске наилучшей архитектуры, подборе каналов и оценочных метрик, определения ошибок и выполнения других ML-процедур . Также AutoML можно рассматривать как способ демократизации AI, который позволяет создавать ML-модели без сложного программирования .

Далее мы рассмотрим более подробно методы глубокого и автоматического ML.

uKit

Сервис от русских разработчиков моментального редизайна и обновления кода страниц сайта. Автоматически генерирует новую версию лендинга или страницы компании с учётом современных требований. uKit совмещает в себе алгоритмы генеративного дизайна и нейросети. Пользователь настраивает сервис с помощью удобного и интуитивно понятного конструктора.

Как работает?

На первом этапе uКit анализирует структуру сайта и распознает его отдельные элементы. Далее система отделяет общие элементы дизайна от уникального контента (текст, фото, контакты и т. д.) и выстраивает материалы в контентное дерево, которое повторяет компоновку информации на старом сайте. Этот шаг необходим для того, чтобы сохранить структуру сайта и упростить восприятие информации. Затем uKit перестраивает контентное дерево и автоматически генерит новую версию лендинга или страницы компании, которые соответствуют современным и дизайн-стандартам. И спустя несколько минут новая версия сайта становится доступна в конструкторе Ukit.

Для того, чтобы uKit проанализировал и скомпоновал ваш сайт, нужно оставить ссылку на вашу почту и домен сайта.

Импульсная нейронная сеть

Импульсная нейронная сеть или Spiking neural network является самой реалистичной с точки зрения физиологии. В ней нейроны обмениваются короткими импульсами одинаковой амплитуды. Первая научная модель импульсной нейросети была предложена еще в 1952 году Аланом Ходжкином и Эндрю Хаксли, однако данный вид искусственных нейронных сетей известен немногим специалистам в этой области. Основная идея состоит в том, чтобы скопировать поведение биологическкого нейрона. Такие модели могут быть полезны при изучении функций мозга. Для того, чтобы быстро летать, необязательно махать крыльями, однако при решении прикладных задач некоторые свойства можно позаимствовать у биологических организмов.

Массовый дипфейк: тренд на синтетический контент

Технологии дипфейков развиваются быстрее, чем технологии их обнаружения и законодательная база для регулирования их создания. ИИ скоро достигнет точки, когда будет практически невозможно отличить аудио и видео людей, говорящих то, что они никогда не говорили.

История технологии Дипфейк

Дипфейк (из двух английских слов «deep learning — глубокое обучение» и «fake — подделка») — это синтетический контент, в котором человек в существующем фото, аудио или видео заменяется на другого. Дипфейки могут использовать любой формат — ваше фото, видео или ваш голос. Дипфейки наиболее часто используют в рекламе, порнофильмах, порномести, фейковых новостях и для финансового мошенничества.

Дипфейк с президентом США Дональдом Трампом, сделанный автором в приложении Reface

Дипфейк с экс-президентом США Бараком Обамой в образе Дейнерис Таргариен из сериала «Игра престолов», сделанный автором в приложении Reface

Технология дипфейков — это не абсолютное зло, она может революционно изменить, например, киноиндустрию. С помощью нее можно искусственно омолодить или состарить актеров, придать дублерам большее сходство с актерами, синхронизировать движения губ при дубляже перевода или даже доснять фильм с изображением внезапно умершего или переставшего участвовать в съемках актера. Как правило, применение таких технологий юридически невозможно без согласия актеров, чьи изображения будут использованы в конечном материале, либо их наследников, если человек уже умер.

Индустрия 4.0

Дипфейки: что это за технология и почему она опасна

«В мире уже много проектов коммерческого использования дипфейков (Synthesia, WPP, Rosebud, Rephrase.ai, Canny AI). Технология дипфейков открывает возможность создавать полностью синтетические личности — изображения и голоса людей, которых никогда не существовало. Использование таких изображений практически полностью снимает зависимость бизнеса от моделей и актеров, в том числе от необходимости «очистки» авторских и смежных прав и подписания различных релизов», — считает Вадим Перевалов, старший юрист международной юридической фирмы Baker McKenzie.

Лео Луганский vs Земфира

После выхода последнего альбома Земфиры бурные обсуждения вызвала его обложка. Она оказалась похожей на обложку сингла малоизвестного американского исполнителя:

Изображение: обложка альбома «Бордерлайн» Земфиры и обложка сингла Brdrline Leo Luganskiy

Обложку для Земфиры придумал Демна Гвасалия — грузинский дизайнер и создатель бренда одежды Vetements. Совпадение обнаружилось, когда Лео Луганский опубликовал пост в Twitter со сравнением двух обложек и подписью «рекламная пауза».

До суда дело не дошло, хотя в работах совпадает и название, и идея с перечёркнутым словом. Впрочем, сама идея не уникальна, похожий приём использовали и другие музыканты:

Развитие нейросетей

В начале 2019 года ученые из калифорнийской компании Open AI создали основанную на машинном обучении технологию, способную работать с естественными языками: отвечать на вопросы, завершать неполный текст, анализировать его содержание, делать выводы и выполнять многие другие задачи.

Эта нейросеть получила название GPT-2. В основе ее лежала идея о том, что все перечисленные задачи можно сформулировать в виде различных вариантов дополнения текста, где нам требовалось только предоставить системе неоконченный текстовый фрагмент, а она его дописывала.

В июне 2020 года появилась нейросеть GPT-3 – дальнейшее развитие этой идеи. Она достигла, казалось бы, совершенно невероятных результатов. Например, по текстовым описаниям могла создавать элементы веб-сайтов.

Но кто сказал, что нейросети могут работать только с текстовой информацией?

Спустя несколько месяцев у исследователей возникла идея о том, что, если мы можем дополнять текстовые предложения, почему бы не попробовать завершать изображения. Этот проект получил название Image GPT. Идея в его основе также была простой: мы даем системе неполное изображение и хотим, чтобы она дополнила отсутствующие пиксели.

Пример работы нейросети Image GPT.

Например, она смогла определить, что кот на картинке скорее держит бумагу и дополнила изображение. А если на картинке изображена капля и часть кругов на воде, то нужно завершить их и добавить брызги.

Но на этом тоже не остановились: в январе 2021 года, спустя всего 7 месяцев после разработки GPT-3, компания представила свою новую сногсшибательную технологию, которой удалось построить связь между текстом и изображениями.

Эту нейросеть назвали DALL-E.

Но если завершение изображений уже работает, что нового она может сделать? На самом деле, как вы увидите ниже, было бы правильнее задать вопрос «а чего она сделать НЕ может?»

Growing Neural Cellular Automata

Рисунок — Один шаг обновления модели

Growing Neural Cellular Automata являются скрещением идей клеточных автоматов и искусственных нейронных сетей, результатом которого являются «живые» самовоспроизводящиеся и взаимодействующие друг с другом изображения. Ничто не мешает вместо изображений взять любые другие объекты (текст, музыку и т.д.). Растущие нейронные клеточные автоматы выглядят привлекательно и эффектно. Изображения «выращиваются» из вектора в 16 чисел с плавающей запятой. Таким образом данные могут быть «упаковываны» в компактную цепочку чисел, как код ДНК, что в будущем может составить конкуренцию форматам сжатия данных типа JPEG (изображения), MP3 (звук), MPEG (видео) и ZIP (текст).

Результат

Рис. 18 — Распределение купивших (красных) и не купивших (синих) клиентов в рамках финальной нейронной скоринг моделиРис. 19 — Сравнение качества старой и новой скоринг модели

Рассмотрели все основные этапы data-mining.
Узнали много полезных приемов как при подготовке данных, так и при обучении.
Достаточно глубоко познакомились с теорией классических искусственных нейронных сетей.
Рассмотрели разные статистические подходы к анализу качества модели.
Описали все этапы от создания до разбора и внедрения нейронной сети на примере построения линейной скоринг модели.
Показали, как современные алгоритмы машинного обучения могут помочь в решении реальных бизнес-задач.

Выводы

Усилия исследователей направлены на:
- механизм внимания (attention mechanism), карты внимания;
- развитие сверточных сетей типа «песочные часы» для задач обнаружения объектов, которые часто используются как основные (backbone) модели в модульных архитектурах;
- модульность, многие современные state-of-the-art (SOTA) архитектуры сотоят из многих частей.
Чтение статей без последующей работы с исходным кодом дает мало пользы. Даже если понятна задумка исследователей, но без понятного исходного кода и умения использовать исходный код на практике такое знание не имеет смысла. Кроме осведомленности, что такой метод уже есть, чтобы не изобретать велосипед заново. После чтения «по диагонали» нескольких десятков статей в очередной раз убедился, что ИТ — это практическая дисциплина, нацеленная на результат.

Спасибо за внимание!