Что на самом деле проверяет тест тьюринга

Алан Тьюринг — основная информация

Одним из самых важных ученых, который подтолкнул человечество к цифровому веку, положил начало для развития искусственного интеллекта и подарил миру шифровальную машину Enigma, был блестящий английский математик Алан Тьюринг.

Тьюринг, конечно, не остановился на Enigma. В ходе дальнейшей работы он создал основы современной информатики и разработал принципы для возможности существования искусственного интеллекта. Кроме того, он проанализировал всю проблему с моральной и философской точки зрения, что привело к созданию знаменитого теста для машин, который в итоге получил его имя.

Основные принципы теста Тьюринга

Результаты своих размышлений Тьюринг включил в работу «Вычислительная техника и интеллект», написанную в 1950 г. Он описал в ней простую игру, которую назвал «Imitation Game», что переводится как «игра в имитацию». В игре принимали участие судья и невидимые для него игроки, женщина (игрок A) и мужчина (игрок B).

Задача судьи состояла в том, чтобы безошибочно определить пол собеседников, предполагая, что мужчина попытается ввести его в заблуждение, а женщина — помочь разоблачить лжеца. Вопросы и ответы доставлялись судье в невербальной форме, написанные от руки или на пишущей машинке. Задание требовало, чтобы мужчина играл роль женщины творчески и не допускал ошибок.

Тьюринг задался вопросом, сможет ли машина обмануть судью, выдав себя за человека. Гений хотел непременно знать, возможно ли в будущем появление таких мощных машин, которые были бы способны самостоятельно избегать ловушек, лгать, использовать хитроумные тактики и запутывать улики. Конечно, он рассматривал все чисто теоретически, машины, которые существовали в то время, не имели возможности участвовать в такой игре.

Блестящий математик подсчитал, что через 50 лет после написания его статьи компьютеры будут настолько прогрессивными, что смогут ввести судью в заблуждение за каких-то 5 минут. Как оказалось, в данном случае он ошибался, тест и по сей день остается непройденным.

В своей работе Тьюринг также сделал ряд оговорок, которые имели отношение к главному вопросу: «Могут ли машины думать?». Он предсказал, что данная концепция будет атакована теологами, которые считают, что мышление — это дар бога, предназначенный только для людей. Тьюринг не соглашался с подобными аргументами, опровергая их примерами антинаучных тезисов Библии. Он также предсказал страх человечества перед восстанием машин и потерей своего доминирующего положения.

Игра в имитацию

Тьюринг описывает следующий вид игры. Предположим, есть человек, машина и лицо, задающее вопросы. Интервьюер находится в комнате, отделенной от остальных участников, которые проходят тест Тьюринга. Цель теста состоит в том, чтобы задающий вопросы определил, кто является человеком, а кто машиной. Интервьюеру оба испытуемых известны под метками X и Y, но по крайней мере в начале ему неизвестно, кто скрывается за меткой Х. В конце игры он должен сказать, что Х – это человек, а Y – это машина, или наоборот. Интервьюеру разрешено задавать испытуемым вопросы теста Тьюринга следующего вида: «Ну будет ли Х любезен сказать мне, играет ли Х в шахматы?» Тот, кто является Х, должен отвечать на вопросы, адресованные Х. Цель машины состоит в том, чтобы ввести в заблуждение спрашивающего, и тот ошибочно сделал вывод о том, что она – человек. Человек же должен помочь установить истину. Об этой игре Алан Тьюринг в 1950 году сказал: «Я считаю, через 50 лет можно будет запрограммировать компьютеры с объемом памяти около 109 таким образом, что они успешно смогут играть в имитацию, и средний интервьюер с вероятностью, превышающей 70%, за пять минут не будет в состоянии угадать, кто является машиной».

ⓘ Тест Тьюринга

Тест Тьюринга — эмпирический тест, идея которого была предложена Аланом Тьюрингом в статье «Вычислительные машины и разум», опубликованной в 1950 году в философском журнале Mind. Тьюринг задался целью определить, может ли машина мыслить.

Стандартная интерпретация этого теста звучит следующим образом: «Человек взаимодействует с одним компьютером и одним человеком. На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой. Задача компьютерной программы — ввести человека в заблуждение, заставив сделать неверный выбор».

Мета-тест Тьюринга

Тест предполагает, что машина «умеет мыслить», если она может создать что-то, что она сама хочет проверить на разумность.

Первое прохождение классического теста Тьюринга зафиксировано 6 июня 2014 года чат-ботом «Женя Густман», разработанным в Санкт-Петербурге. Бот убедил экспертов, что они общаются с 13-летним подростка из Одессы.

В общем, машины уже способны на многое, сейчас много специалистов работают в данном направлении и нас ждут все более интересные вариации и прохождения данного теста.

«Eugene Goostman» удалось пройти тест Тьюринга и убедить 33% судей в том, что с ними общается не машина. Программа выдавала себя за триннадцатилетнего мальчика по имени Евгений Густман из Одессы и смогла убедить беседовавших с ней людей в том, что выдаваемые ею ответы принадлежат человеку.

Тест проходил в Лондонском королевском обществе, его проведение организовал Университет Рединга, Великобритания. Авторами программы являются российский инженер Владимир Веселов, проживающий в настоящее время в США, и украинец Евгений Демченко, который живёт сейчас в России.

Почему дискретная машина?

Еще одним спорным аспектом работы теста Тьюринга является то, что его обсуждение ограничено «цифровыми компьютерами»

С одной стороны, очевидно, что это важно лишь для прогноза, а не касается подробностей самого метода. Действительно, если тест достоверный, то он подойдет для любой сущности, в том числе для животных, инопланетян и аналоговых вычислительных устройств

С другой стороны, весьма спорно утверждение о том, что «думающие машины» должны быть цифровыми компьютерами. Также вызывает сомнения то, что так полагал сам Тьюринг. В частности стоит отметить, что седьмое возражение, рассматриваемое им, касается возможности существования машин непрерывных состояний, которые автор признает отличными от дискретных. Тьюринг утверждал, что даже если мы являемся автоматами непрерывных состояний, то дискретная машина сможет хорошо подражать нам в игре в имитацию. Однако кажется сомнительным, что его соображения достаточны для того, чтобы установить, что при наличии машин непрерывных состояний, прошедших тест, можно сделать дискретный конечный автомат, который также успешно справится с этим испытанием.

В целом, важным моментом представляется то, что хотя Тьюринг признавал наличие значительно более обширного класса машин, помимо дискретных конечных автоматов, он был уверен в том, что правильно спроектированный дискретный автомат может преуспеть в игре в имитацию.

Железо

Размышления о Тесте Тьюринга

Может ли машина мыслить?Можно  было бы  заметить, что  при «игре в имитацию»  не исключена возможность того,  что простое подражание поведению  человека не окажется для машины наилучшей стратегией.  Такой случай возможен, но я не думаю, чтобы он привел  нас к чему-нибудь существенно новому. Во всяком случае никто  не пытался исследовать теорию нашей игры в этом направлении, и  мы будем считать, что наилучшая стратегия для машины состоит в том, чтобы давать  ответы, которые в соответствующей обстановке дал бы человек.сознательно Если  бы человек попытался  притвориться машиной, то,  очевидно, вид у него был бы  весьма жалкий. Он сразу выдал бы  себя медлительностью и неточностью при  подсчетах.не должен2018-10-23 13:01:53,385 186 Player2Judge Стал бы человек вести себя как машина, чтобы обмануть другого человека?

  • машина имитирует человека как можно лучше — это ее основная цель в игре
  • человек ведет себя естественно

Запутанная судьба теста Тьюринга

После трагической смерти Тьюринга в 1954 году его тест начал жить собственной жизнью, стремительно эволюционируя. Разработчики программ пытались создать системы для его обхода, основывая свои проекты на расширении баз вариантов ответов и увеличивающемся количестве алгоритмов распознавания и использования ключевых слов.

Первая такая программа, под названием «Eliza», была создана Джозефом Вейценбаумом, ученым из MIT. Чат-бот Eliza, имитирующая работу психотерапевта, показала, как интеллект может симулировать с помощью простых скриптов. Позже весь проект вышел из-под контроля, и хотя он не прошел тест Тьюринга, многие люди разговаривали с Eliza, воспринимая ее как живого собеседника и хорошего специалиста. Для некоторых врачей и ученых это стало доказательством того, что алгоритмы действительно смогут помочь пациентам в будущем.


Чат-бот Eliza

Со временем программы принимали все более искаженную форму. В большинстве случаев они создавались специально для судей и периодически выдавали себя то за шизофреников, то за детей, чтобы замаскировать несовершенство своих ответов (!). Судьи, со своей стороны, готовили все более абсурдные наборы вопросов, просто чтобы заставить машину совершить какую-нибудь «механическую» ошибку. Все это, конечно же, не имело ничего общего с тестом Тьюринга.

Прошел ли ИИ тест Тьюринга?

Однозначного ответа на этот вопрос не существует. Во-первых, оригинальный тест Тьюринга был некой теоретической конструкцией, а не конкретной процедурой. Современный его вариант был многократно изменен и превратился в ловушку «китайской комнаты». Алгоритмы решают задачи в соответствии со строгими инструкциями, но нельзя утверждать, что они понимают, что делают. Благодаря заранее запрограммированным правилам и продуманным базам, алгоритмы способны дать несколько вариантов ответов, но ни один из них не является сознательным действием машины.

Широкое внедрение виртуальных помощников

Распространение ассистентов в повседневной жизни человека — еще одна возможность изменить прогресс развития ИИ.

В своей основе эти сервисы зависят от человеческих разговорных навыков, которые позволяют выполнять им как простые задачи (постановка будильника), так и сложные (планирование выходных). Однако, чтобы максимизировать их пользу, нужно двигаться к концепции Ambient AI, которая позволит системе отвечать на запросы при необходимости и предугадывать потребности. К примеру, Alexa может определить звук разбивающегося стекла и предупредить об этом. Если вы устанавливаете будильник перед сном, она советует выключить свет в других комнатах.

Помимо прочего, подобные системы также должны охватывать постоянно увеличивающееся количество задач. Это возможно лишь с более обобщенной способностью к обучению. Таким образом, в ближайшее десятилетие и в дальнейшем оценить прогресс в этой сфере поможет уровень практичности ИИ, способных общаться и активно оказывать помощь.

Все эти факты не принижают первоначальное видение Алана Тьюринга. Его концепция была разработана как мыслительный эксперимент, а не высший критерий полезности ИИ. Пришло время оставить тест Тьюринга в прошлом и вдохновиться смелой концепцией его создателя, чтобы ускорить прогресс в создании ИИ-систем, которые будут помогать людям.

Конкурс Лебнера

Мало кто сомневается, что Алан Тьюринг был бы разочарован положением дел с игрой в имитацию к концу ХХ века. Участники конкурса Лебнера (ежегодного мероприятия, в ходе которого компьютерные программы подвергаются тесту Тьюринга) далеки от стандарта, представленного основоположником информатики. Беглый взгляд на протоколы участников за последние десятилетия показывает, что машину можно легко обнаружить с помощью не очень изощренных вопросов. Более того, наиболее успешные игроки постоянно заявляют о сложности конкурса Лебнера по причине отсутствия компьютерной программы, которая бы могла вести достойный разговор в течение пяти минут. Общепризнанным является факт, что конкурсные приложения разрабатываются исключительно с целью получения малого приза, присуждаемого лучшему участнику года, и на большее они не рассчитаны.

Почему так легко?

Другие считают тест Тьюринга недостаточно требовательным. Существуют анекдотичные доказательства того, что совершенно бестолковые программы (например, ELIZA) могут казаться обычному наблюдателю обладателями интеллекта в течение достаточно продолжительного времени. Кроме того, за такое короткое время, как пять минут, вполне вероятно, что почти все интервьюеры могут быть обмануты хитрыми, но совершенно неразумными приложениями

Однако важно помнить, что программа тест Тьюринга не может пройти, обманув «простых наблюдателей» в иных условиях, чем те, в которых проверка должна происходить. Приложение должно быть в состоянии выдержать допрос того, кто знает, что один из двух других участников беседы является машиной

Кроме того, программа должна выдерживать такой допрос с высокой степенью успешности после многократного числа испытаний. Тьюринг не упоминает о том, какое конкретно количество тестов потребуется. Однако можно смело предположить, что их число должно быть достаточно большим, чтобы можно было говорить о среднем значении.

Если программа способна на это, то кажется правдоподобным утверждение, что мы, по крайней мере предварительно, будем иметь основания предполагать присутствие интеллекта. Возможно, стоит подчеркнуть еще раз, что может существовать умный субъект, в том числе и умный компьютер, тест Тьюринга пройти не сумевший. Можно допустить, например, существование машин, которые отказываются лгать по моральным соображениям. Поскольку предполагается, что участник-человек должен делать все возможное, чтобы помочь интервьюеру, то вопрос «Вы – машина?» позволит быстро отличить таких патологически правдивых субъектов от людей.

Как программа «Евгений Густман» прошла тест Тьюринга?

В субботу 7 июня 2014 года суперкомпьютер по имени Eugene попытался воссоздать интеллект тринадцатилетнего подростка — Евгения Густмана.

В тестировании, организованном Школой системной инженерии при Университете Рединга (Великобритания), участвовали пять суперкомпьютеров. Испытание представляло собой серию пятиминутных письменных диалогов.

Разработчикам программы удалось подготовить бота ко всем возможным вопросам и даже обучить его собирать примеры диалогов через Twitter. Кроме того, инженеры наделили героя ярким характером. Притворяясь 13-летним мальчиком, виртуальный «Евгений Густман» не вызывал сомнений у экспертов. Они поверили в то, что мальчик может не знать ответы на многие вопросы, ведь уровень знаний у среднего ребёнка существенно ниже, чем у взрослых. При этом его правильные и точные ответы списывали на необычную эрудицию и начитанность.

В тесте участвовали 25 «скрытых» людей и 5 чат-ботов. Каждый из 30-ти судей провёл по пять чат-сессий, пытаясь определить реальную природу собеседника. Для сравнения, в традиционном ежегодном конкурсе программ искусственного интеллекта на премию Лёбнера* участвует всего 4 программы и 4 скрытых человека.

Впервые программа с «юным одесситом» появилась ещё в 2001 году. Однако лишь в 2012 году она показала действительно серьёзный результат, убедив 29 % судей.

Данный факт доказывает, что в скором будущем, появятся програмы, которые будут способны без проблем пройти тест Тьюринга.

Преимущества и недостатки теста Тьюринга

Вернемся к тому времени, когда Тьюринг впервые изложил свою диссертацию. В 1950 году первый коммерческий компьютер еще не был продан, материалы по волоконно-оптическим кабелям будут опубликованы лишь спустя четыре года, а сфера ИИ формально не существовала — это произошло лишь в 1956 году.

У современного смартфона в 100 тысяч раз больше вычислительной мощности, чем у космического корабля «Аполлон-11», который совершил первую посадку на Луну. Кроме того, благодаря облачным технологиям и высокоскоростному подключению сейчас ИИ может принимать решения на основе огромного количества данных в считанные секунды.

И хотя первоначальная концепция Тьюринга по-прежнему остается вдохновляющей, его тест все же ограничен эпохой, в которую он был представлен. На это указывают несколько факторов:

  • Он не учитывает одни из самых эффективных функций современных ИИ — высокую скорость вычисления и поиска информации. Чтобы обмануть человека и пройти этот тест, ИИ нужно делать паузы, когда он отвечает на сложные вопросы. Например, «Каков кубический корень из 3434756?» или «Какое расстояние между Сиэтлом и Бостоном?». В действительности ИИ уже знает эти ответы и готов предоставить их мгновенно. Добавление паузы, которая позволить его очеловечить, — не лучший способ применения его возможностей.
  • Он ограничен текстом. Тест не учитывает растущую способность ИИ использовать сенсоры, чтобы слышать, видеть и чувствовать внешний мир.

Полезными современные ИИ-системы делает способность эффективно выполнять повседневные задачи. Чтобы выключить свет в гараже, человеку не нужно вести беседу с виртуальным ассистентом. Ему достаточно выполнения запроса и простого уведомления в стиле «Выключаю» или «Готово».

Даже если вы разговариваете с ИИ-помощником на популярные темы или просите его прочитать сказку для ребенка, вы все же хотите знать, что взаимодействуете с машиной, а не с человеком. На деле такой обман представляет собой некоторые риски. Уже сейчас можно наблюдать ботов, рассылающих дезинформацию, и растущее количество deepfake-технологий.

Правила игры

  1. Каждый подключившийся к боту участник может взять на себя роль игрока, отвечающего на вопросы, или судьи, эти вопросы задающего.
  2. Если участник решил быть судьей, то бот случайным образом подбирает ему игрока – либо среди людей-игроков, либо подключает робота. То есть в игре отвечающий всегда один, и судья задает вопросы только ему.
  3. Если участник решил быть игроком, то бот аналогично ищет ему в пару участника-судью.
  4. Игра поделена на туры по 5 вопросов. По окончанию каждого тура судья принимает решение, с кем он общается, с человеком или с машиной — на этом игра заканчивается. Если он не может определиться, то может начать следующий тур или сдаться, прекратив игру.
  5. Робот играет роль маленького мальчика Миши пяти лет. Чтобы судье не облегчать задачу, человеку-игроку рекомендуется тоже отвечать от имени Миши.
  • решение «робот» — 74
  • решение «человек»- 41
  • решение «робот» (на самом деле человек) — 15
  • решение «человек» (на самом деле робот) — 11

конкурсе в 2012 годубота-одессита Женю Густмана

Что под капотом

  • собственно бот с движком игры
  • диспетчер роботов
  • робот
  • Начало игры
  • Ждём вопроса от судьи
  • Ждём ответа от игрока
  • Ждём решения от судьи
  • Игра закончена

galqiwi

pymorphy2kmikeYARN

  1. Проверяет, известен ли ему вопрос. Если известен, то выбирает один из подходящих ответов.
  2. Иначе разбивает вопрос на токены-слова, также находит им синонимы в нормальной форме, отбирает среди известных вопросов те, в которых есть найденные слова, и уже из найденных вопросов выбирает наиболее вероятные по количеству совпадений. И выдает подходящий ответ.

Словарь Вильяма Шекспира, по подсчёту исследователей, составляет 12000 слов. Словарь негра из людоедского племени «Мумбо-Юмбо» составляет 300 слов. Эллочка Щукина легко и свободно обходилась тридцатью.

Новые способы измерения способностей ИИ

Вместо того, чтобы стремится к созданию неотличимых от человека ИИ, стоит сосредоточиться на разработке систем, которые расширят границы человеческого интеллекта и улучшат нашу повседневную жизнь, создав равноправную и инклюзивную среду.

Основная цель должна заключаться в создании алгоритма, который объединяет такие человеческие качества, как здравый смысл, самоконтроль и владение языком, с машинной эффективностью — быстрым поиском, воспроизводимостью памяти и выполнением повседневных задач. Это позволит выйти за рамки того, на что способен обычный человек.

Текущие исследования направлены на действительно важные области ИИ:

  • понимание с помощью сенсоров;
  • поддержание беседы;
  • расширение и углубление знаний;
  • эффективное обучение;
  • мышление для принятия решений;
  • устранение любых неуместных предвзятостей и предрассудков, чтобы достичь объективности. 

Развитие этих направлений можно измерить несколькими способами.

  • Разбить задачу на несколько составных частей. Например, в Abstraction and Reasoning Challenge от Kaggle ИИ-системы соревнуются в решении задач, с которыми они раньше не сталкивались.
  • Разработать крупномасштабную задачу, в которой будут взаимодействовать человек и машина. Среди таких Alexa Prize Socialbot Grand Challenge — соревнование для студентов, посвященное развитию технологий разговорного ИИ. Умные боты должны последовательно и интересно общаться с людьми в течение 20 минут на популярные темы, такие как развлечения, спорт, политика и технологии. Пользователям нужно оценить, насколько бы они хотели пообщаться с ботом снова. В финале независимые судьи присуждают участникам оценку по пятибалльной шкале. Набравшие 4.0 и выше должны выполнить Grand Challenge, однако до этого этапа еще не удалось добраться никому. 

Этот метод стимулирует разработку ИИ, обладающих способностью поддержать разговор с помощью нейронных методов, основанных на глубоком обучении. Они позволяют машине проявлять эмпатию и наделяют ее чувством юмора, при этом не заставляя ее притворяться человеком.

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Советчик
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: