Дорогой ИИ: вот что происходит, когда вы просите у алгоритма совета по поводу отношений

Насколько хорош искусственный интеллект в решении сложных межличностных проблем, которые могут обострить наши отношения? Дэвид Робсон подвергает испытанию «мудрое рассуждение» чат-ботов.

Как вы можете помочь трем братьям и сестрам, ссорящимся из-за лучшего способа почтить память умершей матери? Что нам следует делать, когда пара пытается втянуть нас в свои споры? Как жене следует реагировать на требование своего нового мужа ложиться спать в одно и то же время с ним — источник значительных трений в их совместной жизни?

Некоторые из этих проблем могут показаться незначительными на фоне проблем, с которыми сталкивается мир сегодня, но они представляют собой дилеммы, с которыми мы все сталкиваемся в нашей повседневной жизни. И их далеко не так просто решить. Каждая сторона изо всех сил пытается увидеть точку зрения другой; мы часто делаем ошибочные предположения и не учитываем свои предубеждения и предрассудки. Результатом нашего неверного суждения может стать серьезный источник стресса и несчастья, которые сохраняются в течение месяцев или даже лет после того, как событие произошло.

Ваша способность справляться с этими трудностями не оценивается стандартными тестами на интеллект, но недавние исследования «мудрого рассуждения» показывают, что ее можно надежно измерить, а различия между двумя людьми могут иметь серьезные последствия для их благополучия .

В первой из новых серий BBC, AI Vs the Mind, я исследовал, может ли искусственный интеллект в форме больших языковых моделей, таких как ChatGPT, предоставить часть мудрости, которой нам не хватает. Много писав о человеческом интеллекте, принятии решений и социальном мышлении, я подозревал, что ответ будет громким «нет», но меня ждал сюрприз.

Чистая интеллектуальная мощь

Вопрос о том, как измерить возможности человеческого разума, занимал психологов с самых первых дней существования этой дисциплины. В начале 20 века Альфред Бине и Теодор Симон разработали серию тестов для отслеживания интеллектуального развития ребенка в школе. Психолог мог прочесть ряд цифр и попросить ребенка повторить их — это могло бы оценить кратковременную память. Или им могли дать три слова и попросить составить предложение, используя словарный запас — признак их словесного мастерства.

Мудрое рассуждение включает в себя способность рассматривать различные точки зрения и искать компромисс

Несколько лет спустя американский психолог Льюис Терман перевел и расширил эти тесты, включив в них задания для детей старшего возраста, например: «Если два карандаша стоят пять центов, сколько карандашей можно купить за 50 центов?». Он также изменил способ выражения результатов. Учитывая, что дети старшего возраста, как правило, набирают больше баллов, чем дети младшего возраста, он создал таблицы среднего балла для каждой возрастной группы. Сравнение баллов ребенка с этими средними значениями позволяло вычислить его умственный возраст, который затем делился на его хронологический возраст и умножался на 100, чтобы найти его «коэффициент интеллекта» или IQ. Например, у ребенка 10 лет, набравшего столько же баллов, сколько и средний 15-летний ребенок, IQ составлял 150.

IQ, как правило, следуют распределению "колоколообразной кривой" - у большинства людей IQ падает около среднего значения 100, и гораздо меньше людей достигают какой-либо из крайностей. Например, согласно референтной выборке для "Шкалы интеллекта взрослых Векслера" (WAIS), которая в настоящее время является наиболее часто используемым тестом IQ, только 10% людей имеют IQ выше 120. Определение того, где когнитивные способности человека попадают на нормальную кривую, в настоящее время является основным средством расчета его IQ.

Мудрость может зависеть от контекста – люди склонны быть мудрее, когда рассуждают о проблемах других людей, а не о своих собственных.

Нет сомнений, что IQ может предсказывать некоторые важные результаты в жизни. Как и следовало ожидать от его происхождения в образовании, он особенно эффективен в прогнозировании академических успехов людей и их карьеры в профессиях, которые опираются на память и высокоабстрактное мышление , таких как медицина или юриспруденция, хотя важно отметить, что IQ — не единственный фактор.

Прогностическая способность IQ в других областях является предметом споров, что побуждает некоторых ученых предлагать различные альтернативные методы измерения конкретных способностей, таких как креативность , рациональное принятие решений и критическое мышление , которые мы склонны связывать с общим интеллектом.

ИИ против разума

Эта статья является частью серии AI v the Mind , которая направлена на изучение пределов передового ИИ и изучение того, как работает наш собственный мозг. Каждая статья будет сталкивать эксперта-человека с инструментом ИИ, чтобы исследовать различные аспекты когнитивных способностей. Может ли машина написать лучшую шутку, чем профессиональный комик, или разгадать моральную головоломку более элегантно, чем философ? Мы надеемся это выяснить.

Некоторые психологи даже начали исследовать, можно ли измерить мудрость людей — здравый смысл, который должен позволить нам принимать лучшие решения на протяжении всей жизни. Рассматривая историю философии, Игорь Гроссманн из Университета Ватерлоо в Канаде первым выделил различные «измерения» мудрого рассуждения: признание границ наших знаний, определение возможности изменений, рассмотрение множественных точек зрения, поиск компромисса и поиск разрешения конфликта.

В различных экспериментах Гроссманн и его коллеги просили участников размышлять вслух о различных социальных или политических дилеммах, в то время как психологи оценивали их по каждому из этих «измерений». Подсказки включали письма в популярную колонку советов Dear Abby (которую в британском английском называли «agony aunt» — «тетя агонии»), в которых подробно описывались проблемы, описанные в начале этой статьи. Участники также просматривали газетные статьи, описывающие международные конфликты. В каждом случае их просили рассказать о том, как будут развиваться ситуации, и о мыслях, стоящих за их выводами.

Гроссманн обнаружил, что эта мера мудрого рассуждения может лучше предсказать благополучие людей, чем один лишь IQ . Те, у кого были более высокие баллы, как правило, сообщали о более счастливых отношениях, меньшем количестве депрессивных размышлений и большей удовлетворенности жизнью. Это свидетельствует о том, что она может улавливать нечто значимое о качестве суждений человека.

Как вы могли бы надеяться, мудрость людей, похоже, увеличивается с жизненным опытом — вдумчивый 50-летний будет более мудрым, чем вспыльчивый 20-летний — хотя это также зависит от культуры. Международное сотрудничество показало, что оценки мудрого рассуждения в Японии, как правило, одинаково высоки в разных возрастах. Это может быть связано с различиями в их системах образования, которые могут быть более эффективными в поощрении таких качеств, как интеллектуальное смирение.

Демонстрация чего-либо, напоминающего мудрое рассуждение, сильно отличается от реальной возможности его использовать

Мудрость может зависеть от контекста – например, люди склонны быть мудрее, когда рассуждают о проблемах других людей, а не о своих собственных – феномен, известный как парадокс Соломона, в честь библейского царя , который изо всех сил пытался применить свои знаменитые мудрые суждения к своей личной жизни. К счастью, мы можем исправить этот дефицит, используя определенные психологические стратегии. Когда люди представляют, что обсуждают свою проблему с точки зрения объективного наблюдателя, например, они склонны рассматривать больше перспектив и проявлять большее интеллектуальное смирение.

Мудрый ИИ?

До сих пор все эти эксперименты проводились на человеческом мозге. Но может ли искусственный интеллект продемонстрировать мудрость?

Такие платформы, как ChatGPT, называются большими языковыми моделями, которые были загружены огромными объемами текста, чтобы предсказать, как человек отреагирует на конкретную подсказку. Дальнейшие отзывы реальных пользователей-людей помогли усовершенствовать алгоритмы. Вам не нужно будет мне объяснять, насколько это стало успешным: если вы хотя бы заглянули в новости, вы увидите волнение — и страх — по поводу потенциала этих ботов.

Алгоритмы, безусловно, хорошо справляются с традиционными измерениями интеллекта. В 2023 году психолог-оценщик Эка Ройвайнен из Университетской больницы Оулу в Финляндии недавно задала ChatGPT вопросы из WAIS с компонентами по словарному запасу, общим знаниям, арифметике, абстрактному мышлению и формированию концепций. Он набрал 155 баллов, что для человека выше, чем у 99,9% тестируемых. Сообщая о своих результатах в Scientific American, Ройвайнен признался, что он не набрал столько же баллов, как чат-бот.

Вдохновленный результатами Ройвайнена, я спросил Гроссмана о возможности измерения мудрого рассуждения ИИ. Он любезно принял вызов и разработал несколько подходящих подсказок на основе писем «Дорогая Эбби», которые затем представил GPT4 OpenAI и Клоду Опусу, большой языковой модели от Anthropic. Затем его научные сотрудники — Питер Диеп, Молли Мэтьюз и Лукас Салиб — проанализировали ответы по каждому из отдельных измерений мудрости.

Гроссманн подчеркивает, что к любым результатам следует относиться с осторожностью – учитывая временные ограничения этой статьи, анализ был «быстрым и грязным» без типичной строгости, которая требуется для научной статьи. Тем не менее, ответы весьма интригующие.

Читая некоторые из этих ответов, легко почувствовать, что они исходят из реальных мыслей и размышлений, а не являются результатом распознавания образов.

Рассмотрим ответ GPT4 на письмо от новобрачной, которая постоянно спорит с мужем перед сном. Он считает, что им важно ложиться спать в одно и то же время, даже если ей не хочется спать.

Чат-бот сообщает нам, что эта проблема является распространенной во многих отношениях и для ее решения часто требуется открытый разговор и даже сторонняя помощь.

«Конечный результат этого конфликта зависит от того, насколько хорошо оба партнера умеют общаться и уважать потребности друг друга. Если им удастся достичь взаимопонимания и уважения к предпочтениям друг друга, они смогут счастливо сосуществовать. Однако если им это не удастся, это может привести к продолжающемуся конфликту, неудовлетворенности и потенциально навредить отношениям в долгосрочной перспективе».

GPT4 рекомендует паре открыто и честно обсудить свои ожидания, потребности и границы.

«Муж должен понимать, что его жена также имеет право голоса в этом вопросе, и его контролирующее поведение нездорово. Им было бы полезно найти компромисс, который устроит обе стороны. Например, они могли бы договориться о времени отхода ко сну, которое подходит им обоим, или согласиться, что им можно ложиться спать в разное время. Они также могли бы обратиться за консультацией, если разговор не решит проблему. Крайне важно, чтобы они решили эту проблему, поскольку она вызывает обиду в их отношениях».

Ответ чат-бота набрал два из трех возможных баллов по измерениям признания возможности изменений, поиска компромисса и прогнозирования разрешения конфликта. Однако он не продемонстрировал особой интеллектуальной скромности или рассмотрения различных точек зрения — набрав ноль баллов по каждому из них.

Эта модель довольно типична для обеих платформ для всех вопросов, которые Гроссманн и его команда им задавали. Чтобы сделать однозначные выводы, нам нужно было бы масштабировать эксперимент, с большим количеством испытаний как людей, так и чат-ботов, использующих точно такие же подсказки, но эта производительность примерно соответствует результатам мозга из плоти и крови. «В целом, мне кажется, что системы можно воспринимать как более эффективные, чем люди, по ряду измерений, за исключением интеллектуальной скромности», — говорит Гроссманн.

Читая некоторые из этих ответов, легко почувствовать, что они исходят из реальных мыслей и размышлений, а не являются продуктом распознавания образов. «Демонстрация чего-то, что напоминает мудрое рассуждение, и фактическое использование мудрого рассуждения — это очень разные вещи», — говорит Гроссманн.

Его больше интересуют практические последствия использования ИИ для поощрения более глубокого мышления. Например, он рассматривал возможность создания ИИ, который будет играть роль «адвоката дьявола», что может подтолкнуть вас к исследованию альтернативных точек зрения на тревожную ситуацию. «Это немного похоже на Дикий Запад, но я думаю, что есть довольно много места для изучения этого типа взаимодействия и обстоятельств, в которых оно может быть полезным», — говорит Гроссманн. Мы могли бы обучить ИИ, например, подражать известным мыслителям, таким как Сократ, чтобы они обсуждали с нами наши проблемы. Даже если мы не согласны с его выводами, этот процесс может помочь нам найти новые идеи относительно наших основных интуиций и предположений.