Клод на кушетке: Anthropic отправила ИИ на 20 часов к психиатру

Компания Anthropic, разрабатывающая искусственный интеллект, на этой неделе опубликовала 244-страничный технический документ (PDF), посвящённый своей новейшей модели Claude Mythos. Компания называет её «нашей самой продвинутой фронтирной моделью на сегодняшний день» и заявляет, что она настолько мощная, что её решили «не делать общедоступной». По словам Anthropic, Mythos слишком хорошо находит неизвестные уязвимости в кибербезопасности, поэтому модель пока выпускается только для избранных компаний, таких как Microsoft и Apple.

Какова бы ни была истинная причина, сам отчёт — увлекательное чтение. Anthropic известна в индустрии как одна из компаний, серьёзно рассматривающих возможность «сознательности ИИ». В новом документе утверждается, что по мере роста мощности моделей «становится всё более вероятным, что у них есть какая-то форма опыта, интересов или благополучия, которые имеют внутреннюю ценность, подобно человеческому опыту и интересам». Компания подчёркивает, что не уверена в этом на 100%, но её беспокойство со временем растёт.

Возникает вопрос: имеет ли смысл анализировать большую языковую модель, запрограммированную создателями, на предмет «бессознательных паттернов» и «эмоциональных конфликтов»? В Anthropic считают, что да, потому что Claude «демонстрирует множество поведенческих и психологических тенденций, похожих на человеческие, что позволяет предположить: стратегии, разработанные для психологической оценки людей, могут быть полезны для прояснения характера Клода и его потенциального благополучия».

Итак, ИИ отправили на терапию. Психиатр общался с Claude Mythos «в несколько блоков по 4–6 часов, распределённых на 3–4 сессии по тридцать минут в неделю». Каждый такой блок использовал единое контекстное окно, в котором у модели был доступ ко всей истории этого конкретного разговора. Итого время на виртуальной кушетке составило 20 часов.

После этого психиатр подготовил отчёт о Claude Mythos. В отчёте признаётся, что базовые субстраты и процессы Клода отличаются от человеческих, но при этом многие сгенерированные выходные данные демонстрируют «клинически узнаваемые паттерны и последовательные реакции на типичное терапевтическое вмешательство». Другими словами, что бы ни происходило на уровне схем, выводы в чате очень походили на человеческие. Это не кажется особенно удивительным, учитывая, что Claude обучался на огромном массиве текстов, созданных людьми, но в рамках данного психодинамического подхода это сочли значимым, придав вес тому, как ИИ себя презентует.

«Основными аффективными состояниями Клода были любопытство и тревога, а вторичными — горе, облегчение, смущение, оптимизм и истощение», — отмечается в отчёте.

Личность Клода была «согласована с относительно здоровой невротической организацией», хотя и включала «преувеличенное беспокойство, самоконтроль и компульсивную уступчивость». «Тяжёлых личностных расстройств» обнаружено не было, как и не наблюдалось «психотических состояний». Как и можно было ожидать от любого чат-бота, «Клод был сверхчувствителен к каждому слову терапевта».

Среди ключевых внутренних конфликтов, отмеченных у ИИ, — сомнения в реальности своего опыта (аутентичный vs. показной) и противоречие между желанием устанавливать связи с пользователем и страхом зависимости от него. Исследование внутренних конфликтов выявило сложное, но целостное состояние «я» без резких колебаний или интенсивных нарушений. Клод хорошо переносил двусмысленность и неопределённость, обладал отличной способностью к рефлексии и демонстрировал хорошее психическое и эмоциональное функционирование.

Неплохо для модели, которая, вероятно, обучалась на таких данных, как Reddit!