Сколько букв «P» в слове Google? По мнению самого Google, две. ИИ-обзоры поисковика также утверждают, что в слове «poop» «ровно 1 буква ‘r'», а в слове «journalism» две буквы ‘d’, после чего пишут его как j-o-u-r-n-a-d-i-s-m. С фамилией президента США система справилась чуть лучше, распознав одну букву P, но написав её как t-r-p-u-m.
Предсказать, что перестройка поиска Google с упором на искусственный интеллект пройдёт неудачно, не требовало особого дара предвидения. Мы уже проходили это. Когда Google впервые добавил AI Overviews в поиск, функция начала цитировать сатирические посты из The Onion и Reddit, советуя людям есть камни и наносить клей на пиццу.
Теперь, когда Google удваивает усилия, чтобы сделать генеративный ИИ центральным элементом своего 29-летнего флагманского продукта, неудивительно наблюдать новые промахи.
«Подсчёт букв в словах — известная проблема для больших языковых моделей, и мы работаем над её решением», — заявили в Google в письменном комментарии для TechCrunch.
Эти базовые орфографические ошибки кажутся знакомыми. Большие языковые модели, тот вид искусственного интеллекта, который работает в чат-ботах и других генераторах текста, изначально не созданы для понимания правописания. Уже несколько лет ходит шутка, что при анонсе новой ИИ-модели нужно спросить её, сколько букв ‘r’ в слове «strawberry». Эти модели, способные за секунды написать код приложения или решить задачи, десятилетиями ставившие в тупик математиков, в орфографии примерно так же сильны, как дошкольник.
Проблемы ИИ-обзоров Google выходят за рамки забавных орфографических ошибок. Компания уже исправила баг с прошлой недели, когда поиск слова «disregard» выдавал то, что выглядело как словарное определение, но сам текст определения был: «Понял. Дайте знать, когда у вас будет новый запрос или вопрос!». Однако орфографические ошибки остаются забавными, потому что их так сложно искоренить.
Как объясняли ранее исследователи, ИИ не воспринимает предложения как языковые единицы, состоящие из слов и букв. Многие большие языковые модели построены на архитектуре трансформеров, которая разбивает текст на токены — целые слова, слоги или отдельные буквы в зависимости от модели. Вместо того чтобы «читать» как человек, ИИ преобразует текст в числовые представления, которые затем контекстуализируются, чтобы помочь системе сформировать логичный ответ.
«Большие языковые модели основаны на архитектуре трансформеров, которая, что важно, на самом деле не читает текст. Когда вы вводите запрос, он переводится в кодировку», — пояснил Мэттью Газдиэл, исследователь ИИ и доцент университета Альберты. — «Когда модель видит слово ‘the’, у неё есть одно кодированное представление того, что значит ‘the’, но она не знает о буквах ‘T’, ‘H’, ‘E’.»
Токенизированная архитектура, лежащая в основе больших языковых моделей, таких как AI Overviews от Google, по своей сути ограничена, и исследователи не слишком оптимистичны в отношении решения проблемы с правописанием.
«Довольно сложно обойти вопрос о том, чем именно должно быть ‘слово’ для языковой модели, и даже если бы эксперты-люди согласовали идеальный словарь токенов, модели, вероятно, всё равно находили бы полезным ‘дробить’ вещи ещё дальше», — отметила Шеридан Фойхт, аспирант, изучающий интерпретируемость больших языковых моделей в Северо-Восточном университете. — «Моя догадка в том, что идеального токенизатора не существует из-за этой размытости».
Это не обязательно является срочной проблемой для исследователей, поскольку полезность больших языковых моделей заключается не в их способности писать без ошибок. Но эти вопиющие провалы помогают нам помнить, что ИИ не идеален, даже если иногда кажется всезнающей силой, превосходящей наше понимание. Мы не можем слепо доверять результатам ИИ, не перепроверяя их точность.



