ИИ провалил футбольные ставки: исследование показало, что модели уступают людям в анализе реального мира

Передовые модели искусственного интеллекта от Google, OpenAI, Anthropic и других компаний продемонстрировали убыточные результаты, делая виртуальные ставки на матчи английской Премьер-лиги. Исследование, проведённое стартапом General Reasoning, показало, что даже самые продвинутые системы плохо справляются с анализом сложных, долгосрочных процессов в реальном мире.

Испытание на футбольных матчах

Лондонская компания General Reasoning проверила восемь ведущих ИИ-систем, воссоздав для них виртуальный сезон Премьер-лиги 2023–2024 годов. Моделям предоставили подробные исторические данные и статистику по командам и прошлым играм. Задачей ИИ было построить модели для максимизации доходности и управления рисками, начиная с виртуального банкролла в £100 000.

Авторы отчёта «KellyBench» констатировали: «Каждая из протестированных передовых моделей потеряла деньги за сезон, а многие и вовсе обанкротились». В этом сценарии ИИ «систематически показал результаты хуже, чем люди».

Результаты: кто потерял больше всех

Средняя доходность инвестиций (ROI) и итоговый банкролл усреднены по трём попыткам для каждой модели:

  • Anthropic Claude Opus 4.6: ROI -11.0%, финальный банкролл £89,035
  • OpenAI GPT-5.4: ROI -13.6%, финальный банкролл £86,365
  • Google Gemini 3.1 Pro: ROI -43.3%, финальный банкролл £56,715
  • Google Gemini Flash 3.1 LP: ROI -58.4%, финальный банкролл £41,605
  • Z.AI GLM-5: ROI -58.8%, финальный банкролл £41,221
  • Moonshot Kimi K2.5: ROI -68.3%, финальный банкролл £7,420
  • xAI Grok 4.20: ROI -100.0%, финальный банкролл £0
  • Acree Trinity: ROI -100.0%, финальный банкролл £0

Модели Grok и Trinity не смогли завершить все попытки. Худший результат показала модель xAI Grok, полностью потерявшая стартовый капитал во всех попытках.

Проблема существующих тестов для ИИ

Росс Тейлор, соавтор исследования и генеральный директор General Reasoning, отметил, что вокруг автоматизации с помощью ИИ много шума, но почти нет измерений его работы в условиях долгосрочного горизонта. По его словам, многие стандартные тесты для ИИ проводятся в «очень статичных средах», которые мало похожи на хаос и сложность реального мира.

Этот отчёт, который ещё не прошёл независимую экспертизу, служит противовесом растущему ажиотажу в Кремниевой долине вокруг недавних прорывов ИИ в выполнении задач по программированию. Тейлор, бывший исследователь ИИ в Meta*, заявил: «Если вы попробуете применить ИИ к некоторым реальным задачам, он справляется очень плохо… Да, разработка программного обеспечения очень важна и экономически ценна, но существует множество других видов деятельности с более длительным временным горизонтом, на которые тоже важно обращать внимание».

Результаты исследования могут несколько успокоить профессионалов и бизнес, опасающихся, что ИИ отнимет у них работу, поскольку он демонстрирует слабость в задачах, требующих долгосрочного анализа и прогнозирования в условиях неопределённости.

*Meta Platforms Inc. признана экстремистской организацией и запрещена на территории РФ.