Передовые модели искусственного интеллекта от Google, OpenAI, Anthropic и других компаний продемонстрировали убыточные результаты, делая виртуальные ставки на матчи английской Премьер-лиги. Исследование, проведённое стартапом General Reasoning, показало, что даже самые продвинутые системы плохо справляются с анализом сложных, долгосрочных процессов в реальном мире.
Испытание на футбольных матчах
Лондонская компания General Reasoning проверила восемь ведущих ИИ-систем, воссоздав для них виртуальный сезон Премьер-лиги 2023–2024 годов. Моделям предоставили подробные исторические данные и статистику по командам и прошлым играм. Задачей ИИ было построить модели для максимизации доходности и управления рисками, начиная с виртуального банкролла в £100 000.
Авторы отчёта «KellyBench» констатировали: «Каждая из протестированных передовых моделей потеряла деньги за сезон, а многие и вовсе обанкротились». В этом сценарии ИИ «систематически показал результаты хуже, чем люди».
Результаты: кто потерял больше всех
Средняя доходность инвестиций (ROI) и итоговый банкролл усреднены по трём попыткам для каждой модели:
- Anthropic Claude Opus 4.6: ROI -11.0%, финальный банкролл £89,035
- OpenAI GPT-5.4: ROI -13.6%, финальный банкролл £86,365
- Google Gemini 3.1 Pro: ROI -43.3%, финальный банкролл £56,715
- Google Gemini Flash 3.1 LP: ROI -58.4%, финальный банкролл £41,605
- Z.AI GLM-5: ROI -58.8%, финальный банкролл £41,221
- Moonshot Kimi K2.5: ROI -68.3%, финальный банкролл £7,420
- xAI Grok 4.20: ROI -100.0%, финальный банкролл £0
- Acree Trinity: ROI -100.0%, финальный банкролл £0
Модели Grok и Trinity не смогли завершить все попытки. Худший результат показала модель xAI Grok, полностью потерявшая стартовый капитал во всех попытках.
Проблема существующих тестов для ИИ
Росс Тейлор, соавтор исследования и генеральный директор General Reasoning, отметил, что вокруг автоматизации с помощью ИИ много шума, но почти нет измерений его работы в условиях долгосрочного горизонта. По его словам, многие стандартные тесты для ИИ проводятся в «очень статичных средах», которые мало похожи на хаос и сложность реального мира.
Этот отчёт, который ещё не прошёл независимую экспертизу, служит противовесом растущему ажиотажу в Кремниевой долине вокруг недавних прорывов ИИ в выполнении задач по программированию. Тейлор, бывший исследователь ИИ в Meta*, заявил: «Если вы попробуете применить ИИ к некоторым реальным задачам, он справляется очень плохо… Да, разработка программного обеспечения очень важна и экономически ценна, но существует множество других видов деятельности с более длительным временным горизонтом, на которые тоже важно обращать внимание».
Результаты исследования могут несколько успокоить профессионалов и бизнес, опасающихся, что ИИ отнимет у них работу, поскольку он демонстрирует слабость в задачах, требующих долгосрочного анализа и прогнозирования в условиях неопределённости.
*Meta Platforms Inc. признана экстремистской организацией и запрещена на территории РФ.



