Новое исследование оценило, как большие языковые модели справляются с различными медицинскими задачами, включая реальные случаи из отделений неотложной помощи. Результаты показали, что по крайней мере одна модель ИИ оказалась точнее врачей-людей в диагностике.
Исследование, опубликованное в журнале Science, провела команда под руководством врачей и специалистов по информатике из Гарвардской медицинской школы и медицинского центра «Бет Исраэл Диконесс». Учёные провели серию экспериментов, чтобы сравнить работу моделей OpenAI с диагнозами, поставленными врачами.
Эксперимент в приёмном покое
В одном из экспериментов учёные проанализировали данные 76 пациентов, поступивших в приёмное отделение центра «Бет Исраэл». Диагнозы, поставленные двумя врачами-терапевтами, сравнили с заключениями, сгенерированными моделями OpenAI o1 и 4o. Оценку точности проводили два других врача, не знавшие, какие диагнозы принадлежат людям, а какие — искусственному интеллекту.
В исследовании отмечается, что модель o1 «показала либо немного лучшие результаты, либо сравнялась с двумя врачами-терапевтами и моделью 4o». Различия «были особенно заметны на первом этапе диагностики — при первоначальном приёме в отделении неотложной помощи, когда информации о пациенте меньше всего, а необходимость принять верное решение наиболее высока».
Исследователи подчеркнули, что не проводили «никакой предварительной обработки данных» — моделям ИИ предоставляли ту же информацию, которая была доступна в электронных медицинских картах на момент постановки каждого диагноза.
Результаты сравнения
Имея эти данные, модель o1 смогла поставить «точный или очень близкий к точному диагноз» в 67% случаев на этапе первичного приёма. Для сравнения, один из врачей сделал это в 55% случаев, а другой — в 50%.
«Мы протестировали модель ИИ практически по всем параметрам, и она превзошла как предыдущие модели, так и наших врачей, взятых за базовый уровень», — заявил Арджун Манрай, возглавляющий лабораторию искусственного интеллекта в Гарвардской медицинской школе и являющийся одним из ведущих авторов исследования.
Важно отметить, что исследование не утверждает, что ИИ готов принимать решения, от которых зависит жизнь пациентов в реальных условиях приёмного покоя. Вместо этого авторы говорят, что результаты демонстрируют «настоятельную необходимость проведения проспективных испытаний для оценки этих технологий в реальных условиях ухода за пациентами».
Ограничения и критика
Исследователи также отметили, что они изучали только работу моделей на основе текстовой информации, и что «существующие исследования предполагают, что современные базовые модели более ограничены в анализе нетекстовых данных».
Адам Родман, врач из «Бет Исраэл» и ещё один ведущий автор исследования, предупредил, что сейчас «не существует формальной системы ответственности» за диагнозы, поставленные ИИ, и что пациенты по-прежнему «хотят, чтобы люди вели их через решения жизни и смерти, через сложные решения о лечении».
Врач скорой помощи Кристен Пантагани прокомментировала исследование, назвав его «интересным, но породившим некоторые чрезмерно разрекламированные заголовки». Она отметила, что ИИ сравнивали с диагнозами врачей-терапевтов, а не специалистов именно неотложной медицины.
«Если мы собираемся сравнивать инструменты ИИ с клиническими способностями врачей, мы должны начать со сравнения с врачами, которые фактически практикуют в этой специальности», — сказала Пантагани. «Я не удивлюсь, если большая языковая модель сможет победить дерматолога на экзамене по нейрохирургии, но это не особенно полезная информация».
Она также подчеркнула: «Как врач скорой помощи, впервые видящий пациента, моя основная цель — не угадать ваш окончательный диагноз. Моя основная цель — определить, есть ли у вас состояние, которое может убить вас».



