OpenAI представила GPT-Rosalind — языковую модель, обученную для биологических исследований

Компания OpenAI анонсировала запуск новой крупной языковой модели, специально обученной для работы с распространёнными биологическими задачами. Модель, названная GPT-Rosalind в честь биофизика Розалинд Франклин, отличается от более общих научных решений, предлагаемых другими технологическими гигантами.

Решение проблем биологов

По словам руководителя продуктов для наук о жизни OpenAI, модель создана для преодоления двух ключевых проблем современных исследователей. Первая — это обработка огромных массивов данных, накопленных за десятилетия секвенирования геномов и биохимии белков. Вторая — сложность навигации в узкоспециализированных подразделах биологии, каждый из которых имеет собственную методологию и терминологию.

Например, генетик, изучающий ген, активный в клетках мозга, может столкнуться с трудностями при анализе обширной нейробиологической литературы.

Как обучали GPT-Rosalind

Разработчики обучили базовую языковую модель на 50 наиболее распространённых биологических рабочих процессах, а также научили её взаимодействовать с основными публичными базами биологических данных. Дальнейшее обучение позволило создать систему, способную предлагать вероятные биологические пути и ранжировать потенциальные мишени для лекарств.

«Мы связываем генотип с фенотипом через известные пути и регуляторные механизмы, делаем выводы о вероятных структурных или функциональных свойствах белков, используя это механистическое понимание», — пояснил представитель OpenAI.

Работа над недостатками

Чтобы снизить характерную для языковых моделей склонность к «подхалимажу» и излишнему энтузиазму, OpenAI настроила GPT-Rosalind на скептицизм. Модель с большей вероятностью укажет на плохую мишень для препарата.

В компании много говорили о «рассуждениях» и «экспертных» способностях модели. Под первым понимается возможность работать со сложными многоступенчатыми процессами, а второе основано на результатах модели в нескольких тестовых наборах.

Вопросы и ограничения доступа

Остаётся неясным, удалось ли OpenAI решить проблему галлюцинаций, свойственную многим языковым моделям, особенно когда их просят объяснить ход своих рассуждений. Скорее всего, появятся как восторженные отчёты о неожиданных связях, найденных ИИ, так и случаи, когда он будет выдавать очевидно ошибочные предложения.

На данный момент компания ограничивает доступ к модели из-за опасений по поводу потенциально вредных результатов её работы, например, при запросе на оптимизацию вирулентности вируса. Подать заявку на доступ через программу доверенного развёртывания могут только организации из США. Для широкой аудитории будет доступен более ограниченный плагин Life Sciences Research.

В то время как другие компании уже предлагали научно-ориентированные агентные модели, GPT-Rosalind является первой, сфокусированной исключительно на биологии. Пока не появятся отчёты об эффективности новой модели, сложно оценить, насколько такая специализация повышает её полезность.