Популярный открытый репозиторий научных препринтов arXiv ужесточает меры против небрежного использования больших языковых моделей (LLM) в статьях.
Хотя материалы публикуются на сайте до рецензирования, arXiv стал одним из основных каналов распространения исследований в таких областях, как информатика и математика, а также источником данных о научных трендах.
Платформа уже предпринимала шаги для борьбы с растущим числом низкокачественных работ, сгенерированных ИИ, например, требуя от новых авторов получения рекомендации от признанного учёного. После более чем 20 лет работы под эгидой Корнеллского университета arXiv становится независимой некоммерческой организацией, что должно помочь привлечь больше средств для решения проблем, подобных «ИИ-мусору».
В своём последнем заявлении председатель секции информатики arXiv Томас Дитрих сообщил, что «если в представленной работе обнаружатся неопровержимые доказательства того, что авторы не проверяли результаты генерации LLM, это означает, что мы не можем доверять ничему в такой статье».
К таким доказательствам могут относиться, например, «выдуманные ссылки» (hallucinated references) или комментарии, оставленные в диалоге с языковой моделью. Если подобные свидетельства будут найдены, авторам статьи грозит «блокировка на arXiv сроком на один год с последующим требованием, чтобы все последующие их материалы сначала принимались авторитетным рецензируемым изданием».
Отмечается, что это не полный запрет на использование LLM, а требование, чтобы авторы, по словам Дитриха, «несли полную ответственность» за содержание работы «независимо от того, как оно было сгенерировано». Таким образом, если исследователи бездумно копируют «неуместные формулировки, плагиат, предвзятый контент, ошибки, неточности, некорректные ссылки или вводящую в заблуждение информацию» прямо из языковой модели, они всё равно несут за это ответственность.
Дитрих пояснил, что это будет правило «одного предупреждения», но модераторы должны зафиксировать нарушение, а руководители секций — подтвердить доказательства до применения санкции. Авторы также смогут обжаловать это решение.
Недавние рецензируемые исследования показали, что в биомедицинских работах растёт число сфабрикованных цитат, вероятно, из-за использования LLM. Впрочем, учёные — не единственные, кого ловят на использовании ссылок, придуманных искусственным интеллектом.



