Pinterest сократила расходы на ИИ на 90%, переделав визуальный слой модели Qwen

Для сервиса с 620 миллионами активных пользователей в месяц использование передовой ИИ-модели для рекомендации каждой картинки — не стратегия, а огромный счёт. Команда технического директора Pinterest Мэтта Мадригала решила проблему, радикально переработав модель Qwen3-VL. Разработчики заменили её встроенный визуальный слой на собственные эмбеддинги, что снизило расходы на 90% и повысило точность на 30%.

Кастомизация открытых моделей для визуального поиска

Компания давно применяет открытые модели для визуального поиска, начиная с BERT от Google и CLIP от OpenAI. На основе последнего был создан собственный Pin CLIP, использующий проприетарные визуальные эмбеддинги и метаданные изображений.

Разговорный ассистент для шопинга Navigator 1 построен на Qwen3-VL, но был значительно доработан. Команда Мадригала по сути «вырвала» визуальный энкодер модели и дообучила её на собственных мультимодальных эмбеддингах. Это позволило учитывать метаданные пинов и изображений, которые можно предварительно вычислять офлайн и регулярно переобучать на новых данных для персонализации.

«Открытые модели, особенно с лицензией Apache, где можно по-настоящему менять веса и настраивать под уникальные задачи, — вот где мы нашли для себя силу open source», — отметил Мадригал.

Собственные эмбеддинги и граф вкусов

Использование собственных эмбеддингов позволяет модели лучше понимать контекст метаданных, пинов и изображений, а также эффективнее работать во время выполнения запросов. Без них пришлось бы кодировать каждое возвращаемое изображение по отдельности во время инференса, что увеличило бы задержку, по словам Мадригала, в 20 раз.

«Если что-то критично для наших пользователей, влияет на вовлечённость и должно масштабироваться на 600 миллионов человек, мы либо построим это сами, либо возьмём open source и максимально кастомизируем», — заявил он.

Чтобы направлять пользователей от вдохновения к покупке, команда создала «граф вкусов» — динамическое представление реальных предпочтений людей, а не просто их кликов.

«Это представление эволюционирующих вкусов миллиардов людей», — пояснил Мадригал.

Люди идут в Google, когда чётко знают, что хотят; Pinterest — для этапа открытий. Цель сервиса — поощрять «боковое исследование» и превращать поиск в намерение (клики по рекламе или покупки).

Архитектура сочетает графовую структуру с репрезентативным обучением. Эмбеддинги пользователей фиксируют их меняющиеся вкусы и постоянно обновляются на основе активности и нового контента.

«Это не социальный граф, — сказал Мадригал. — Это скорее граф предпочтений: что вас вдохновит? Что вы хотите сделать дальше?»

Например, один пользователь может любить дизайн середины века, а другой — эстетику Нантакета. Эти предпочтения фиксируются в эмбеддингах, и граф вкусов в результате предлагает конкретные релевантные товары.