Модели искусственного интеллекта Gemini от Google за последний год значительно улучшились, но их использование ограничено правилами компании. Открытые модели Gemma предоставляли больше свободы, однако версия Gemma 3, выпущенная более года назад, уже устарела. Теперь разработчики могут начать работу с Gemma 4, которая представлена в четырёх размерах, оптимизированных для локального использования. Google также отказалась от собственной лицензии Gemma в пользу более открытой Apache 2.0.
Что нового в Gemma 4
Как и предыдущие версии, Gemma 4 создана для работы на локальных машинах. Две крупные вариации — 26B Mixture of Experts и 31B Dense — предназначены для запуска без квантования в формате bfloat16 на одной видеокарте Nvidia H100 с 80 ГБ памяти. Это профессиональный ускоритель стоимостью около 20 000 долларов, но он всё равно считается локальным оборудованием. При квантовании для работы с пониженной точностью эти модели смогут работать и на потребительских видеокартах.
Google заявляет о фокусе на снижении задержек, чтобы в полной мере использовать преимущества локальной обработки. Модель 26B Mixture of Experts активирует только 3,8 миллиарда из своих 26 миллиардов параметров в режиме вывода, что обеспечивает гораздо более высокую скорость обработки токенов в секунду по сравнению с моделями аналогичного размера. Модель 31B Dense ориентирована в первую очередь на качество, а не на скорость, и разработчики смогут дообучать её для конкретных задач.
Две другие модели Gemma 4 — Effective 2B (E2B) и Effective 4B (E4B) — предназначены для мобильных устройств. Они спроектированы для поддержания низкого потребления памяти во время работы, используя эффективные 2 или 4 миллиарда параметров. Команда Pixel тесно сотрудничала с Qualcomm и MediaTek для оптимизации этих моделей под смартфоны, Raspberry Pi и Jetson Nano. Они не только потребляют меньше памяти и энергии, чем Gemma 3, но и обеспечивают, по словам Google, «почти нулевую задержку».
Более мощные и более открытые
Все новые модели Gemma 4, по сообщениям, значительно превосходят Gemma 3. Google утверждает, что это самые производительные модели для локального запуска. Компания заявляет, что Gemma 31B займёт третье место в рейтинге Arena среди лучших открытых AI-моделей, уступив только GLM-5 и Kimi 2.5. При этом даже самая крупная версия Gemma 4 значительно меньше по размеру, что теоретически делает её работу намного дешевле.



