Это руководство поможет быстро подобрать версию Gemma 4 под ваше железо и задачи. Внутри собраны требования к памяти, команды для Ollama и инструкция по созданию кастомных конфигураций через Modelfile.
Варианты моделей
-
E2B (2B): Мультимодальная (текст/фото/аудио). Лучшее решение для OCR и слабых устройств.
-
E4B (4B): Баланс для локальных ассистентов. Контекст 128K подходит для анализа документов.
-
26B A4B (MoE): Мощная модель для кода и агентов. Поддерживает контекст до 256K.
-
31B Dense: Максимальная логика и режим рассуждений (Thinking) для сложных вычислений.
Сводная таблица (для 12 ГБ VRAM)
| Модель | Квантование | VRAM | Скорость | Применение |
|---|---|---|---|---|
| 4B | Q8_0 (High) | ~9 ГБ | Высокая | Основной чат-бот |
| 4B | Q4_K_M (Med) | ~5.5 ГБ | Максимальная | Длинный контекст |
| 26B | Q4_K_M | >16 ГБ | Низкая | Анализ кода (через RAM) |
Требования к памяти
-
VRAM (Видеопамять): Модели до 4B (Q8) отлично работают на 12 ГБ. Версии 26B/31B требуют 16–24 ГБ для плавной работы.
-
System RAM (Оперативная память): При нехватке VRAM данные переносятся в RAM. Для тяжелых моделей (26B+) рекомендуется иметь 32–64 ГБ быстрой оперативной памяти, иначе скорость генерации упадет до минимума.