Длина контекста
Длина контекста — это максимальное количество токенов, к которым модель имеет доступ в памяти.
По умолчанию Оллама использует следующие длины контекстов в зависимости от VRAM:
- < 24 GiB VRAM: 4k context
- 24-48 GiB VRAM: 32k context
- >= 48 GiB VRAM: 256k context
Задачи, требующие большого контекста, такие как веб-поиск, агенты и инструменты кодирования, должны быть настроены как минимум на 64 000 токенов.
Установка длины контекста
Установка большей длины контекста увеличит объем памяти, необходимый для запуска модели. Убедитесь, что у вас достаточно видеопамяти для увеличения длины контекста. По умолчанию для облачных моделей установлена максимальная длина контекста.
Приложение
Измените ползунок в приложении Ollama в настройках на желаемую длину контекста.
интерфейс командной строки
Если редактирование длины контекста для Ollama невозможно, длину контекста также можно обновить при обслуживании Ollama.
OLLAMA_CONTEXT_LENGTH=64000 ollama serve
Проверьте длину выделенного контекста и разгрузку модели.
Для достижения наилучшей производительности используйте максимальную длину контекста для модели и избегайте перегрузки модели на ЦП. Проверьте разделение в разделе ПРОЦЕССОР, используя ollama ps.
ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL gemma3:latest a2af6cc3eb7f 6.6 GB 100% GPU 65536 2 minutes from now
