Длина контекста — это максимальное количество токенов, к которым модель имеет доступ в памяти.

По умолчанию Оллама использует следующие длины контекстов в зависимости от VRAM:

  • < 24 GiB VRAM: 4k context
  • 24-48 GiB VRAM: 32k context
  • >= 48 GiB VRAM: 256k context

Задачи, требующие большого контекста, такие как веб-поиск, агенты и инструменты кодирования, должны быть настроены как минимум на 64 000 токенов.

Установка длины контекста

Установка большей длины контекста увеличит объем памяти, необходимый для запуска модели. Убедитесь, что у вас достаточно видеопамяти для увеличения длины контекста. По умолчанию для облачных моделей установлена ​​максимальная длина контекста.

Приложение

Измените ползунок в приложении Ollama в настройках на желаемую длину контекста.


интерфейс командной строки

Если редактирование длины контекста для Ollama невозможно, длину контекста также можно обновить при обслуживании Ollama.

 
OLLAMA_CONTEXT_LENGTH=64000 ollama serve

 

Проверьте длину выделенного контекста и разгрузку модели.

Для достижения наилучшей производительности используйте максимальную длину контекста для модели и избегайте перегрузки модели на ЦП. Проверьте разделение в разделе ПРОЦЕССОР, используя ollama ps.

ollama ps
NAME             ID              SIZE      PROCESSOR    CONTEXT    UNTIL
gemma3:latest    a2af6cc3eb7f    6.6 GB    100% GPU     65536      2 minutes from now