11 - Настройка параметров сервера
Настройка параметров сервера для API-сервера LM Studio
API-сервер LM Studio предоставляет различные параметры конфигурации для настройки его поведения, производительности и безопасности.
Доступ к настройкам сервера
Через графический интерфейс
- Перейдите на вкладку Разработчик (Developer) или Локальный сервер (Local Server)
- Найдите раздел "Настройки сервера" (Server Settings)
- Настройте параметры согласно вашим требованиям
- Изменения применяются немедленно или после перезапуска сервера
Через CLI (lms)
Некоторые параметры можно настроить через командную строку:
lms server start --port 8080 --host 0.0.0.0
Основные параметры
Порт (Port)
Порт, на котором сервер слушает входящие соединения.
- По умолчанию:
1234 - Допустимые значения: 1-65535
- Примечание: Порты ниже 1024 требуют привилегий root/administrator
# Пример изменения порта через CLI lms server start --port 8080
Хост (Host)
Сетевой интерфейс, к которому привязывается сервер.
- По умолчанию:
127.0.0.1(localhost) - Для локальной сети:
0.0.0.0(все интерфейсы) - Для конкретного интерфейса: укажите IP-адрес интерфейса
# Сделать сервер доступным в локальной сети lms server start --bind 0.0.0.0
Параметры производительности
Параллельные запросы (Parallel Requests)
Максимальное количество одновременных запросов, которые сервер может обрабатывать.
- По умолчанию: Зависит от доступной памяти
- Рекомендация: Начните с 1-2 для стабильности
- Примечание: Больше параллельных запросов требует больше RAM/VRAM
Размер очереди (Queue Size)
Максимальное количество запросов, которые могут ожидать в очереди.
- По умолчанию: 10
- Примечание: Запросы сверх этого лимита будут отклонены с ошибкой 503
Таймаут запроса (Request Timeout)
Максимальное время ожидания ответа на запрос в секундах.
- По умолчанию: 300 секунд (5 минут)
- Для длинных генераций: увеличьте до 600-1800 секунд
Параметры безопасности
Аутентификация (Authentication)
Включите аутентификацию для защиты вашего API от несанкционированного доступа.
- Тип: Bearer Token
- Заголовок:
Authorization: Bearer YOUR_API_KEY
Пример настройки API-ключа:
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-secret-key" \
-d '{"model": "loaded-model", "messages": [{"role": "user", "content": "Hello"}]}'
CORS (Cross-Origin Resource Sharing)
Настройка CORS для разрешения или запрета запросов из веб-браузеров.
- По умолчанию: Включено для всех источников (
*) - Для продакшена: ограничьте конкретными доменами
Логирование запросов (Request Logging)
Включите логирование всех входящих запросов для отладки и мониторинга.
- По умолчанию: Отключено
- Рекомендация: Включите для отладки, отключите в продакшене
Параметры модели
Автоматическая загрузка модели (Auto-load Model)
Автоматически загружать указанную модель при запуске сервера.
lms server start --model "meta-llama/Llama-3.2-3B-Instruct-GGUF"
Контекстное окно по умолчанию (Default Context Window)
Размер контекстного окна по умолчанию для новых запросов.
- По умолчанию: 2048 токенов
- Максимум: Зависит от модели (обычно 4096-8192)
Параметры генерации по умолчанию
Установите значения по умолчанию для параметров генерации:
- Температура (Temperature): 0.7
- Top P: 0.9
- Максимальные токены (Max Tokens): 512
- Повторение (Repeat Penalty): 1.1
Параметры GPU
Выбор GPU (GPU Selection)
Если у вас несколько GPU, вы можете выбрать, какой использовать.
# Использовать конкретный GPU (индекс начинается с 0) lms server start --gpu 0
Количество слоев на GPU (GPU Layers)
Количество слоев модели, которые будут размещены на GPU.
- По умолчанию: Максимально возможное
- Меньше слоев: больше нагрузки на CPU, меньше VRAM
- Больше слоев: быстрее инференс, больше VRAM
Примеры конфигурации
Базовая локальная настройка
lms server start \ --port 1234 \ --host 127.0.0.1 \ --model "meta-llama/Llama-3.2-3B-Instruct-GGUF"
Сервер для локальной сети с аутентификацией
lms server start \ --port 8080 \ --bind 0.0.0.0 \ --api-key "my-secret-key" \ --model "meta-llama/Llama-3.2-3B-Instruct-GGUF"
Высокопроизводительный сервер
lms server start \ --port 1234 \ --parallel 4 \ --queue-size 20 \ --timeout 600 \ --gpu 0 \ --gpu-layers 999
Конфигурационный файл
Для сложных настроек вы можете использовать конфигурационный файл:
{
"server": {
"port": 1234,
"host": "127.0.0.1",
"parallel": 2,
"queue_size": 10,
"timeout": 300
},
"security": {
"api_key": "your-secret-key",
"cors_origins": ["http://localhost:3000"],
"logging": false
},
"model": {
"auto_load": "meta-llama/Llama-3.2-3B-Instruct-GGUF",
"context_window": 4096,
"defaults": {
"temperature": 0.7,
"top_p": 0.9,
"max_tokens": 512
}
},
"gpu": {
"device": 0,
"layers": 999
}
}
Используйте конфигурационный файл:
lms server start --config /path/to/config.json
Применение изменений
Некоторые параметры применяются немедленно, другие требуют перезапуска сервера:
Применяются немедленно:
- Параметры генерации по умолчанию
- Размер очереди
- Логирование запросов
Требуют перезапуска:
- Порт
- Хост
- Аутентификация
- Параллельные запросы
- Выбор GPU
Дополнительные ресурсы
Запуск API-сервера LLM на localhost с настройками сервера LM Studio
Позвольте другим устройствам в вашей сети использовать этот API-сервер LM Studio