LM Studio предоставляет OpenAI-совместимые эндпоинты, которые позволяют использовать любые инструменты, SDK или приложения, разработанные для OpenAI API, с вашими локальными моделями.

Это означает, что вы можете просто изменить базовый URL с https://api.openai.com/v1 на http://localhost:1234/v1, и ваш существующий код будет работать с локальными моделями без изменений.

Базовая настройка

Для использования OpenAI-совместимых эндпоинтов:

  1. Запустите локальный сервер в LM Studio (вкладка Разработчик (Developer) или Локальный сервер (Local Server))
  2. Загрузите модель в память
  3. Направьте ваш OpenAI-совместимый клиент на http://localhost:1234/v1

Использование с официальным OpenAI Python SDK

Вот как использовать локальные модели с официальным Python SDK от OpenAI:

from openai import OpenAI

# Инициализация клиента с указанием локального сервера
client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"  # API-ключ не требуется для локального сервера
)

# Простой запрос чата
response = client.chat.completions.create(
    model="loaded-model",  # Используйте имя загруженной модели
    messages=[
        {"role": "system", "content": "Ты полезный ассистент."},
        {"role": "user", "content": "Объясни, что такое квантование моделей."}
    ],
    temperature=0.7,
    max_tokens=512
)

print(response.choices[0].message.content)

Использование с официальным OpenAI Node.js SDK

Пример использования с TypeScript/JavaScript:

import OpenAI from 'openai';

const client = new OpenAI({
  baseURL: 'http://localhost:1234/v1',
  apiKey: 'not-needed'  // API-ключ не требуется для локального сервера
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'loaded-model',
    messages: [
      { role: 'system', content: 'Ты полезный ассистент.' },
      { role: 'user', content: 'Объясни, что такое квантование моделей.' }
    ],
    temperature: 0.7,
    max_tokens: 512
  });

  console.log(response.choices[0].message.content);
}

main();

Использование с curl

Вы также можете использовать curl для тестирования API:

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "loaded-model",
    "messages": [
      {"role": "system", "content": "Ты полезный ассистент."},
      {"role": "user", "content": "Привет!"}
    ],
    "temperature": 0.7,
    "max_tokens": 512
  }'

Поддерживаемые эндпоинты

POST /v1/chat/completions

Основной эндпоинт для диалогового взаимодействия. Полностью совместим с OpenAI API.

Поддерживаемые параметры:

  • model (строка, обязательно): Идентификатор загруженной модели
  • messages (массив, обязательно): Список сообщений
  • temperature (число, опционально): Степень случайности (0.0 - 2.0)
  • top_p (число, опционально): Порог вероятности для ядерной выборки (0.0 - 1.0)
  • n (число, опционально): Количество вариантов ответа (обычно 1)
  • stream (логическое, опционально): Потоковая передача ответа
  • stop (строка или массив, опционально): Стоп-последовательности
  • max_tokens (число, опционально): Максимальное количество генерируемых токенов
  • presence_penalty (число, опционально): Штраф за появление новых тем (-2.0 - 2.0)
  • frequency_penalty (число, опционально): Штраф за повторение токенов (-2.0 - 2.0)
  • logit_bias (объект, опционально): Смещение вероятностей для конкретных токенов
  • user (строка, опционально): Идентификатор пользователя для отслеживания
  • tools (массив, опционально): Список инструментов для вызова функций
  • tool_choice (строка или объект, опционально): Стратегия выбора инструментов
  • response_format (объект, опционально): Формат ответа (например, JSON mode)

POST /v1/completions

Устаревший (legacy) эндпоинт для текстовых завершений. Рекомендуется использовать /v1/chat/completions.

POST /v1/embeddings

Генерирует векторные представления (эмбеддинги) для текста.

response = client.embeddings.create(
    model="nomic-ai/nomic-embed-text-v1.5-GGUF",
    input="Текст для векторного представления"
)

print(response.data[0].embedding)

GET /v1/models

Возвращает список доступных моделей на сервере.

curl http://localhost:1234/v1/models

Потоковая передача (Streaming)

Для получения ответов в реальном времени установите параметр "stream": true:

stream = client.chat.completions.create(
    model="loaded-model",
    messages=[
        {"role": "user", "content": "Расскажи длинную историю"}
    ],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content is not None:
        print(chunk.choices[0].delta.content, end="")

Вызов функций (Function Calling)

LM Studio поддерживает вызов функций для моделей, которые эту возможность поддерживают:

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Получить текущую погоду в городе",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {
                        "type": "string",
                        "description": "Название города"
                    }
                },
                "required": ["city"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="loaded-model",
    messages=[
        {"role": "user", "content": "Какая погода в Москве?"}
    ],
    tools=tools,
    tool_choice="auto"
)

# Проверка, вызвала ли модель функцию
if response.choices[0].message.tool_calls:
    tool_call = response.choices[0].message.tool_calls[0]
    print(f"Вызвана функция: {tool_call.function.name}")
    print(f"Аргументы: {tool_call.function.arguments}")

JSON Mode

Для получения ответов строго в формате JSON:

response = client.chat.completions.create(
    model="loaded-model",
    messages=[
        {"role": "system", "content": "Отвечай только в формате JSON."},
        {"role": "user", "content": "Создай объект с именем и возрастом"}
    ],
    response_format={"type": "json_object"}
)

import json
result = json.loads(response.choices[0].message.content)
print(result)

Совместимость с другими библиотеками

Поскольку API совместим с OpenAI, вы можете использовать любые библиотеки, которые поддерживают настройку базового URL:

  • LangChain: Используйте ChatOpenAI с параметром base_url
  • LlamaIndex: Настройте OpenAI с локальным URL
  • AutoGen: Укажите локальный эндпоинт в конфигурации
  • Haystack: Используйте OpenAIGenerator с настройками

Особенности и ограничения

Идентификатор модели

В отличие от OpenAI API, где вы указываете имя модели (например, gpt-4), в LM Studio вы указываете идентификатор загруженной модели. Вы можете использовать:

  • Полный путь модели (например, lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF)
  • Просто loaded-model для использования текущей загруженной модели

API-ключ

Для локального сервера API-ключ не требуется, но некоторые SDK могут требовать его указать. Используйте любое значение, например "not-needed" или "lm-studio".

Контекстное окно

Размер контекстного окна зависит от загруженной модели. Если запрос превышает лимит, вернётся ошибка context_length_exceeded.

Скорость генерации

Скорость зависит от вашего оборудования (CPU/GPU), размера модели и количества токенов. Локальные модели обычно медленнее облачных, но обеспечивают полную приватность данных.

Устранение неполадок

Ошибка подключения

  • Убедитесь, что локальный сервер запущен в LM Studio
  • Проверьте, что модель загружена в память
  • Убедитесь, что порт 1234 не занят другим приложением
  • Проверьте, что вы используете правильный URL (http://localhost:1234/v1)

Модель не найдена

  • Используйте GET /v1/models для получения списка доступных моделей
  • Убедитесь, что модель загружена в память перед отправкой запроса
  • Используйте "loaded-model" вместо конкретного имени

Медленные ответы

  • Используйте меньшую модель или более агрессивное квантование
  • Уменьшите размер контекстного окна
  • Убедитесь, что GPU используется для ускорения (если доступен)
  • Закройте другие приложения, использующие много ресурсов

Дополнительные ресурсы

Справочник API

Полный справочник по REST API-эндпоинтам LM Studio

Локальный сервер

Запуск API-сервера LLM на localhost с настройками сервера LM Studio

REST API LM Studio

Нативные эндпоинты LM Studio с расширенными возможностями



Оригинал страницы