13 - OpenAI-совместимые эндпоинты

LM Studio предоставляет OpenAI-совместимые эндпоинты, которые позволяют использовать любые инструменты, SDK или приложения, разработанные для OpenAI API, с вашими локальными моделями.

Это означает, что вы можете просто изменить базовый URL с https://api.openai.com/v1 на http://localhost:1234/v1, и ваш существующий код будет работать с локальными моделями без изменений.

Базовая настройка

Для использования OpenAI-совместимых эндпоинтов:

Запустите локальный сервер в LM Studio (вкладка Разработчик (Developer) или Локальный сервер (Local Server))
Загрузите модель в память
Направьте ваш OpenAI-совместимый клиент на http://localhost:1234/v1

Использование с официальным OpenAI Python SDK

Вот как использовать локальные модели с официальным Python SDK от OpenAI:

from openai import OpenAI

# Инициализация клиента с указанием локального сервера
client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"  # API-ключ не требуется для локального сервера
)

# Простой запрос чата
response = client.chat.completions.create(
    model="loaded-model",  # Используйте имя загруженной модели
    messages=[
        {"role": "system", "content": "Ты полезный ассистент."},
        {"role": "user", "content": "Объясни, что такое квантование моделей."}
    ],
    temperature=0.7,
    max_tokens=512
)

print(response.choices[0].message.content)

Использование с официальным OpenAI Node.js SDK

Пример использования с TypeScript/JavaScript:

import OpenAI from 'openai';

const client = new OpenAI({
  baseURL: 'http://localhost:1234/v1',
  apiKey: 'not-needed'  // API-ключ не требуется для локального сервера
});

async function main() {
  const response = await client.chat.completions.create({
    model: 'loaded-model',
    messages: [
      { role: 'system', content: 'Ты полезный ассистент.' },
      { role: 'user', content: 'Объясни, что такое квантование моделей.' }
    ],
    temperature: 0.7,
    max_tokens: 512
  });

  console.log(response.choices[0].message.content);
}

main();

Использование с curl

Вы также можете использовать curl для тестирования API:

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "loaded-model",
    "messages": [
      {"role": "system", "content": "Ты полезный ассистент."},
      {"role": "user", "content": "Привет!"}
    ],
    "temperature": 0.7,
    "max_tokens": 512
  }'

Поддерживаемые эндпоинты

POST /v1/chat/completions

Основной эндпоинт для диалогового взаимодействия. Полностью совместим с OpenAI API.

Поддерживаемые параметры:

model (строка, обязательно): Идентификатор загруженной модели
messages (массив, обязательно): Список сообщений
temperature (число, опционально): Степень случайности (0.0 - 2.0)
top_p (число, опционально): Порог вероятности для ядерной выборки (0.0 - 1.0)
n (число, опционально): Количество вариантов ответа (обычно 1)
stream (логическое, опционально): Потоковая передача ответа
stop (строка или массив, опционально): Стоп-последовательности
max_tokens (число, опционально): Максимальное количество генерируемых токенов
presence_penalty (число, опционально): Штраф за появление новых тем (-2.0 - 2.0)
frequency_penalty (число, опционально): Штраф за повторение токенов (-2.0 - 2.0)
logit_bias (объект, опционально): Смещение вероятностей для конкретных токенов
user (строка, опционально): Идентификатор пользователя для отслеживания
tools (массив, опционально): Список инструментов для вызова функций
tool_choice (строка или объект, опционально): Стратегия выбора инструментов
response_format (объект, опционально): Формат ответа (например, JSON mode)

POST /v1/completions

Устаревший (legacy) эндпоинт для текстовых завершений. Рекомендуется использовать /v1/chat/completions.

POST /v1/embeddings

Генерирует векторные представления (эмбеддинги) для текста.

response = client.embeddings.create(
    model="nomic-ai/nomic-embed-text-v1.5-GGUF",
    input="Текст для векторного представления"
)

print(response.data[0].embedding)

GET /v1/models

Возвращает список доступных моделей на сервере.

curl http://localhost:1234/v1/models

Потоковая передача (Streaming)

Для получения ответов в реальном времени установите параметр "stream": true:

stream = client.chat.completions.create(
    model="loaded-model",
    messages=[
        {"role": "user", "content": "Расскажи длинную историю"}
    ],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content is not None:
        print(chunk.choices[0].delta.content, end="")

Вызов функций (Function Calling)

LM Studio поддерживает вызов функций для моделей, которые эту возможность поддерживают:

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Получить текущую погоду в городе",
            "parameters": {
                "type": "object",
                "properties": {
                    "city": {
                        "type": "string",
                        "description": "Название города"
                    }
                },
                "required": ["city"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="loaded-model",
    messages=[
        {"role": "user", "content": "Какая погода в Москве?"}
    ],
    tools=tools,
    tool_choice="auto"
)

# Проверка, вызвала ли модель функцию
if response.choices[0].message.tool_calls:
    tool_call = response.choices[0].message.tool_calls[0]
    print(f"Вызвана функция: {tool_call.function.name}")
    print(f"Аргументы: {tool_call.function.arguments}")

JSON Mode

Для получения ответов строго в формате JSON:

response = client.chat.completions.create(
    model="loaded-model",
    messages=[
        {"role": "system", "content": "Отвечай только в формате JSON."},
        {"role": "user", "content": "Создай объект с именем и возрастом"}
    ],
    response_format={"type": "json_object"}
)

import json
result = json.loads(response.choices[0].message.content)
print(result)

Совместимость с другими библиотеками

Поскольку API совместим с OpenAI, вы можете использовать любые библиотеки, которые поддерживают настройку базового URL:

LangChain: Используйте ChatOpenAI с параметром base_url
LlamaIndex: Настройте OpenAI с локальным URL
AutoGen: Укажите локальный эндпоинт в конфигурации
Haystack: Используйте OpenAIGenerator с настройками

Особенности и ограничения

Идентификатор модели

В отличие от OpenAI API, где вы указываете имя модели (например, gpt-4), в LM Studio вы указываете идентификатор загруженной модели. Вы можете использовать:

Полный путь модели (например, lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF)
Просто loaded-model для использования текущей загруженной модели

API-ключ

Для локального сервера API-ключ не требуется, но некоторые SDK могут требовать его указать. Используйте любое значение, например "not-needed" или "lm-studio".

Контекстное окно

Размер контекстного окна зависит от загруженной модели. Если запрос превышает лимит, вернётся ошибка context_length_exceeded.

Скорость генерации

Скорость зависит от вашего оборудования (CPU/GPU), размера модели и количества токенов. Локальные модели обычно медленнее облачных, но обеспечивают полную приватность данных.

Устранение неполадок

Ошибка подключения

Убедитесь, что локальный сервер запущен в LM Studio
Проверьте, что модель загружена в память
Убедитесь, что порт 1234 не занят другим приложением
Проверьте, что вы используете правильный URL (http://localhost:1234/v1)

Модель не найдена

Используйте GET /v1/models для получения списка доступных моделей
Убедитесь, что модель загружена в память перед отправкой запроса
Используйте "loaded-model" вместо конкретного имени

Медленные ответы

Используйте меньшую модель или более агрессивное квантование
Уменьшите размер контекстного окна
Убедитесь, что GPU используется для ускорения (если доступен)
Закройте другие приложения, использующие много ресурсов

Дополнительные ресурсы

Справочник API

Полный справочник по REST API-эндпоинтам LM Studio

Локальный сервер

Запуск API-сервера LLM на localhost с настройками сервера LM Studio

REST API LM Studio

Нативные эндпоинты LM Studio с расширенными возможностями

Оригинал страницы