13 - OpenAI-совместимые эндпоинты
LM Studio предоставляет OpenAI-совместимые эндпоинты, которые позволяют использовать любые инструменты, SDK или приложения, разработанные для OpenAI API, с вашими локальными моделями.
Это означает, что вы можете просто изменить базовый URL с https://api.openai.com/v1 на http://localhost:1234/v1, и ваш существующий код будет работать с локальными моделями без изменений.
Базовая настройка
Для использования OpenAI-совместимых эндпоинтов:
- Запустите локальный сервер в LM Studio (вкладка Разработчик (Developer) или Локальный сервер (Local Server))
- Загрузите модель в память
- Направьте ваш OpenAI-совместимый клиент на
http://localhost:1234/v1
Использование с официальным OpenAI Python SDK
Вот как использовать локальные модели с официальным Python SDK от OpenAI:
from openai import OpenAI
# Инициализация клиента с указанием локального сервера
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="not-needed" # API-ключ не требуется для локального сервера
)
# Простой запрос чата
response = client.chat.completions.create(
model="loaded-model", # Используйте имя загруженной модели
messages=[
{"role": "system", "content": "Ты полезный ассистент."},
{"role": "user", "content": "Объясни, что такое квантование моделей."}
],
temperature=0.7,
max_tokens=512
)
print(response.choices[0].message.content)
Использование с официальным OpenAI Node.js SDK
Пример использования с TypeScript/JavaScript:
import OpenAI from 'openai';
const client = new OpenAI({
baseURL: 'http://localhost:1234/v1',
apiKey: 'not-needed' // API-ключ не требуется для локального сервера
});
async function main() {
const response = await client.chat.completions.create({
model: 'loaded-model',
messages: [
{ role: 'system', content: 'Ты полезный ассистент.' },
{ role: 'user', content: 'Объясни, что такое квантование моделей.' }
],
temperature: 0.7,
max_tokens: 512
});
console.log(response.choices[0].message.content);
}
main();
Использование с curl
Вы также можете использовать curl для тестирования API:
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "loaded-model",
"messages": [
{"role": "system", "content": "Ты полезный ассистент."},
{"role": "user", "content": "Привет!"}
],
"temperature": 0.7,
"max_tokens": 512
}'
Поддерживаемые эндпоинты
POST /v1/chat/completions
Основной эндпоинт для диалогового взаимодействия. Полностью совместим с OpenAI API.
Поддерживаемые параметры:
model(строка, обязательно): Идентификатор загруженной моделиmessages(массив, обязательно): Список сообщенийtemperature(число, опционально): Степень случайности (0.0 - 2.0)top_p(число, опционально): Порог вероятности для ядерной выборки (0.0 - 1.0)n(число, опционально): Количество вариантов ответа (обычно 1)stream(логическое, опционально): Потоковая передача ответаstop(строка или массив, опционально): Стоп-последовательностиmax_tokens(число, опционально): Максимальное количество генерируемых токеновpresence_penalty(число, опционально): Штраф за появление новых тем (-2.0 - 2.0)frequency_penalty(число, опционально): Штраф за повторение токенов (-2.0 - 2.0)logit_bias(объект, опционально): Смещение вероятностей для конкретных токеновuser(строка, опционально): Идентификатор пользователя для отслеживанияtools(массив, опционально): Список инструментов для вызова функцийtool_choice(строка или объект, опционально): Стратегия выбора инструментовresponse_format(объект, опционально): Формат ответа (например, JSON mode)
POST /v1/completions
Устаревший (legacy) эндпоинт для текстовых завершений. Рекомендуется использовать /v1/chat/completions.
POST /v1/embeddings
Генерирует векторные представления (эмбеддинги) для текста.
response = client.embeddings.create(
model="nomic-ai/nomic-embed-text-v1.5-GGUF",
input="Текст для векторного представления"
)
print(response.data[0].embedding)
GET /v1/models
Возвращает список доступных моделей на сервере.
curl http://localhost:1234/v1/models
Потоковая передача (Streaming)
Для получения ответов в реальном времени установите параметр "stream": true:
stream = client.chat.completions.create(
model="loaded-model",
messages=[
{"role": "user", "content": "Расскажи длинную историю"}
],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content is not None:
print(chunk.choices[0].delta.content, end="")
Вызов функций (Function Calling)
LM Studio поддерживает вызов функций для моделей, которые эту возможность поддерживают:
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "Получить текущую погоду в городе",
"parameters": {
"type": "object",
"properties": {
"city": {
"type": "string",
"description": "Название города"
}
},
"required": ["city"]
}
}
}
]
response = client.chat.completions.create(
model="loaded-model",
messages=[
{"role": "user", "content": "Какая погода в Москве?"}
],
tools=tools,
tool_choice="auto"
)
# Проверка, вызвала ли модель функцию
if response.choices[0].message.tool_calls:
tool_call = response.choices[0].message.tool_calls[0]
print(f"Вызвана функция: {tool_call.function.name}")
print(f"Аргументы: {tool_call.function.arguments}")
JSON Mode
Для получения ответов строго в формате JSON:
response = client.chat.completions.create(
model="loaded-model",
messages=[
{"role": "system", "content": "Отвечай только в формате JSON."},
{"role": "user", "content": "Создай объект с именем и возрастом"}
],
response_format={"type": "json_object"}
)
import json
result = json.loads(response.choices[0].message.content)
print(result)
Совместимость с другими библиотеками
Поскольку API совместим с OpenAI, вы можете использовать любые библиотеки, которые поддерживают настройку базового URL:
- LangChain: Используйте
ChatOpenAIс параметромbase_url - LlamaIndex: Настройте
OpenAIс локальным URL - AutoGen: Укажите локальный эндпоинт в конфигурации
- Haystack: Используйте
OpenAIGeneratorс настройками
Особенности и ограничения
Идентификатор модели
В отличие от OpenAI API, где вы указываете имя модели (например, gpt-4), в LM Studio вы указываете идентификатор загруженной модели. Вы можете использовать:
- Полный путь модели (например,
lmstudio-community/Meta-Llama-3.1-8B-Instruct-GGUF) - Просто
loaded-modelдля использования текущей загруженной модели
API-ключ
Для локального сервера API-ключ не требуется, но некоторые SDK могут требовать его указать. Используйте любое значение, например "not-needed" или "lm-studio".
Контекстное окно
Размер контекстного окна зависит от загруженной модели. Если запрос превышает лимит, вернётся ошибка context_length_exceeded.
Скорость генерации
Скорость зависит от вашего оборудования (CPU/GPU), размера модели и количества токенов. Локальные модели обычно медленнее облачных, но обеспечивают полную приватность данных.
Устранение неполадок
Ошибка подключения
- Убедитесь, что локальный сервер запущен в LM Studio
- Проверьте, что модель загружена в память
- Убедитесь, что порт 1234 не занят другим приложением
- Проверьте, что вы используете правильный URL (
http://localhost:1234/v1)
Модель не найдена
- Используйте
GET /v1/modelsдля получения списка доступных моделей - Убедитесь, что модель загружена в память перед отправкой запроса
- Используйте
"loaded-model"вместо конкретного имени
Медленные ответы
- Используйте меньшую модель или более агрессивное квантование
- Уменьшите размер контекстного окна
- Убедитесь, что GPU используется для ускорения (если доступен)
- Закройте другие приложения, использующие много ресурсов
Дополнительные ресурсы
Полный справочник по REST API-эндпоинтам LM Studio
Запуск API-сервера LLM на localhost с настройками сервера LM Studio
Нативные эндпоинты LM Studio с расширенными возможностями