Импорт модели
Оглавление
- Импорт адаптера Safetensors
- Importing a Safetensors model
- Importing a GGUF file
- Sharing models on ollama.com
Импорт тонко настроенного адаптера из весов Safetensors
Сначала создайте файл модели с командой FROM, указывающей на базовую модель, которую вы использовали для точной настройки, и командой ADAPTER, которая указывает на каталог с вашим адаптером Safetensors:
FROM <название базовой моделиe> ADAPTER /path/to/safetensors/adapter/directory
Убедитесь, что в команде FROM вы используете ту же базовую модель, что и при создании адаптера, иначе вы получите неточные результаты. Большинство фреймворков используют разные методы квантования, поэтому лучше всего использовать неквантованные (т.е. не QLoRA) адаптеры. Если ваш адаптер находится в том же каталоге, что и файл модели, используйте ADAPTER . чтобы указать путь к адаптеру. Теперь запустите ollama create из каталога, в котором был создан файл модели:
ollama create my-model
Наконец, протестируйте модель:
ollama run my-model
Ollama поддерживает импорт адаптеров, основанных на нескольких различных архитектурах моделей, включая:
- Llama (включая Llama 2, Llama 3, Llama 3.1, и Llama 3.2);
- Mistral (включая Mistral 1, Mistral 2, и Mixtral); и
- Gemma (включая Gemma 1 и Gemma 2)
Вы можете создать адаптер, используя платформу тонкой настройки или инструмент, который может выводить адаптеры в формате Safetensors, например:
- Hugging Face fine tuning framework
- Unsloth
- MLX
Импорт модели из весов Safetensors
Сначала создайте Modelfile с помощью команды FROM, которая указывает на каталог, содержащий ваши значения Safetensors:
FROM /path/to/safetensors/directory
Если вы создаете файл модели в том же каталоге, что и весы, вы можете использовать команду FROM .. Теперь запустите команду ollama create из каталога, в котором вы создали файл модели:
ollama create my-model
Наконец, протестируйте модель:
ollama run my-model
Ollama поддерживает импорт моделей для нескольких различных архитектур, включая:
- Llama (включая Llama 2, Llama 3, Llama 3.1, и Llama 3.2);
- Mistral (включая Mistral 1, Mistral 2, и Mixtral);
- Gemma (включая Gemma 1 и Gemma 2); и
- Phi3
Это включает в себя импорт базовых моделей, а также любых точно настроенных моделей, которые были объединены с базовой моделью.
Импорт модели или адаптера на основе GGUF
Если у вас есть модель или адаптер на основе GGUF, их можно импортировать в Ollama. Вы можете получить модель или адаптер на основе GGUF, выполнив:
- преобразование модели Safetensors с помощью convert_hf_to_gguf.py из Llama.cpp;
- преобразование адаптера Safetensors с помощью convert_lora_to_gguf.py из Llama.cpp; or
- загрузка модели или адаптера из такого места, как HuggingFace
Чтобы импортировать модель GGUF, создайте файл модели, содержащий:
FROM /path/to/file.gguf
Для адаптера GGUF создайте файл модели с помощью:
FROM <model name> ADAPTER /path/to/file.gguf
При импорте адаптера GGUF важно использовать ту же базовую модель, что и базовая модель, с помощью которой адаптер был создан. Вы можете использовать:
- модель из Олламы
- файл GGUF
- модель, основанная на Safetensors
После того как вы создали свой файл модели, используйте команду ollama create для создания модели.
ollama create my-model
Квантование модели
Квантование модели позволяет запускать модели быстрее и с меньшим потреблением памяти, но с меньшей точностью. Это позволяет запускать модель на более скромном оборудовании. Ollama может квантовать модели на базе FP16 и FP32 на разных уровнях квантования, используя флаг -q/--quantizeс помощью команды ollama create. Сначала создайте файл модели с моделью на основе FP16 или FP32, которую вы хотите квантовать.
FROM /path/to/my/gemma/f16/model
Используйте ollama create, чтобы затем создать квантованную модель.
$ ollama create --quantize q4_K_M mymodel transferring model data quantizing F16 model to Q4_K_M creating new layer sha256:735e246cc1abfd06e9cdcf95504d6789a6cd1ad7577108a70d9902fef503c1bd creating new layer sha256:0853f0ad24e5865173bbf9ffcc7b0f5d56b66fd690ab1009867e45e7d2c4db0f writing manifest success
Поддерживаемые квантования
- q8_0
K-means Quantizations
- q4_K_S
- q4_K_M
Делитесь своей моделью на ollama.com
Вы можете поделиться любой созданной вами моделью, нажав на нее ollama.com чтобы другие пользователи могли опробовать его. Сначала с помощью своего браузера перейдите на страницу регистрации в Ollama. Если у вас уже есть учетная запись, вы можете пропустить этот шаг.

Поле Username будет использоваться как часть имени вашей модели (например, jmorganca/mymodel), поэтому убедитесь, что выбранное вами имя пользователя вас устраивает. Теперь, когда вы создали учетную запись и вошли в систему, перейдите на страницу настроек Ollama Keys. Следуйте инструкциям на странице, чтобы определить, где находится ваш открытый ключ Ollama.

Нажмите на кнопку "Добавить открытый ключ Ollama", скопируйте и вставьте содержимое вашего открытого ключа Ollama в текстовое поле. Чтобы переместить модель в ollama.com, сначала убедитесь, что она правильно названа вашим именем пользователя. Возможно, вам придется использовать команду ollama cp, чтобы скопировать вашу модель и присвоить ей правильное название. Как только название вашей модели вас устроит, используйте команду ollama push, чтобы переместить ее в ollama.com.
ollama cp mymodel myuser/mymodel ollama push myuser/mymodel
Как только ваша модель будет запущена, другие пользователи смогут извлечь и запустить ее с помощью команды:
ollama run myuser/mymodel
https://docs.ollama.com/import#Importing-a-fine-tuned-adapter-from-Safetensors-weights