Оглавление

Импорт тонко настроенного адаптера из весов Safetensors

Сначала создайте файл модели с командой FROM, указывающей на базовую модель, которую вы использовали для точной настройки, и командой ADAPTER, которая указывает на каталог с вашим адаптером Safetensors:

FROM <название базовой моделиe>
ADAPTER /path/to/safetensors/adapter/directory

Убедитесь, что в команде FROM вы используете ту же базовую модель, что и при создании адаптера, иначе вы получите неточные результаты. Большинство фреймворков используют разные методы квантования, поэтому лучше всего использовать неквантованные (т.е. не QLoRA) адаптеры. Если ваш адаптер находится в том же каталоге, что и файл модели, используйте ADAPTER . чтобы указать путь к адаптеру. Теперь запустите ollama create из каталога, в котором был создан файл модели:

ollama create my-model

Наконец, протестируйте модель:

ollama run my-model

Ollama поддерживает импорт адаптеров, основанных на нескольких различных архитектурах моделей, включая:

  • Llama (включая Llama 2, Llama 3, Llama 3.1, и Llama 3.2);
  • Mistral (включая Mistral 1, Mistral 2, и Mixtral); и
  • Gemma (включая Gemma 1 и Gemma 2)

Вы можете создать адаптер, используя платформу тонкой настройки или инструмент, который может выводить адаптеры в формате Safetensors, например:

Импорт модели из весов Safetensors

Сначала создайте Modelfile с помощью команды FROM, которая указывает на каталог, содержащий ваши значения Safetensors:

FROM /path/to/safetensors/directory

Если вы создаете файл модели в том же каталоге, что и весы, вы можете использовать команду FROM .. Теперь запустите команду ollama create из каталога, в котором вы создали файл модели:

ollama create my-model

Наконец, протестируйте модель:

ollama run my-model

Ollama поддерживает импорт моделей для нескольких различных архитектур, включая:

  • Llama (включая Llama 2, Llama 3, Llama 3.1, и Llama 3.2);
  • Mistral (включая Mistral 1, Mistral 2, и Mixtral);
  • Gemma (включая Gemma 1 и Gemma 2); и
  • Phi3

Это включает в себя импорт базовых моделей, а также любых точно настроенных моделей, которые были объединены с базовой моделью.

Импорт модели или адаптера на основе GGUF

Если у вас есть модель или адаптер на основе GGUF, их можно импортировать в Ollama. Вы можете получить модель или адаптер на основе GGUF, выполнив:

  • преобразование модели Safetensors с помощью convert_hf_to_gguf.py из Llama.cpp;
  • преобразование адаптера Safetensors с помощью convert_lora_to_gguf.py из Llama.cpp; or
  • загрузка модели или адаптера из такого места, как HuggingFace

Чтобы импортировать модель GGUF, создайте файл модели, содержащий:

FROM /path/to/file.gguf

Для адаптера GGUF создайте файл модели с помощью:

FROM <model name>
ADAPTER /path/to/file.gguf

При импорте адаптера GGUF важно использовать ту же базовую модель, что и базовая модель, с помощью которой адаптер был создан. Вы можете использовать:

  • модель из Олламы
  • файл GGUF
  • модель, основанная на Safetensors

После того как вы создали свой файл модели, используйте команду ollama create для создания модели.

ollama create my-model

 

Квантование модели

Квантование модели позволяет запускать модели быстрее и с меньшим потреблением памяти, но с меньшей точностью. Это позволяет запускать модель на более скромном оборудовании. Ollama может квантовать модели на базе FP16 и FP32 на разных уровнях квантования, используя флаг -q/--quantizeс помощью команды ollama create. Сначала создайте файл модели с моделью на основе FP16 или FP32, которую вы хотите квантовать.

FROM /path/to/my/gemma/f16/model

Используйте ollama create, чтобы затем создать квантованную модель.

$ ollama create --quantize q4_K_M mymodel
transferring model data
quantizing F16 model to Q4_K_M
creating new layer sha256:735e246cc1abfd06e9cdcf95504d6789a6cd1ad7577108a70d9902fef503c1bd
creating new layer sha256:0853f0ad24e5865173bbf9ffcc7b0f5d56b66fd690ab1009867e45e7d2c4db0f
writing manifest
success

 

Поддерживаемые квантования

  • q8_0

K-means Quantizations

  • q4_K_S
  • q4_K_M

Делитесь своей моделью на ollama.com

Вы можете поделиться любой созданной вами моделью, нажав на нее ollama.com чтобы другие пользователи могли опробовать его. Сначала с помощью своего браузера перейдите на страницу регистрации в Ollama.  Если у вас уже есть учетная запись, вы можете пропустить этот шаг.

Поле Username будет использоваться как часть имени вашей модели (например, jmorganca/mymodel), поэтому убедитесь, что выбранное вами имя пользователя вас устраивает. Теперь, когда вы создали учетную запись и вошли в систему, перейдите на страницу настроек Ollama Keys. Следуйте инструкциям на странице, чтобы определить, где находится ваш открытый ключ Ollama.

Нажмите на кнопку "Добавить открытый ключ Ollama", скопируйте и вставьте содержимое вашего открытого ключа Ollama в текстовое поле. Чтобы переместить модель в ollama.com, сначала убедитесь, что она правильно названа вашим именем пользователя. Возможно, вам придется использовать команду ollama cp, чтобы скопировать вашу модель и присвоить ей правильное название. Как только название вашей модели вас устроит, используйте команду ollama push, чтобы переместить ее в ollama.com.

ollama cp mymodel myuser/mymodel
ollama push myuser/mymodel

Как только ваша модель будет запущена, другие пользователи смогут извлечь и запустить ее с помощью команды:

ollama run myuser/mymodel

 

https://docs.ollama.com/import#Importing-a-fine-tuned-adapter-from-Safetensors-weights