А точнее, как запустить нейросеть на своем компьютере или сервере и дообучить ее.
Тема достаточно сложная, и чтобы было более понятно, я попробую раскрыть ее на простом примере.
Допустим, у нас есть переписка в ВК с нашим лучшим другом с 2007 года. Там десятки, а может и сотни тысяч сообщений, и в какой-то момент наш друг перестает с нами общаться, и мы решаем оцифровать его.
Нехитрым запросом из VK API мы выкачиваем всю нашу базу сообщений, очищаем ее от мусора с повторами и переводим в JSON-формат вида: сообщение — ответ.
Дальше мы идем на сайт https://ollama.com/ и устанавливаем Ollama себе на компьютер или сервер. Выбираем модель, которую будем дообучать (https://ollama.com/search), допустим, Llama-3.1-8B-Instruct.
После чего нам потребуется компьютер с мощной GPU (можно арендовать на день в облаке), на который мы устанавливаем LLaMA-Factory.
Загружаем в LLaMA-Factory наш JSON-файл и дообучаем модель методом LoRA.
На выходе мы получаем набор файлов, которые необходимо слить в базовую модель, конвертировать в GGUF, сжать и загрузить в Ollama.
После чего создаем телеграм-бота и скрипт-обработчик, например, на PHP или Python, который будет обращаться к нашей модели по API и отвечать нам.
Создаем дополнительную базу RAG (все та же наша переписка), чтобы модель общалась не только как наш друг, а еще и помнила, о чем мы общались.
Готово! Теперь мы стали на шаг ближе к одиночеству. 😀
Ну, а если серьезно, то данным постом я хотел показать, что поднять свою нейронную сеть и дообучить ее простым вещам не так уж и сложно. И что данные технологии можно использовать совершенно в разнообразных сферах, не завися от сторонних сервисов.
Хотя, чтобы ответы были быстрыми и точными, придется прикупить мощного железа.