Google Cloud опубликовал статью в блоге, в которой объясняется, как развернуть модель Meta Llama 3.2-1B-Instruct в Cloud Run с помощью GPU. В этой статье представлены пошаговые инструкции о том, как использовать Cloud Run GPU для развертывания больших языковых моделей (LLM) с открытым исходным кодом. В статье также рассматриваются лучшие практики для оптимизации процесса разработки с помощью локального тестирования моделей с использованием образа Docker для вывода текста (TGI), что упрощает устранение неполадок и повышает производительность. С Cloud Run GPU разработчики получают те же преимущества доступности по запросу и легкой масштабируемости, которые они ценят в CPU и памяти Cloud Run, а также дополнительную мощность графических процессоров NVIDIA. Когда ваше приложение простаивает, экземпляры с GPU автоматически уменьшаются до нуля, что оптимизирует ваши расходы. В статье также приводятся советы по улучшению холодного запуска с помощью Cloud Storage FUSE. Cloud Storage FUSE позволяет разработчикам монтировать корзины Google Cloud Storage как файловую систему, что значительно сокращает время холодного запуска.