Google Cloud объявила о добавлении поддержки графических процессоров NVIDIA L4 в Cloud Run в режиме предварительного просмотра. Это открывает множество новых возможностей для разработчиков Cloud Run, в том числе:
* Выполнение вывода в режиме реального времени с использованием легковесных открытых моделей, таких как открытые модели Gemma (2B/7B) от Google или Llama 3 (8B) от Meta, для создания пользовательских чат-ботов или быстрого обобщения документов, а также масштабирование для обработки пиковой нагрузки пользователей.
* Обслуживание пользовательских точно настроенных моделей генеративного ИИ, таких как генерация изображений, адаптированная к бренду вашей компании, и сокращение масштабов для оптимизации затрат, когда они никем не используются.
* Ускорение ресурсоемких сервисов Cloud Run, таких как распознавание изображений по запросу, транскодирование и потоковая передача видео, а также 3D-рендеринг.
Будучи полностью управляемой платформой, Cloud Run позволяет запускать код непосредственно поверх масштабируемой инфраструктуры Google, сочетая гибкость контейнеров с простотой безсерверной архитектуры, что помогает повысить производительность. С помощью Cloud Run можно запускать внешние и внутренние сервисы, пакетные задания, развертывать веб-сайты и приложения, а также обрабатывать рабочие нагрузки очередей — и все это без необходимости управления базовой инфраструктурой.
В то же время многие рабочие нагрузки, выполняющие вывод ИИ, особенно приложения, требующие обработки в режиме реального времени, нуждаются в ускорении с помощью графического процессора для обеспечения быстрого отклика для пользователей. Благодаря поддержке графических процессоров NVIDIA можно выполнять вывод ИИ по запросу в режиме онлайн с помощью выбранных вами больших языковых моделей (LLM) за считанные секунды.
Первые пользователи с энтузиазмом восприняли сочетание Cloud Run и графических процессоров NVIDIA.
«Поддержка графических процессоров в Cloud Run стала переломным моментом для наших приложений вывода в режиме реального времени. Низкая задержка при холодном запуске впечатляет: наши модели могут выдавать прогнозы практически мгновенно, что критически важно для обеспечения удобства пользователей в сценариях, чувствительных ко времени. Кроме того, графические процессоры Cloud Run обеспечивают стабильно минимальную задержку обслуживания при различных нагрузках, гарантируя, что наши приложения генеративного ИИ всегда будут отзывчивыми и надежными, а также легко масштабироваться до нуля в периоды бездействия. В целом, графические процессоры Cloud Run значительно расширили наши возможности по предоставлению пользователям быстрых, точных и эффективных результатов», — говорит Томас Менар, руководитель отдела ИИ в L’Oréal Global Beauty Tech.
В целом, добавление поддержки графических процессоров NVIDIA в Cloud Run — это важное событие для разработчиков, стремящихся создавать приложения вывода ИИ в режиме реального времени. Эта функция позволит разработчикам использовать мощь графических процессоров NVIDIA, пользуясь при этом простотой использования и масштабируемостью Cloud Run.
Чтобы начать работу с Cloud Run с графическими процессорами NVIDIA, зарегистрируйтесь в программе предварительной оценки по адресу g.co/cloudrun/gpu.