Google Cloud объявила о переименовании своего Cloud HPC Toolkit в Cluster Toolkit, расширив его возможности для охвата рабочих нагрузок AI/ML. Этот набор инструментов призван упростить создание и управление высокопроизводительными вычислительными средами в Google Cloud.

Это изменение отражает широкое внедрение Cluster Toolkit в различных областях, от научных и технических вычислений до приложений AI/ML.

Упрощая настройку и развертывание кластеров, Cluster Toolkit позволяет пользователям сосредоточиться на своих рабочих нагрузках, а не на управлении инфраструктурой. Он также предлагает гибкость для различных вычислительных задач, поддерживая несколько планировщиков, таких как Slurm, GKE и Batch.

Ключевые преимущества Cluster Toolkit включают:

* Простое развертывание и управление кластерами

* Варианты быстрого запуска для рабочих нагрузок HPC и AI/ML

* Интеграция лучших практик Google Cloud

* Регулярные обновления и новые функции

* Доступность с открытым исходным кодом

Вот некоторые из новых функций Cluster Toolkit:

* A3 Mega Blueprint: для развертывания кластера виртуальных машин A3 Mega, готовых к обучению больших языковых моделей (LLM) и других рабочих нагрузок AI/ML.

* Образ виртуальной машины HPC: образ виртуальной машины с предустановленными популярными инструментами и библиотеками HPC.

* Slurm-gcp v6: последняя версия решения Slurm-gcp, которая обеспечивает удобную работу с рабочими нагрузками Slurm в Google Cloud.

Настоятельно рекомендуется обновить локальные клоны и имена команд, чтобы избежать путаницы.

Чтобы начать работу с Cluster Toolkit, выберите один из простых в использовании шаблонов HPC и AI/ML, доступных в репозитории GitHub, и используйте его для настройки кластера. Они также предлагают различные ресурсы, которые помогут вам начать работу, включая документацию, краткие руководства и видео.