Google Cloud объявила о переименовании своего Cloud HPC Toolkit в Cluster Toolkit, расширив его возможности для охвата рабочих нагрузок AI/ML. Этот набор инструментов призван упростить создание и управление высокопроизводительными вычислительными средами в Google Cloud.
Это изменение отражает широкое внедрение Cluster Toolkit в различных областях, от научных и технических вычислений до приложений AI/ML.
Упрощая настройку и развертывание кластеров, Cluster Toolkit позволяет пользователям сосредоточиться на своих рабочих нагрузках, а не на управлении инфраструктурой. Он также предлагает гибкость для различных вычислительных задач, поддерживая несколько планировщиков, таких как Slurm, GKE и Batch.
Ключевые преимущества Cluster Toolkit включают:
* Простое развертывание и управление кластерами
* Варианты быстрого запуска для рабочих нагрузок HPC и AI/ML
* Интеграция лучших практик Google Cloud
* Регулярные обновления и новые функции
* Доступность с открытым исходным кодом
Вот некоторые из новых функций Cluster Toolkit:
* A3 Mega Blueprint: для развертывания кластера виртуальных машин A3 Mega, готовых к обучению больших языковых моделей (LLM) и других рабочих нагрузок AI/ML.
* Образ виртуальной машины HPC: образ виртуальной машины с предустановленными популярными инструментами и библиотеками HPC.
* Slurm-gcp v6: последняя версия решения Slurm-gcp, которая обеспечивает удобную работу с рабочими нагрузками Slurm в Google Cloud.
Настоятельно рекомендуется обновить локальные клоны и имена команд, чтобы избежать путаницы.
Чтобы начать работу с Cluster Toolkit, выберите один из простых в использовании шаблонов HPC и AI/ML, доступных в репозитории GitHub, и используйте его для настройки кластера. Они также предлагают различные ресурсы, которые помогут вам начать работу, включая документацию, краткие руководства и видео.