Google Cloud опубликовал практическое руководство по генерации синтетических данных с помощью Gretel и BigQuery DataFrames. В этом руководстве подробно рассматриваются технические аспекты генерации синтетических данных, уделяя особое внимание обеспечению высокого качества данных, защите конфиденциальности и соблюдению нормативных требований. В руководстве рассматривается работа с таблицей записей пациентов в BigQuery, деидентификация данных в части 1 и последующая генерация синтетических данных для сохранения обратно в BigQuery в части 2. Также рассматриваются важные аспекты, такие как установка и настройка инструментов Gretel и BigQuery DataFrames, а также использование Gretel Transform v2 для деидентификации персональных данных (PII). Кроме того, демонстрируется, как использовать Navigator Fine Tuning (NavFT) от Gretel для генерации высококачественных, специфичных для предметной области синтетических данных путем точной настройки предварительно обученных моделей на наборах данных. Руководство также включает примеры кода и советы по использованию BigQuery с Gretel. Следуя этому руководству, пользователи могут раскрыть потенциал синтетических данных для улучшения своих рабочих процессов в области науки о данных, аналитики и разработки ИИ, обеспечивая при этом конфиденциальность и соответствие данных.