Компания Yahoo недавно опубликовала тематическое исследование, в котором сравниваются затраты и производительность Apache Flink и Google Cloud Dataflow для крупномасштабных конвейеров данных. В ходе исследования было установлено, что Dataflow примерно в 1,5–2 раза экономичнее, чем Apache Flink с самостоятельным управлением, для протестированных вариантов использования.

Одним из интересных аспектов исследования является то, как в нем подчеркивается важность механизма потоковой передачи Dataflow для оптимизации затрат. Механизм потоковой передачи передает большую часть ресурсоемких вычислений на внутренний сервер Dataflow, сокращая количество виртуальных процессоров, необходимых для рабочих Dataflow. Это приводит к снижению использования ресурсов и, следовательно, к снижению затрат.

Кроме того, в исследовании подчеркивается важность тщательной настройки и постоянных экспериментов при оптимизации конвейеров Dataflow. Было установлено, что модель выставления счетов на основе ресурсов особенно эффективна для оптимизации затрат на рабочие нагрузки, основанные на пропускной способности.

В целом, тематическое исследование Yahoo дает ценные сведения для организаций, стремящихся оптимизировать свои крупномасштабные конвейеры данных. Подчеркивая преимущества Dataflow с точки зрения экономии затрат, особенно в сочетании с механизмом потоковой передачи и моделью выставления счетов на основе ресурсов, в нем представлены убедительные аргументы в пользу того, чтобы компании рассматривали Dataflow для своих нужд обработки данных.