Flink1.17 был выпущен всего несколько дней назад. Кратко поговорим о нескольких важных обновлениях:
Пакетная часть
Пакетная часть На этот раз есть еще три важных FLIP:
- Streaming Warehouse API: FLIP-282 во Флинке SQL представил новые Delete и Update API, их можно найти по адресу Batch работать в режиме. На этой основе внешние системы хранения, такие как Flink Table Store Эти новые API Реализуйте удаление и обновление на уровне строк. в то же время ALTER TABLE Синтаксис был улучшен, в том числе ADD/MODIFY/DROP Столбец, первичный ключ и watermark Из возможностей эти улучшения упрощают пользователям обслуживание данных элементов.
- Batch производительностьоптимизация: существовать Flink 1.17 середина, при пакетном выполнении заданий производительность, стабильность и удобство использования были значительно улучшены. С точки зрения производительности, благодаря стратегии оптимизации и оптимизации оператора, как новой из join-reorder Алгоритм и адаптивная оптимизация локального хэш-агрегирования, Hive Улучшения агрегатных функций и смешивание shuffle Режим оптимизации, эти улучшения приносят 26% из TPC-DS Улучшения производительности. Что касается стабильности, Flink 1.17 Прогнозируемое выполнение может поддерживать всех операторов, а адаптивное планирование пакетной обработки позволяет лучше справляться с искаженными сценариями. С точки зрения удобства использования объем настроек, необходимых для пакетных заданий, был значительно сокращен. Адаптивное пакетное планирование включено по умолчанию, гибридное shuffle Теперь этот режим совместим с прогнозирующим выполнением и адаптивным пакетным планированием, а все необходимые конфигурации упрощены.
- SQL Client/Gateway: Apache Flink 1.17 Поддерживается SQL Client из gateway режим, позволяющий пользователю SQL Отправить на удаленку SQL Шлюз. При этом пользователи могут существовать SQL Client используется в SQL Операторы для управления заданиями, включая запрос информации о задании, остановку текущих заданий и т. д. это означает SQL Client/Gateway Он превратился в инструмент управления заданиями и подачи заявок.
Второй и третий пункты в настоящее время оказывают наибольшее влияние на всеобщее развитие. Возможности Flink Batch теперь относительно полны и стабильны. Многие крупные производители перешли с оригинальных инструментов, таких как DataX, на Flink Batch SQL для пакетных задач в автономном режиме. производные. Например, следующие 2 сценария:
- Необходимо импортировать данные истории в таблицу измерений середина.,Hive->HbaseилиHive->Redis,Flink Batch SQL может быть лучшим выбором, и Flink Пакетные задачи можно координировать с системой планирования для обеспечения обновления таблиц измерений на уровне дня;
- Данные таблицы измерений требуют более сложной логики ассоциации или обработки. Теперь эту логику можно написать во Flink. Batch SQL, а затем запланируйте его запуск. Отказаться от первоначальной потребности существовать в автономном режиме После того, как задача середина обработана, за ней висит производная задача из сцены.
Два вышеуказанных сценария уже стали обязательными требованиями у некоторых крупных производителей.
Что касается API Streaming Warehouse, то он еще далек от разработчиков. Вы можете подождать, пока функции будут улучшены и окружающая интегрированная экология пакетного потока станет более полной, прежде чем рассматривать возможность обращения к нему.
Более того, сегодня Flink Table Store объявил, что проект работает самостоятельно и вошел в инкубатор Apache под названием Apache Paimon. На это мы обратим внимание позже, чтобы не торопиться следовать этому примеру.
Потоковая часть
Основные изменения, внесенные в эту часть, заключаются в следующем:
- Streaming SQL Семантическое улучшение: Недетерминированные операции могут привести к неверным результатам или исключениям, которые существуют. Streaming SQL середина – очень сложная тема. Флинк 1.17 Исправлена некорректная проблема с функциональностью изооптимизации и введены экспериментальные функции. PLAN_ADVICE,PLAN_ADVICE может быть SQL Пользователи предоставляют советы о потенциальном риске неправильности и SQL оптимизацияпредположение。
- Checkpoint улучшать: Универсальное приращение Контрольно-пропускной пункт (GIC) улучшен Checkpoint из Скорость и Стабильность, Без выравнивания Checkpoint (UC) существование из Стабильность также существует при работе под противодавлением Flink 1.17 От среднего до уровня готовности к производству. Кроме того, в этой версии представлен новый REST API Позволяет пользователям запускать настройку Checkpoint Тип из Checkpoint。
- Watermark Идеальное выравнивание: Эффективный watermark Устранение прямых последствий event time Операцияизосуществлятьэффективность,существовать Flink 1.17 середина, ФЛИП-217 передан дальше Source Оператор внутренний из split Выполните запуск, согласованный с данными, доведенный до совершенства watermark Функция выравнивания. Это улучшение делает Source середина watermark Прогресс стал более скоординированным,Тем самым уменьшая проблему чрезмерного кэширования данных нижестоящих операторов.,Улучшенное потоковое выполнение заданий благодаря общей эффективности.
- StateBackend обновление: Этот выпуск будет Версия FRocksDBиз обновлена до 6.20.3-ververica-2.0, да RocksDBStateBackend принес много улучшений. например существовать slot Общая память между Apple Silicon чипсеты, такие как Mac M1。Flink 1.17 версия также обеспечивает расширение параметров TaskManager из slot Общая память из диапазона между, улучшена TaskManager середина slot При неравномерном использовании памяти изэффективность.
Об этой части сказать нечего. Возможности Flink Streaming теперь очевидны для всех. Улучшение и оптимизация Checkpoint и StateBackend для сред с высоким трафиком и высоким числом запросов в секунду всегда были в центре внимания крупных компаний.
Можно предвидеть, что вычисления в реальном времени и фактическая интеграция пакетной и потоковой обработки (так называемая интеграция пакетной и потоковой обработки, используемая крупными компаниями, раньше была всего лишь трюком) продолжат добиваться больших успехов в 2023 году. Согласно требованиям, мы должны быстро освоить и без того относительно полные функции. Область разработки данных является одной из областей с самым быстрым развитием и наибольшими достижениями в различных областях развития за последние годы.
Давайте все, не отступайте от времени.