Некоторые моменты, на которые необходимо обратить внимание в области разработки данных после выхода Flink 1.17
Некоторые моменты, на которые необходимо обратить внимание в области разработки данных после выхода Flink 1.17

Flink1.17 был выпущен всего несколько дней назад. Кратко поговорим о нескольких важных обновлениях:

Пакетная часть

Пакетная часть На этот раз есть еще три важных FLIP:

  1. Streaming Warehouse API: FLIP-282 во Флинке SQL представил новые Delete и Update API, их можно найти по адресу Batch работать в режиме. На этой основе внешние системы хранения, такие как Flink Table Store Эти новые API Реализуйте удаление и обновление на уровне строк. в то же время ALTER TABLE Синтаксис был улучшен, в том числе ADD/MODIFY/DROP Столбец, первичный ключ и watermark Из возможностей эти улучшения упрощают пользователям обслуживание данных элементов.

  1. Batch производительностьоптимизация: существовать Flink 1.17 середина, при пакетном выполнении заданий производительность, стабильность и удобство использования были значительно улучшены. С точки зрения производительности, благодаря стратегии оптимизации и оптимизации оператора, как новой из join-reorder Алгоритм и адаптивная оптимизация локального хэш-агрегирования, Hive Улучшения агрегатных функций и смешивание shuffle Режим оптимизации, эти улучшения приносят 26% из TPC-DS Улучшения производительности. Что касается стабильности, Flink 1.17 Прогнозируемое выполнение может поддерживать всех операторов, а адаптивное планирование пакетной обработки позволяет лучше справляться с искаженными сценариями. С точки зрения удобства использования объем настроек, необходимых для пакетных заданий, был значительно сокращен. Адаптивное пакетное планирование включено по умолчанию, гибридное shuffle Теперь этот режим совместим с прогнозирующим выполнением и адаптивным пакетным планированием, а все необходимые конфигурации упрощены.

  1. SQL Client/Gateway: Apache Flink 1.17 Поддерживается SQL Client из gateway режим, позволяющий пользователю SQL Отправить на удаленку SQL Шлюз. При этом пользователи могут существовать SQL Client используется в SQL Операторы для управления заданиями, включая запрос информации о задании, остановку текущих заданий и т. д. это означает SQL Client/Gateway Он превратился в инструмент управления заданиями и подачи заявок.

Второй и третий пункты в настоящее время оказывают наибольшее влияние на всеобщее развитие. Возможности Flink Batch теперь относительно полны и стабильны. Многие крупные производители перешли с оригинальных инструментов, таких как DataX, на Flink Batch SQL для пакетных задач в автономном режиме. производные. Например, следующие 2 сценария:

  1. Необходимо импортировать данные истории в таблицу измерений середина.,Hive->HbaseилиHive->Redis,Flink Batch SQL может быть лучшим выбором, и Flink Пакетные задачи можно координировать с системой планирования для обеспечения обновления таблиц измерений на уровне дня;

  1. Данные таблицы измерений требуют более сложной логики ассоциации или обработки. Теперь эту логику можно написать во Flink. Batch SQL, а затем запланируйте его запуск. Отказаться от первоначальной потребности существовать в автономном режиме После того, как задача середина обработана, за ней висит производная задача из сцены.

Два вышеуказанных сценария уже стали обязательными требованиями у некоторых крупных производителей.

Что касается API Streaming Warehouse, то он еще далек от разработчиков. Вы можете подождать, пока функции будут улучшены и окружающая интегрированная экология пакетного потока станет более полной, прежде чем рассматривать возможность обращения к нему.

Более того, сегодня Flink Table Store объявил, что проект работает самостоятельно и вошел в инкубатор Apache под названием Apache Paimon. На это мы обратим внимание позже, чтобы не торопиться следовать этому примеру.

Потоковая часть

Основные изменения, внесенные в эту часть, заключаются в следующем:

  1. Streaming SQL Семантическое улучшение: Недетерминированные операции могут привести к неверным результатам или исключениям, которые существуют. Streaming SQL середина – очень сложная тема. Флинк 1.17 Исправлена ​​некорректная проблема с функциональностью изооптимизации и введены экспериментальные функции. PLAN_ADVICE,PLAN_ADVICE может быть SQL Пользователи предоставляют советы о потенциальном риске неправильности и SQL оптимизацияпредположение。

  1. Checkpoint улучшать: Универсальное приращение Контрольно-пропускной пункт (GIC) улучшен Checkpoint из Скорость и Стабильность, Без выравнивания Checkpoint (UC) существование из Стабильность также существует при работе под противодавлением Flink 1.17 От среднего до уровня готовности к производству. Кроме того, в этой версии представлен новый REST API Позволяет пользователям запускать настройку Checkpoint Тип из Checkpoint。

  1. Watermark Идеальное выравнивание: Эффективный watermark Устранение прямых последствий event time Операцияизосуществлятьэффективность,существовать Flink 1.17 середина, ФЛИП-217 передан дальше Source Оператор внутренний из split Выполните запуск, согласованный с данными, доведенный до совершенства watermark Функция выравнивания. Это улучшение делает Source середина watermark Прогресс стал более скоординированным,Тем самым уменьшая проблему чрезмерного кэширования данных нижестоящих операторов.,Улучшенное потоковое выполнение заданий благодаря общей эффективности.

  1. StateBackend обновление: Этот выпуск будет Версия FRocksDBиз обновлена ​​до 6.20.3-ververica-2.0, да RocksDBStateBackend принес много улучшений. например существовать slot Общая память между Apple Silicon чипсеты, такие как Mac M1。Flink 1.17 версия также обеспечивает расширение параметров TaskManager из slot Общая память из диапазона между, улучшена TaskManager середина slot При неравномерном использовании памяти изэффективность.

Об этой части сказать нечего. Возможности Flink Streaming теперь очевидны для всех. Улучшение и оптимизация Checkpoint и StateBackend для сред с высоким трафиком и высоким числом запросов в секунду всегда были в центре внимания крупных компаний.

Можно предвидеть, что вычисления в реальном времени и фактическая интеграция пакетной и потоковой обработки (так называемая интеграция пакетной и потоковой обработки, используемая крупными компаниями, раньше была всего лишь трюком) продолжат добиваться больших успехов в 2023 году. Согласно требованиям, мы должны быстро освоить и без того относительно полные функции. Область разработки данных является одной из областей с самым быстрым развитием и наибольшими достижениями в различных областях развития за последние годы.

Давайте все, не отступайте от времени.

boy illustration
Учебное пособие по Jetpack Compose для начинающих, базовые элементы управления и макет
boy illustration
Код js веб-страницы, фон частицы, код спецэффектов
boy illustration
【новый! Суперподробное】Полное руководство по свойствам компонентов Figma.
boy illustration
🎉Обязательно к прочтению новичкам: полное руководство по написанию мини-программ WeChat с использованием программного обеспечения Cursor.
boy illustration
[Забавный проект Docker] VoceChat — еще одно приложение для мгновенного чата (IM)! Может быть встроен в любую веб-страницу!
boy illustration
Как реализовать переход по странице в HTML (html переходит на указанную страницу)
boy illustration
Как решить проблему зависания и низкой скорости при установке зависимостей с помощью npm. Существуют ли доступные источники npm, которые могут решить эту проблему?
boy illustration
Серия From Zero to Fun: Uni-App WeChat Payment Practice WeChat авторизует вход в систему и украшает страницу заказа, создает интерфейс заказа и инициирует запрос заказа
boy illustration
Серия uni-app: uni.navigateЧтобы передать скачок значения
boy illustration
Апплет WeChat настраивает верхнюю панель навигации и адаптируется к различным моделям.
boy illustration
JS-время конвертации
boy illustration
Обеспечьте бесперебойную работу ChromeDriver 125: советы по решению проблемы chromedriver.exe не найдены
boy illustration
Поле комментария, щелчок мышью, специальные эффекты, js-код
boy illustration
Объект массива перемещения объекта JS
boy illustration
Как открыть разрешение на позиционирование апплета WeChat_Как использовать WeChat для определения местонахождения друзей
boy illustration
Я даю вам два набора из 18 простых в использовании фонов холста Power BI, так что вам больше не придется возиться с цветами!
boy illustration
Получить текущее время в js_Как динамически отображать дату и время в js
boy illustration
Вам необходимо изучить сочетания клавиш vsCode для форматирования и организации кода, чтобы вам больше не приходилось настраивать формат вручную.
boy illustration
У ChatGPT большое обновление. Всего за 45 минут пресс-конференция показывает, что OpenAI сделал еще один шаг вперед.
boy illustration
Copilot облачной разработки — упрощение разработки
boy illustration
Микросборка xChatGPT с низким кодом, создание апплета чат-бота с искусственным интеллектом за пять шагов
boy illustration
CUDA Out of Memory: идеальное решение проблемы нехватки памяти CUDA
boy illustration
Анализ кластеризации отдельных ячеек, который должен освоить каждый&MarkerгенетическийВизуализация
boy illustration
vLLM: мощный инструмент для ускорения вывода ИИ
boy illustration
CodeGeeX: мощный инструмент генерации кода искусственного интеллекта, который можно использовать бесплатно в дополнение к второму пилоту.
boy illustration
Машинное обучение Реальный бой LightGBM + настройка параметров случайного поиска: точность 96,67%
boy illustration
Бесшовная интеграция, мгновенный интеллект [1]: платформа больших моделей Dify-LLM, интеграция без кодирования и встраивание в сторонние системы, более 42 тысяч звезд, чтобы стать свидетелями эксклюзивных интеллектуальных решений.
boy illustration
LM Studio для создания локальных больших моделей
boy illustration
Как определить количество слоев и нейронов скрытых слоев нейронной сети?
boy illustration
[Отслеживание целей] Подробное объяснение ByteTrack и детали кода