В этой статье объясняется разница между потоковой обработкой и пакетной обработкой на платформах больших данных.
В этой статье объясняется разница между потоковой обработкой и пакетной обработкой на платформах больших данных.

Разница между потоковой обработкой данных и пакетной обработкой данных в основном заключается в методе обработки данных, своевременности, конструкции архитектуры и применимых сценариях. Хотя как системы пакетной обработки, так и системы потоковой обработки могут обрабатывать данные, их методы и цели обработки данных различны. Ниже я проанализирую различия между «потоковой обработкой данных» и «пакетной обработкой данных».

1. Потоковая обработка данных и пакетная обработка данных

Потоковая обработка

  • определение: Потоковая обработка Данные относятся к непрерывной обработке потоков данных в реальном времени. Данные обрабатываются сразу после их создания или получения, не дожидаясь поступления всех данных. Обработка и передача данных происходит поэлементно.
  • Функции:
    • в реальном времени: Как только данные попадают в систему, они немедленно обрабатываются, что позволяет системе обрабатывать потоки данных в реальном времени, например, от датчиков, журналов посещений, финансовых транзакций и т. д.
    • Неограниченный поток данных: Потоковая передача данных обычно не ограничена, данные генерируются и обрабатываются непрерывно, и система должна работать непрерывно.
    • низкая задержка: Поскольку данные обрабатываются в режиме реального времени, время ответа системы очень короткое, обычно порядка миллисекунд или секунд.
    • Архитектура: Потоковая системам обработки обычно требуются процессоры, очереди, кэши и другие компоненты для поддержки высокой скорости. пропускная способностьинизкая задержка。

Пакетная обработка

  • определение: Пакетная обработка Данные относятся к сбору пакета данных в течение заранее определенного времени и последующей одновременной обработке пакета данных. Данные пакетные обработку, а не рассмотрение их по пунктам.
  • Функции:
    • Обработка полных наборов данных: Пакетная обработка обычно выполняется после того, как все данные собраны, что означает, что обрабатываемый набор данных имеет фиксированный размер (например, ежедневные, почасовые данные).
    • Высокая пропускная способность: Поскольку данные могут быть обработаны за один раз, пакетная обработка обычно может обрабатывать большие объемы данных, но имеет длительное время отклика.
    • Архитектура: Пакетная системы обработки обычно используют планировщики、Задачаочередьи数据仓库等组件,Может использовать дисковое пространство во время обработки,вместо того, чтобы полагаться на память.
    • Задерживать: Пакетная обработка обычно не происходит в режиме реального времени, и время обработки может составлять минуты, часы или даже больше.

2. Почему существуют потоки и пакеты?

  • в реальном временинуждаться:
    • Потоковая обработка подходит для сценариев обработки данных, требующих ответа в реальном времени.,Например, система мониторинга, торговая система、Данные устройств IoT и т. д.
    • Пакетная обработка подходит для сценариев, не требующих немедленного реагирования, таких как ежедневные бизнес-отчеты, ночная загрузка хранилища данных и т. д.
  • Методы обработки данных:
    • существовать Потоковая обработкав системе,Данные обрабатываются по частям небольшими порциями или отдельными записями.,Результаты обработки могут быть выведены немедленно.
    • существовать Пакетная обработкав системе,Данные собираются пакетно,Затем вся партия обрабатывается одновременно.
  • система Архитектура:
    • Потоковая системы обработки обычно используют непрерывно работающие конвейеры, по которым данные передаются от одного узла к другому. Проект системы должен учитывать плавный поток данных и реальном времени。
    • Система пакетной обработки ориентирована на задачи.,Задача начинает выполнение в определенный момент времени,После обработки генерируются выходные результаты.

3. Разница между объектами данных памяти и потоками и пакетами

  • объект данных в памяти:
    • Будь то Потоковая обработкавсе еще Пакетная обработки данные могут временно сохраняться в памяти во время обработки. Однако как в управлении, так и в использовании этих объектов данных Есть различия в памяти.
    • Использование памяти Потоковой обработкой обычно кратковременно, поскольку данные быстро проходят через узлы обработки данных.
    • Пакетная Использование памяти при обработке может быть более интенсивным из-за необходимости обработки полных пакетов данных в памяти, что может привести к необходимости использования больших ресурсов памяти или частого использования дискового пространства. I/O。

4. Типичные платформы потоковой и пакетной обработки

  • Apache NiFi:
    • Поток данных передается от одного процессора к другому, и данные можно обрабатывать, фильтровать, преобразовывать, маршрутизировать и т. д. в любое время. Данные могут представлять собой потоковые данные, которые постоянно поступают, например данные датчиков Интернета вещей.
    • Каждый фрагмент данных будет обработан сразу после поступления в систему. После обработки данные будут переданы на следующий узел обработки. Весь процесс выполняется в режиме реального времени.
  • ETLCloud:
    • Данные обычно считываются из источника и загружаются в память в начале задачи.,Затем выполните шаги преобразования определения для пакетной обработки. Например, читать все записи таблицы из базы данных каждый час.,Затем очистите и преобразуйте эти записи,Наконец загрузите его в целевую базу данных.
    • Обработка данных выполняется при выполнении задачи, а все операции преобразования завершаются сразу после подготовки всех данных.
    • Хотя также можно использовать данные Потоковой в реальном времени. обработка, но не специально для Потоковой на раме обработка разработана, больше подходит для потоковой передачи в реальном времени. обработка。

Подвести итог

  • Потоковая обработка: акцент в реальном время и постоянство, подходит для обработки неограниченных и непрерывно генерируемых потоков данных. Апач NiFi Посредством «обработки по одному» реализуется обработка потоковых данных в реальном времени.
  • Пакетная обработка: Он подчеркивает централизованную обработку фиксированных пакетов данных и подходит для обработки наборов данных с четкими границами. ETLCloud использует «пакетную обработку» для одновременной обработки пакета данных.

Хотя как потоковая, так и пакетная обработка могут обрабатывать объекты данных в памяти, их логика обработки и концепции проектирования различны, и они подходят для разных сценариев приложений.

boy illustration
Углубленный анализ переполнения памяти CUDA: OutOfMemoryError: CUDA не хватает памяти. Попыталась выделить 3,21 Ги Б (GPU 0; всего 8,00 Ги Б).
boy illustration
[Решено] ошибка установки conda. Среда решения: не удалось выполнить первоначальное зависание. Повторная попытка с помощью файла (графическое руководство).
boy illustration
Прочитайте нейросетевую модель Трансформера в одной статье
boy illustration
.ART Теплые зимние предложения уже открыты
boy illustration
Сравнительная таблица описания кодов ошибок Amap
boy illustration
Уведомление о последних правилах Points Mall в декабре 2022 года.
boy illustration
Даже новички могут быстро приступить к работе с легким сервером приложений.
boy illustration
Взгляд на RSAC 2024|Защита конфиденциальности в эпоху больших моделей
boy illustration
Вы используете ИИ каждый день и до сих пор не знаете, как ИИ дает обратную связь? Одна статья для понимания реализации в коде Python общих функций потерь генеративных моделей + анализ принципов расчета.
boy illustration
Используйте (внутренний) почтовый ящик для образовательных учреждений, чтобы использовать Microsoft Family Bucket (1T дискового пространства на одном диске и версию Office 365 для образовательных учреждений)
boy illustration
Руководство по началу работы с оперативным проектом (7) Практическое сочетание оперативного письма — оперативного письма на основе интеллектуальной системы вопросов и ответов службы поддержки клиентов
boy illustration
[docker] Версия сервера «Чтение 3» — создайте свою собственную программу чтения веб-текста
boy illustration
Обзор Cloud-init и этапы создания в рамках PVE
boy illustration
Корпоративные пользователи используют пакет регистрационных ресурсов для регистрации ICP для веб-сайта и активации оплаты WeChat H5 (с кодом платежного узла версии API V3)
boy illustration
Подробное объяснение таких показателей производительности с высоким уровнем параллелизма, как QPS, TPS, RT и пропускная способность.
boy illustration
Удачи в конкурсе Python Essay Challenge, станьте первым, кто испытает новую функцию сообщества [Запускать блоки кода онлайн] и выиграйте множество изысканных подарков!
boy illustration
[Техническая посадка травы] Кровавая рвота и отделка позволяют вам необычным образом ощипывать гусиные перья! Не распространяйте информацию! ! !
boy illustration
[Официальное ограниченное по времени мероприятие] Сейчас ноябрь, напишите и получите приз
boy illustration
Прочтите это в одной статье: Учебник для няни по созданию сервера Huanshou Parlu на базе CVM-сервера.
boy illustration
Cloud Native | Что такое CRD (настраиваемые определения ресурсов) в K8s?
boy illustration
Как использовать Cloudflare CDN для настройки узла (CF самостоятельно выбирает IP) Гонконг, Китай/Азия узел/сводка и рекомендации внутреннего высокоскоростного IP-сегмента
boy illustration
Дополнительные правила вознаграждения амбассадоров акции в марте 2023 г.
boy illustration
Можно ли открыть частный сервер Phantom Beast Palu одним щелчком мыши? Супер простой урок для начинающих! (Прилагается метод обновления сервера)
boy illustration
[Играйте с Phantom Beast Palu] Обновите игровой сервер Phantom Beast Pallu одним щелчком мыши
boy illustration
Maotouhu делится: последний доступный внутри страны адрес склада исходного образа Docker 2024 года (обновлено 1 декабря)
boy illustration
Кодирование Base64 в MultipartFile
boy illustration
5 точек расширения SpringBoot, супер практично!
boy illustration
Глубокое понимание сопоставления индексов Elasticsearch.
boy illustration
15 рекомендуемых платформ разработки с нулевым кодом корпоративного уровня. Всегда найдется та, которая вам понравится.
boy illustration
Аннотация EasyExcel позволяет экспортировать с сохранением двух десятичных знаков.