Подробное объяснение структуры платформы больших данных, ее компонентов и процедур обработки.
Подробное объяснение структуры платформы больших данных, ее компонентов и процедур обработки.

Всем привет, мы снова встретились, я ваш друг Цюаньчжаньцзюнь.

данныепродукты иданныенеотделимый актданные Менеджеры по продукту понимаютданныепроизведено из、Сохранение в приложенииизвесь процесс,以及大данныеСтроительство необходимо принятьизтехническая основаHadoopда Существенныйизсписок знаний,Таким образом, при создании продуктов на основе данных вы сможете понять ценность данных для производства с глобальной точки зрения. В этой статье рассматриваются три аспекта:

1. Процесс обработки больших данных

2. Платформа больших данных Hadoop

3. Компоненты экосистемы Hadoop

Понимать процесс каждого звена от создания данных до применения сценариев, а также техническую структуру Hadoop, которую предприятия должны использовать при создании платформы больших данных, и функции более чем 60 компонентов в экосистеме. Быть менеджером по продуктам данных — это значит. просто введение, а не глубокое погружение. Понимание технологии, с одной стороны, позволяет взглянуть на данные глобально. Когда возникает проблема с бизнес-данными, можно точно определить, в каком канале возникла проблема, и является ли она проблемой с данными. источник или проблема с логикой запроса данных. С другой стороны, обработка данных требует понимания основных принципов и логики.

Процесс обработки больших данных:

1. Производство данных

2. Сбор данных

3. Предварительная обработка данных

4. Хранение данных

5. Интеллектуальный анализ данных, статистика и анализ

6. ETL данных и реляционная база данных хранения

7. Визуализация данных

Выше представлен весь процесс потока данных, который включает в себя 7 звеньев: от создания данных до их хранения и до общего процесса применения визуализации данных. На следующем рисунке показан весь процесс обработки данных:

1Производство данных

В процессе производства данных используются три основных источника данных: данные журналов, бизнес-база данных и данные Интернета.

Данные журнала: предприятия предоставляют продукты пользователям. После того, как пользователи взаимодействуют с продуктами, данные журнала собираются через Flume и загружаются в файловую систему HDFS для автономной обработки. В то же время данные загружаются в Kafka. очередь сообщений как данные для буферизации и обработки в реальном времени.

Бизнес-данные: Бизнес-данные включают в себя бизнес-данные, созданные самим предприятием, такие как данные пользователей, заказы на данные и т. д.,Сюда также входят сторонние компании, предоставляющие услуги на основе взаимоотношений. Импортируйте и экспортируйте в распределенную файловую систему HDFS или реляционную библиотеку данных через Sqoop. Если вы заинтересованы в разработке больших данных,Я хочу изучать китайский язык систематически.,Вы можете присоединиться к большомуданные Обмен техническим обучением Кукоджуньян:522189307

Данные Интернета. В основном используются сканеры для сканирования данных на веб-страницах Интернета и API-интерфейсов, предоставляемых платформой, включая структурированные, полуструктурированные и неструктурированные данные, а затем очистка данных через ETL и сохранение их как данные локальной веб-страницы.

2Сбор данных

Компоненты, используемые для сбора данных, в основном включают Flume, Sqoop и Kafka. Flume в основном используется для сбора данных журналов, Sqoop в основном используется для импорта и экспорта данных в реляционные базы данных, а очередь сообщений Kafka в основном используется для сбора данных в реальном времени. .

3Предварительная обработка данных

После сбора данных данные будут предварительно обработаны с помощью Mapreduce и Hive, включая: очистку данных, объединение данных, обработку формата данных и т. д. Затем данные будут храниться в распределенных файлах HDFS и реляционных базах данных типа Habses.

4Хранение данных

Данные в основном хранятся в трех формах: распределенные файлы HDFS, Hbase и хранилища данных. Среди них Hbase и хранилище данных построены на основе файлов HDFS. Формат хранения данных Hbase основан на исходном хранилище данных столбца файла. Хранилище данных хранится на основе нескольких таблиц, образованных многомерными массивами. в то время как HDFS — «Сохранить как файл».

5Запрос данных и расчет

Компонентами запроса данных являются Hive и SparkSql. Принцип Hive заключается в том, что он может получать SQL-подобные операторы, введенные пользователями, а затем преобразовывать их в программы Mapreduce для запроса и обработки данных в HDFS, а также возвращать результаты или сохранять результаты в HDFS. SparkSql совместим с Hive, и его эффективность обработки намного выше, чем у Hive.

Платформами для вычислений данных являются Hadoop (пакетная обработка), Spark (потоковая обработка в реальном времени) и Storm (потоковая обработка в реальном времени). Ядро Hadoop состоит из распределенной файловой системы HDFS и платформы программирования MapReduce, которая служит вычислительным компонентом, а данные Storm поступают непрерывно, как вода, и обрабатываются в реальном времени. Основной механизм обработки данных Spark по-прежнему использует вычислительную среду MapReduce.

6Интеллектуальный анализ данных и статистический анализ

К инструментам интеллектуального анализа данных относятся Madout и MLlib — это инструмент интеллектуального анализа данных, созданный на основе Hadoop и содержащий несколько библиотек моделей алгоритмов. MLlib — это инструмент распределенного интеллектуального анализа данных, созданный на основе Spark, который использует вычисления в памяти Spark. MLlib — это широко используемый инструмент для Spark. Библиотека реализации алгоритмов интеллектуального анализа данных включает модели алгоритмов классификации, регрессии, сотрудничества и других алгоритмов, а также соответствующие тесты и генераторы данных.

Статистический анализ данных в основном использует SQL-подобные операторы для запроса, расчета и суммирования, а затем реализации статистики, например сводки через Mapreduce.

7Приложения для обработки данных

Конечная ценность данных заключается в том, что они применяются в определенной области или отрасли для расширения их возможностей, например, для снижения затрат и повышения эффективности, предупреждения о рисках, оптимизации продукта и т. д. Вышеуказанные функции в основном реализуются с помощью продуктов данных, включая, помимо прочего, собственную систему BI предприятия, коммерческие продукты данных, такие как Shence, GoogleIO и т. д. Существует три основные категории продуктов серверных данных. Компоненты продуктов данных включают в себя: дизайн отчета, диаграмму визуализации и мониторинг данных.

2. Платформа больших данных Hadoop

Давайте сначала посмотрим на историю платформы больших данных Hadoop, а затем представим состав платформы:

2004 г.

Google опубликовал одну за другой три статьи, представляющие собой легендарную «Тройку»

  1. Страничная файловая система GFS
  2. Платформа распределенных вычислений для больших данных MapReduce
  3. Система библиотеки данных NoSQL BigTable

2006 г.

Дуг Каттинг начал известный проект Hadoop, который в основном включает в себя распределенную файловую систему Hadoop HDFS и механизм вычислений больших данных MapReduce, а также реализовал две статьи по GFS и MapReduce соответственно.

2007 год

HBase родился, реализовав последнюю статью Big Table.

2008 год

Появление Pig и Hive поддерживает использование синтаксиса SQL для вычислений больших данных, что значительно снижает сложность использования Hadoopr. Аналитики и инженеры данных могут с комфортом выполнять анализ и обработку больших данных без каких-либо препятствий.

2012 год

Hadoop разделил механизм выполнения и планирование ресурсов и создал систему планирования ресурсов Yarn. В этом году также начала появляться Spark, постепенно заменяющая MapReduce в корпоративных приложениях.

На следующем рисунке показан состав платформы больших данных Hadoop:

Базовая структура состоит в том, что тройка Hadoop состоит из распределенной системы хранения файлов HDFS, распределенной вычислительной среды Mapreudce и столбчатой ​​базы данных Hbase. Конечно, для формирования относительно полной структуры верхнего уровня требуются инструменты запросов к хранилищу данных, такие как Hive и Pig. Платформа больших данных.

3. Компоненты экосистемы Hadoop

В общей сложности более 60 компонентов в экосистеме Hadoop образуют полную структуру больших данных. Предприятия будут выбирать различные компоненты в соответствии со своими собственными условиями разработки, чтобы создать подходящую для них архитектуру больших данных. Далее рассматриваются функции каждого компонента в экосистеме Hadoop. будут представлены:

1.Sqoop

sqoop — это инструмент с открытым исходным кодом, который в основном используется для передачи данных между Hadoop (Hive) и традиционными базами данных (mysql). Он может импортировать данные из реляционной базы данных (например, MySQL, Oracle и т. д.) в Hadoop. Данные HDFS также можно импортировать в реляционную базу данных.

2.Flume

Flume — это высокодоступная, высоконадежная распределенная система массового сбора, агрегирования и передачи журналов, предоставляемая Cloudera. Flume поддерживает настройку различных отправителей данных в системе журналов для одновременного сбора данных. Flume обеспечивает возможность простой обработки данных и их обработки. писать различным получателям данных (настраиваемые)

3.Kafka

Kafka — это система распределенного обмена сообщениями, разработанная LinkedIn. Она используется для сбора данных в реальном времени и часто используется в качестве буферного компонента. В основном используется для обработки потока данных в реальном времени.

4.Storm

Storm предоставляет набор общих примитивов для распределенных вычислений в реальном времени, которые можно использовать в «потоковой обработке» для обработки сообщений и обновления базы данных в реальном времени. Это еще один способ управления очередями и рабочими кластерами. Storm также можно использовать для «непрерывных вычислений» (непрерывных вычислений), выполнения непрерывных запросов к потоку данных и преобразования результатов в поток во время вычислений.

вывод пользователю.

5.Spark

В настоящее время Spark является самой популярной платформой для вычислений в памяти с открытым исходным кодом. Вычисления могут выполняться на основе больших данных, хранящихся в Hadoop.

6.Spark Streaming

Spark Streaming поддерживает обработку потоковых данных в реальном времени и вычисляет данные в реальном времени микропакетным способом.

7.Hbase

HBase — это распределенная, столбцово-ориентированная база данных с открытым исходным кодом. HBase отличается от обычных реляционных баз данных тем, что это база данных, подходящая для хранения неструктурированных данных.

8.Hive

Hive — это инструмент хранилища данных, основанный на Hadoop. Он может отображать файлы структурированных данных в таблицу базы данных и предоставлять простые функции SQL-запросов. Он может преобразовывать операторы SQL в задачи MapReduce для запуска. Его преимущество заключается в низкой стоимости обучения, простой статистике MapReduce можно быстро реализовать с помощью SQL-подобных операторов, и нет необходимости разрабатывать специальные приложения MapReduce. Он очень подходит для статистического анализа хранилищ данных.

9.Mahout

Apache Mahout — это масштабируемая библиотека машинного обучения и анализа данных. В настоящее время Mahout поддерживает четыре основных варианта использования: Анализ рекомендаций: сбор действий пользователя и рекомендации того, что может понравиться пользователю. Агрегация: сбор файлов и группировка связанных файлов. Классификация: изучайте существующие секретные документы, находите в них схожие черты и правильно классифицируйте немаркированные документы. Анализ часто встречающихся наборов элементов: группировка набора элементов и определение того, какие отдельные элементы часто появляются вместе.

10.Zookeeper

Zookeeper — это реализация Google Chubby с открытым исходным кодом. Это надежная система координации для крупномасштабных распределенных систем. Она предоставляет такие функции, как обслуживание конфигурации, служба имен, распределенная синхронизация, групповое обслуживание и т. д. Цель ZooKeeper — инкапсулировать сложные и подверженные ошибкам ключевые сервисы и предоставить пользователям простые и удобные в использовании интерфейсы, а также систему с эффективной производительностью и стабильными функциями.

11.Oozie

Oozie — это система управления планированием рабочих процессов для управления заданиями Hdoop. Задача координации Oozie — запустить текущий рабочий процесс Oozie с помощью времени (частоты) и достоверных данных.

Выше описан весь процесс обработки больших данных, архитектура больших данных Hadoop и введение каждого компонента. Эта часть — только самая основная часть. Конечно, менеджерам по продуктам данных необходимо понимать только основные принципы обработки данных и. архитектуру и уметь взаимодействовать с данными. Развивать эффективную связь и уметь диагностировать, какое соединение вызвало ошибку, когда в данных возникает аномалия.

Издатель: Лидер стека программистов полного стека, укажите источник для перепечатки: https://javaforall.cn/142383.html Исходная ссылка: https://javaforall.cn

boy illustration
Учебное пособие по Jetpack Compose для начинающих, базовые элементы управления и макет
boy illustration
Код js веб-страницы, фон частицы, код спецэффектов
boy illustration
【новый! Суперподробное】Полное руководство по свойствам компонентов Figma.
boy illustration
🎉Обязательно к прочтению новичкам: полное руководство по написанию мини-программ WeChat с использованием программного обеспечения Cursor.
boy illustration
[Забавный проект Docker] VoceChat — еще одно приложение для мгновенного чата (IM)! Может быть встроен в любую веб-страницу!
boy illustration
Как реализовать переход по странице в HTML (html переходит на указанную страницу)
boy illustration
Как решить проблему зависания и низкой скорости при установке зависимостей с помощью npm. Существуют ли доступные источники npm, которые могут решить эту проблему?
boy illustration
Серия From Zero to Fun: Uni-App WeChat Payment Practice WeChat авторизует вход в систему и украшает страницу заказа, создает интерфейс заказа и инициирует запрос заказа
boy illustration
Серия uni-app: uni.navigateЧтобы передать скачок значения
boy illustration
Апплет WeChat настраивает верхнюю панель навигации и адаптируется к различным моделям.
boy illustration
JS-время конвертации
boy illustration
Обеспечьте бесперебойную работу ChromeDriver 125: советы по решению проблемы chromedriver.exe не найдены
boy illustration
Поле комментария, щелчок мышью, специальные эффекты, js-код
boy illustration
Объект массива перемещения объекта JS
boy illustration
Как открыть разрешение на позиционирование апплета WeChat_Как использовать WeChat для определения местонахождения друзей
boy illustration
Я даю вам два набора из 18 простых в использовании фонов холста Power BI, так что вам больше не придется возиться с цветами!
boy illustration
Получить текущее время в js_Как динамически отображать дату и время в js
boy illustration
Вам необходимо изучить сочетания клавиш vsCode для форматирования и организации кода, чтобы вам больше не приходилось настраивать формат вручную.
boy illustration
У ChatGPT большое обновление. Всего за 45 минут пресс-конференция показывает, что OpenAI сделал еще один шаг вперед.
boy illustration
Copilot облачной разработки — упрощение разработки
boy illustration
Микросборка xChatGPT с низким кодом, создание апплета чат-бота с искусственным интеллектом за пять шагов
boy illustration
CUDA Out of Memory: идеальное решение проблемы нехватки памяти CUDA
boy illustration
Анализ кластеризации отдельных ячеек, который должен освоить каждый&MarkerгенетическийВизуализация
boy illustration
vLLM: мощный инструмент для ускорения вывода ИИ
boy illustration
CodeGeeX: мощный инструмент генерации кода искусственного интеллекта, который можно использовать бесплатно в дополнение к второму пилоту.
boy illustration
Машинное обучение Реальный бой LightGBM + настройка параметров случайного поиска: точность 96,67%
boy illustration
Бесшовная интеграция, мгновенный интеллект [1]: платформа больших моделей Dify-LLM, интеграция без кодирования и встраивание в сторонние системы, более 42 тысяч звезд, чтобы стать свидетелями эксклюзивных интеллектуальных решений.
boy illustration
LM Studio для создания локальных больших моделей
boy illustration
Как определить количество слоев и нейронов скрытых слоев нейронной сети?
boy illustration
[Отслеживание целей] Подробное объяснение ByteTrack и детали кода