Всем привет, мы снова встретились, я ваш друг Цюаньчжаньцзюнь.
данныепродукты иданныенеотделимый актданные Менеджеры по продукту понимаютданныепроизведено из、Сохранение в приложенииизвесь процесс,以及大данныеСтроительство необходимо принятьизтехническая основаHadoopда Существенныйизсписок знаний,Таким образом, при создании продуктов на основе данных вы сможете понять ценность данных для производства с глобальной точки зрения. В этой статье рассматриваются три аспекта:
1. Процесс обработки больших данных
2. Платформа больших данных Hadoop
3. Компоненты экосистемы Hadoop
Понимать процесс каждого звена от создания данных до применения сценариев, а также техническую структуру Hadoop, которую предприятия должны использовать при создании платформы больших данных, и функции более чем 60 компонентов в экосистеме. Быть менеджером по продуктам данных — это значит. просто введение, а не глубокое погружение. Понимание технологии, с одной стороны, позволяет взглянуть на данные глобально. Когда возникает проблема с бизнес-данными, можно точно определить, в каком канале возникла проблема, и является ли она проблемой с данными. источник или проблема с логикой запроса данных. С другой стороны, обработка данных требует понимания основных принципов и логики.
Процесс обработки больших данных:
1. Производство данных
2. Сбор данных
3. Предварительная обработка данных
4. Хранение данных
5. Интеллектуальный анализ данных, статистика и анализ
6. ETL данных и реляционная база данных хранения
7. Визуализация данных
Выше представлен весь процесс потока данных, который включает в себя 7 звеньев: от создания данных до их хранения и до общего процесса применения визуализации данных. На следующем рисунке показан весь процесс обработки данных:
1Производство данных
В процессе производства данных используются три основных источника данных: данные журналов, бизнес-база данных и данные Интернета.
Данные журнала: предприятия предоставляют продукты пользователям. После того, как пользователи взаимодействуют с продуктами, данные журнала собираются через Flume и загружаются в файловую систему HDFS для автономной обработки. В то же время данные загружаются в Kafka. очередь сообщений как данные для буферизации и обработки в реальном времени.
Бизнес-данные: Бизнес-данные включают в себя бизнес-данные, созданные самим предприятием, такие как данные пользователей, заказы на данные и т. д.,Сюда также входят сторонние компании, предоставляющие услуги на основе взаимоотношений. Импортируйте и экспортируйте в распределенную файловую систему HDFS или реляционную библиотеку данных через Sqoop. Если вы заинтересованы в разработке больших данных,Я хочу изучать китайский язык систематически.,Вы можете присоединиться к большомуданные Обмен техническим обучением Кукоджуньян:522189307
Данные Интернета. В основном используются сканеры для сканирования данных на веб-страницах Интернета и API-интерфейсов, предоставляемых платформой, включая структурированные, полуструктурированные и неструктурированные данные, а затем очистка данных через ETL и сохранение их как данные локальной веб-страницы.
2Сбор данных
Компоненты, используемые для сбора данных, в основном включают Flume, Sqoop и Kafka. Flume в основном используется для сбора данных журналов, Sqoop в основном используется для импорта и экспорта данных в реляционные базы данных, а очередь сообщений Kafka в основном используется для сбора данных в реальном времени. .
3Предварительная обработка данных
После сбора данных данные будут предварительно обработаны с помощью Mapreduce и Hive, включая: очистку данных, объединение данных, обработку формата данных и т. д. Затем данные будут храниться в распределенных файлах HDFS и реляционных базах данных типа Habses.
4Хранение данных
Данные в основном хранятся в трех формах: распределенные файлы HDFS, Hbase и хранилища данных. Среди них Hbase и хранилище данных построены на основе файлов HDFS. Формат хранения данных Hbase основан на исходном хранилище данных столбца файла. Хранилище данных хранится на основе нескольких таблиц, образованных многомерными массивами. в то время как HDFS — «Сохранить как файл».
5Запрос данных и расчет
Компонентами запроса данных являются Hive и SparkSql. Принцип Hive заключается в том, что он может получать SQL-подобные операторы, введенные пользователями, а затем преобразовывать их в программы Mapreduce для запроса и обработки данных в HDFS, а также возвращать результаты или сохранять результаты в HDFS. SparkSql совместим с Hive, и его эффективность обработки намного выше, чем у Hive.
Платформами для вычислений данных являются Hadoop (пакетная обработка), Spark (потоковая обработка в реальном времени) и Storm (потоковая обработка в реальном времени). Ядро Hadoop состоит из распределенной файловой системы HDFS и платформы программирования MapReduce, которая служит вычислительным компонентом, а данные Storm поступают непрерывно, как вода, и обрабатываются в реальном времени. Основной механизм обработки данных Spark по-прежнему использует вычислительную среду MapReduce.
6Интеллектуальный анализ данных и статистический анализ
К инструментам интеллектуального анализа данных относятся Madout и MLlib — это инструмент интеллектуального анализа данных, созданный на основе Hadoop и содержащий несколько библиотек моделей алгоритмов. MLlib — это инструмент распределенного интеллектуального анализа данных, созданный на основе Spark, который использует вычисления в памяти Spark. MLlib — это широко используемый инструмент для Spark. Библиотека реализации алгоритмов интеллектуального анализа данных включает модели алгоритмов классификации, регрессии, сотрудничества и других алгоритмов, а также соответствующие тесты и генераторы данных.
Статистический анализ данных в основном использует SQL-подобные операторы для запроса, расчета и суммирования, а затем реализации статистики, например сводки через Mapreduce.
7Приложения для обработки данных
Конечная ценность данных заключается в том, что они применяются в определенной области или отрасли для расширения их возможностей, например, для снижения затрат и повышения эффективности, предупреждения о рисках, оптимизации продукта и т. д. Вышеуказанные функции в основном реализуются с помощью продуктов данных, включая, помимо прочего, собственную систему BI предприятия, коммерческие продукты данных, такие как Shence, GoogleIO и т. д. Существует три основные категории продуктов серверных данных. Компоненты продуктов данных включают в себя: дизайн отчета, диаграмму визуализации и мониторинг данных.
2. Платформа больших данных Hadoop
Давайте сначала посмотрим на историю платформы больших данных Hadoop, а затем представим состав платформы:
Google опубликовал одну за другой три статьи, представляющие собой легендарную «Тройку»
Дуг Каттинг начал известный проект Hadoop, который в основном включает в себя распределенную файловую систему Hadoop HDFS и механизм вычислений больших данных MapReduce, а также реализовал две статьи по GFS и MapReduce соответственно.
HBase родился, реализовав последнюю статью Big Table.
Появление Pig и Hive поддерживает использование синтаксиса SQL для вычислений больших данных, что значительно снижает сложность использования Hadoopr. Аналитики и инженеры данных могут с комфортом выполнять анализ и обработку больших данных без каких-либо препятствий.
Hadoop разделил механизм выполнения и планирование ресурсов и создал систему планирования ресурсов Yarn. В этом году также начала появляться Spark, постепенно заменяющая MapReduce в корпоративных приложениях.
На следующем рисунке показан состав платформы больших данных Hadoop:
Базовая структура состоит в том, что тройка Hadoop состоит из распределенной системы хранения файлов HDFS, распределенной вычислительной среды Mapreudce и столбчатой базы данных Hbase. Конечно, для формирования относительно полной структуры верхнего уровня требуются инструменты запросов к хранилищу данных, такие как Hive и Pig. Платформа больших данных.
3. Компоненты экосистемы Hadoop
В общей сложности более 60 компонентов в экосистеме Hadoop образуют полную структуру больших данных. Предприятия будут выбирать различные компоненты в соответствии со своими собственными условиями разработки, чтобы создать подходящую для них архитектуру больших данных. Далее рассматриваются функции каждого компонента в экосистеме Hadoop. будут представлены:
sqoop — это инструмент с открытым исходным кодом, который в основном используется для передачи данных между Hadoop (Hive) и традиционными базами данных (mysql). Он может импортировать данные из реляционной базы данных (например, MySQL, Oracle и т. д.) в Hadoop. Данные HDFS также можно импортировать в реляционную базу данных.
Flume — это высокодоступная, высоконадежная распределенная система массового сбора, агрегирования и передачи журналов, предоставляемая Cloudera. Flume поддерживает настройку различных отправителей данных в системе журналов для одновременного сбора данных. Flume обеспечивает возможность простой обработки данных и их обработки. писать различным получателям данных (настраиваемые)
Kafka — это система распределенного обмена сообщениями, разработанная LinkedIn. Она используется для сбора данных в реальном времени и часто используется в качестве буферного компонента. В основном используется для обработки потока данных в реальном времени.
Storm предоставляет набор общих примитивов для распределенных вычислений в реальном времени, которые можно использовать в «потоковой обработке» для обработки сообщений и обновления базы данных в реальном времени. Это еще один способ управления очередями и рабочими кластерами. Storm также можно использовать для «непрерывных вычислений» (непрерывных вычислений), выполнения непрерывных запросов к потоку данных и преобразования результатов в поток во время вычислений.
вывод пользователю.
В настоящее время Spark является самой популярной платформой для вычислений в памяти с открытым исходным кодом. Вычисления могут выполняться на основе больших данных, хранящихся в Hadoop.
6.Spark Streaming
Spark Streaming поддерживает обработку потоковых данных в реальном времени и вычисляет данные в реальном времени микропакетным способом.
HBase — это распределенная, столбцово-ориентированная база данных с открытым исходным кодом. HBase отличается от обычных реляционных баз данных тем, что это база данных, подходящая для хранения неструктурированных данных.
Hive — это инструмент хранилища данных, основанный на Hadoop. Он может отображать файлы структурированных данных в таблицу базы данных и предоставлять простые функции SQL-запросов. Он может преобразовывать операторы SQL в задачи MapReduce для запуска. Его преимущество заключается в низкой стоимости обучения, простой статистике MapReduce можно быстро реализовать с помощью SQL-подобных операторов, и нет необходимости разрабатывать специальные приложения MapReduce. Он очень подходит для статистического анализа хранилищ данных.
Apache Mahout — это масштабируемая библиотека машинного обучения и анализа данных. В настоящее время Mahout поддерживает четыре основных варианта использования: Анализ рекомендаций: сбор действий пользователя и рекомендации того, что может понравиться пользователю. Агрегация: сбор файлов и группировка связанных файлов. Классификация: изучайте существующие секретные документы, находите в них схожие черты и правильно классифицируйте немаркированные документы. Анализ часто встречающихся наборов элементов: группировка набора элементов и определение того, какие отдельные элементы часто появляются вместе.
Zookeeper — это реализация Google Chubby с открытым исходным кодом. Это надежная система координации для крупномасштабных распределенных систем. Она предоставляет такие функции, как обслуживание конфигурации, служба имен, распределенная синхронизация, групповое обслуживание и т. д. Цель ZooKeeper — инкапсулировать сложные и подверженные ошибкам ключевые сервисы и предоставить пользователям простые и удобные в использовании интерфейсы, а также систему с эффективной производительностью и стабильными функциями.
Oozie — это система управления планированием рабочих процессов для управления заданиями Hdoop. Задача координации Oozie — запустить текущий рабочий процесс Oozie с помощью времени (частоты) и достоверных данных.
Выше описан весь процесс обработки больших данных, архитектура больших данных Hadoop и введение каждого компонента. Эта часть — только самая основная часть. Конечно, менеджерам по продуктам данных необходимо понимать только основные принципы обработки данных и. архитектуру и уметь взаимодействовать с данными. Развивать эффективную связь и уметь диагностировать, какое соединение вызвало ошибку, когда в данных возникает аномалия.
Издатель: Лидер стека программистов полного стека, укажите источник для перепечатки: https://javaforall.cn/142383.html Исходная ссылка: https://javaforall.cn