недавно,В сфере управления данными тоже много горячих слов.,Пришедшие из-за границы изпереплетение данных (Data Fabric) и искладка данных (Data Mesh) — это две новые темы, которые часто упоминаются. Чтобы идти в ногу с темпами развития новых технологий,,Я также провел небольшое исследование этих двух концепций.,и Давайте обсудим вместе.
GartnerДаватьпереплетение данных(Data Fabric) определяется следующим образом: Data Fabric is a design concept that serves as an integrated layer of data and connecting processes. переплетение данныхэто дизайнконцепция,выражатьданныеипроцесс подключенияиз Уровень интеграции。
ForresterДаватьвнесетка данных (Data Mesh) определяется следующим образом: Data Mesh is a decentralized sociotechnical approach to share, access and manage analytical data in complex and large-scale environments within or across organizations. сетка данныхэто своего рода дисперсияизсоциотехнический подход,Используется в различных сложных и крупномасштабных средах внутри или между организациями.,Совместное использование, доступ и анализ данных управления.
Forrester аналитик Noel Yuhanna является самым ранним в 200 Год среднего поколения определение переплетение Один из данныхиз людей. Из концепции, большое переплетение данные по сути являются мета-данными Машинный способ объединить различные наборы инструментов, которые решают ключевые проблемы в крупных проектах обработки данных единым способом с самообслуживанием. В частности, данные Fabric Решения предоставляют возможности в таких областях, как доступ к данным, обнаружение, преобразование, интеграция, безопасность, управление, происхождение и оркестровка. Graph Также часто используется для связи активов данных и пользователей.
Momentum Строительное переплетение Концепция данных, как способ упростить доступ к данным и управление ими во все более разнообразной среде, включает в себя хранилище данных транзакций и операций, хранилище данных, озеро данных и дом у озера. Организации создают больше разрозненных структур, а не меньше, и по мере развития облачных вычислений проблемы, связанные с многообразием, становятся более серьезными, чем когда-либо.
A data fabric consists of multiple data management layers (Image source: Eckerson Group)
С помощью единого переплетения, практически наложенного на различные хранилища данных. данных,Организации могут обеспечить своего рода единое управление для различных изданных источников и последующих потребителей (включающие администраторы, инженеры по данным, специалисты по аналитике данных). Но следует отметить, что из,Управление – это единство из,Вместо фактического из хранилища,Он до сих пор распространяется.
включать Informatica и Talend Некоторые поставщики инструментов предлагают полезные переплетения, которые содержат многие из вышеперечисленных функций. данные, в то время как другие поставщики инструментов, такие как Ataccama и Denodo) обеспечивает специфическое изпереплетение данныхчасть。 Google Cloud также через свой новый Dataplex Поддержка продуктапереплетение данныхметод。переплетение Интеграция между различными компонентами данных обычно осуществляется посредством API универсальная JSON Формат данных обрабатывается.
Хотясетка данные предназначены для решения многих проблем, связанных с данными. данных — это та же проблема, то есть сложность управления данными в гетерогенной среде данных, но она решает проблему совершенно другим способом. Короче говоря, хоть и переплетение данных пытались построить единый уровень виртуального управления поверх распределенных данных, но сетка Данные поощряют распределенные группы команд управлять данными по своему усмотрению, хотя существуют некоторые положения о совместном управлении.
сетка данныхконцепцияпервоначально автором Zhamak Dehghani Написано, что он сейчас Thoughtworks North America Директор инкубатора технологий следующего поколения. Dehghani в ней 2019 Год 5 Ежемесячный отчет «Как выйти за рамки монолитного озера данных к распределенной сетке» данных”разработано всетка данныеизм, многие принципы иконцепции, она впоследствии 2020 Год 12 Месячная публикация под названием «сетка принцип данных и логическая структура» и «отчет».
Как мы уже писали сегодня, водить машинусетка Основной принцип данных состоит в исправлении несоответствий озера данных и данных между хранилищами. Хранилище данных первого поколения было разработано для хранения больших объемов структурированных данных, что позволяет аналитикам использовать их для обратного отслеживания. SQL аналитика, в то время как озера данных второго поколения в основном используются для хранения больших объемов неструктурированных моделей данных, которые специалисты по данным используют для построения прогнозного машинного обучения. Dehghani Написал систему третьего поколения с потоковой передачей в реальном времени и облачными сервисами. (Каппа), но не устраняет потенциальный разрыв в удобстве использования между системами первого и второго поколения.
Многие организации строяти Комплекс в обслуживаниииз ETL Конвейер данных, позволяющий синхронизировать данные. Это также вызывает потребность в «сверхспециализированных инженерах по обработке данных», которым поручено поддерживать византийские системы.
Dehghani Ключевой вывод, связанный с этим вопросом, заключается в том, что преобразование данных не может быть жестко встроено в данные инженерами, а должно представлять собой фильтр, применяемый к общему набору данных, доступному всем пользователям. Поэтому вместо создания сложного набора ETL Конвейер для перемещения данных в различные сообщества мог бы анализировать данные из специальных репозиториев, а не оставлять данные примерно в их исходной форме, и ряд групп, специализирующихся на конкретных областях, будут владеть этими данными по мере того, как они преобразуют данные в продукт. Dehghani израспределеннаясетка данных решает эту проблему посредством новой архитектуры с четырьмя основными функциями:
Собственно, сетка Подход к данным признает, что только Data Lake обладает масштабируемостью для удовлетворения сегодняшних потребностей аналитики, но попытки организаций навязать нисходящий стиль управления Data Lake потерпели неудачу. сетка данных Пытаюсь использовать снизу вверхиз Способы переосмысления структур собственности,Предоставьте каждой команде возможность построить систему, отвечающую их собственным потребностям.,Хотя требуется некоторое межкомандное управление.
Как мы видим,Между методами сетки данныхипереплетения данных есть сходство. но,Есть и некоторые различия, которые следует учитывать.
в соответствии с Forrester из Yuhanna из заявления,сетка данныхипереплетение Основное различие между методами обработки данных заключается в том, что API изAccess метод.
"и [данные] косадругой,сетка данные в основном предназначены для разработчиков из API водить машину [Решение]», Юханна объяснять. “[Data Fabric] исетка данных Вместо этого вы делаете API Напишите код для интерфейса. С другой стороны, переплетение данные являются low-code, без кода, что означает API Интеграция происходит внутри структуры, а не с ее непосредственным использованием, а не сеткой. данных。”
James Serra Это Эрнст энд Янг (Earnst and Young) изданные Менеджер по архитектуре платформы,Ранее работал архитектором складских решений в Microsoft изданныеиданные.,Разница между этими двумя методами заключается в том, где пользователь получает к ним доступ.
“переплетение данныхисетка оба данных обеспечивают доступ к архитектуре данных на нескольких технологиях и платформах, но переплетение данные ориентированы на технологии, а сетка данных ориентированы на организационные изменения», — сказал Серра в 6 Юэ из написал в своем блоге. “[A] сетка данные больше связаны с людьми и процессами, чем с архитектурой, а переплетение Данные — это архитектурный подход, который обрабатывает метасложность данных таким образом, чтобы они хорошо работали вместе и разумно. "
в соответствии с Eckerson Group аналитик David Wells скажем, вы можете использовать обе сетки данныхипереплетение данных,Даже хаб данных
"первый,Это концепция,а не вещи,”Wells В недавнем сообщении в блоге «Архитектура: комплекс ) и Complex (Сложный.)» — написал. «Быть архитектурным концептуально-изданным хабом — это не то же самое, что быть библиотекой данных и зданными хабами. Во-вторых, они являются компонентами, а не заменителями. Архитектура содержит в себе и переплетение. данныхисетка данные практичны из. Они не являются взаимоисключающими. В конце концов, это архитектурные рамки, а не архитектуры. в рамке соответствии Ваши потребности, процессы и терминология корректируются и настраиваются до того, как у вас появится архитектура. "
сетка данныхипереплетение данных — все они имеют место в большом списке данных. При поиске архитектуры для поддержки вашего крупного проекта все сводится к поиску подхода, который лучше всего соответствует вашим конкретным потребностям.
ссылка https://www.datanami.com/2021/10/25/data-mesh-vs-data-fabric-understanding-the-differences/