Платформа больших данных: единое управление метаданными
Платформа больших данных: единое управление метаданными
Предыстория
Управление метаданнымивключать Сбор метаданных、хранилище、Ключевые аспекты, такие как управление и применение,Это основа и ядро управления данными.。но Управление метаданными На практике обычноСтолкновение с такими проблемами, как многочисленные источники метаданных, разбросанные по разным системам, различные типы метаданных и частые изменения в метаданных.。Поэтому создание единой стандартной спецификации на основе,Универсальное расширяемое Управление Метаданными система имеет решающее значение.
Единые метаданные:Унифицируйте разнородные источники данных、Единые стандарты、Единая эксплуатация и управление системой,Интегрируйте метаданный онлайн-каталог данных и функции автономного анализа управления. Более общее понимание,На рисунке показано озеро данных Tencent Cloud Data Lake.Единые метаданные Архитектура:Поддержка унификации онлайн-каталога данных и автономного управления данными.
тип метаданных
тип метаданных По областям использования и функциям его можно разделить на:Технические метаданные, бизнес-метаданные, операционные метаданные, метаданные управления
технические метаданные:Техническая информация, используемая для описания данных,Требуется следующая информация, включая систему хранения данных.,Формат,координировать,Физическая информация, такая как наслоение
бизнес-метаданные:Используется для описания концепций, связанных с бизнес-областями в системах данных.、Данные о взаимоотношениях и правилах должны включать деловые термины;、Классификация информации、индекс、Статистический калибр и т. д.
Манипулировать метаданными:Используется для описания поведения данных при работе.,Содействие внедрению механизмов подотчетности за управление данными,реализован Безопасность данныхоснова
Управление метаданными:Информация управления данными профиля пользователя,Например, человек, отвечающий за стол,Принадлежность к человеку, жизненному циклу и т.п.;
стандарты метаданных
Стандарт метамодели MOF относится к «Мета-объектной возможности» (Meta-Object Facility). Стандарт объекта (сокращенно MOF), разработанный Организацией управления объектами (Object Management Organization) Management Group,аббревиатураOMG)формулировать。В качестве основного описания спецификации модели,Может описывать различные типы модельных стандартов.,Создайте основу для различных типов управления моделями.。
Уровень M0: фактический уровень данных, конкретная информация и объекты, хранящиеся в базе данных.
этаж М1:Модельслой,Соответствующий экземпляр метамодели,Прямо сейчасметаданные,Структурированное описание данных слоя M0,Например, конкретныйповерхностьопределение
Этаж М2:Юань Модель,Например, модель CWM,Определяет структуру и семантику модели этажа М1.,Напримеропределениеметаданныекатегория:Библиотека、поверхность、Поле
M3слой:Юань Юань Модель,Это также уровень, на котором расположен сам MOF.,Определены структура и семантика метамодели «Этаж М2». Предоставляет языки и инструменты для построения метамоделей.,Например, пакеты, классы и т. д.
Управление метаданными
Обычное управление метаданными Процесс можно разделить на следующие5 шагов:Определение метамодели、Сбор метаданных、Обработка метаданных、Хранение метаданных、Приложение метаданных。
Определение метамодели
На основе стандарта MOF,Метамодель – это абстрактное описание метаданных.,Используется для определения и организации структур, типов и отношений метаданных. Метамодель предоставляет набор правил и стандартов для описания активов данных.,Обеспечить последовательность, понятность и интерактивность метаданных. Например, Hive Определение базовой таблицы базы данных Metastore — это метамодель, DBS — это метамодель, описывающая базу данных, а TBLS — это метамодель, описывающая таблицы.
Определение метамодели в основном включает в себя: группировку、Модель、свойство、Ключевые элементы, такие как типы данных。Группировка логически кластеризует различные коллекции моделей.,НапримерHiveЮань Модель、MySQLЮань Модель можно разделить на реляционные Юань Модель Группа。Модельопределениеметаданныеструктура объекта,Зависит от Модельсвойствоа также Модель Отношения между。
По способу доступа к Сбору метаданных его можно разделить на:
Активная коллекция:На основе системы планирования,Выполнение запланированного периодического сбора,Цикл сбора должен поддерживать установку,Адаптироваться к дифференцированной частоте обновления источников данных.
Пассивная коллекция:Вручную или через внешнюю системуAPIВозьмите на себя инициативу сообщить。При запуске вручную,Вы можете вручную загрузить метаданный файл или активно запустить задачу сбора.
Метод доступа к коллекции должен бытьДинамическая адаптация соответствующего интерфейсного адаптера,Адаптер поддерживаетплагинспособ расширения различных типов источников данных итип метаданных。
К основным процессам хранения метаданных относятся:
Найдены изменения:автоматическое распознаваниеметаданныеизменять,включать:Новый、удалить、операция обновления
Подтверждение изменения:Может Зависит от Соответствующее ответственное лицо подтверждает вручную,Это также может быть автоматически подтверждено системой; соответствующие записи должны быть сохранены в процессе подтверждения.,Для подготовки к последующей прослеживаемости
История метаданные Архивы:для очень чувствительныхметаданныекатегория,История должна быть заархивирована до внесения изменений.,Для подготовки к откату в последующих версиях
Обработка метаданных
Обработка метаданные: процесс преобразования исходных метаданных перед хранением в целях удовлетворения требований Управления. метаданными и эксплуатационными потребностями. Обработка метаданных Необходимо соблюдать следующие принципы:Полнота, точность, объективность, масштабируемость。Общие операции преобразования механической обработки включают в себя:
Чистый:Коррекция илиудалить Неправильный、неполный、непоследовательный、Дублирующиеся данные
вычислить:На основе бизнес-правил или алгоритмоввычислитьиметь дело с,включать Операция、полимеризация、сортировать、слить、такие операции, как сегментация
Унифицированная обработка идентификаторов данных:метаданные Уникальные данные должны генерироваться внутри системы.ID,Сформируйте отношение сопоставления «один к одному» с идентификатором данных исходной платформы.,Метаданным удобно отслеживать весь процесс и адаптироваться под разные платформы.
Хранение метаданных
Из-за различных структур и сценариев использования метаданных,Часто используются разные типы систем хранения.,в соответствии сметаданные结构Может分为以下категория:
структурный типметаданные:Описать в структурном режимеметаданные,Например, библиотеки, таблицы, поля, бизнес-атрибуты, жизненные циклы и т.д.метаданные.,Могут быть представлены и сохранены с использованием структурированных данных (т. е. реляционной базы данных).,Если используется для функции поиска,Оптимизация запросов может выполняться на основе индексной базы данных (например, ES).
Соответствующийметаданные:Описать в реляционном режимеметаданные,Например Родословная данных,таблица как вершина,Отношения как описания ребер,Может使用图数据Библиотека Приходитьповерхность Демонстрацияхранилище
Разные структурные типы метаданных предъявляют разные требования к системам хранения, и разные системы хранения необходимо адаптировать. База данных, в которой хранятся метаданные, должна отвечать требованиям:
Учитывайте масштабируемость емкости и производительности и поддерживайте активное резервное или распределенное развертывание;
Рассмотрим системуТребования к надежности,Поддержка резервного копирования данных и обратного отслеживания;
Приложение метаданных
Приложение Метаданные — это способность использовать метаданные для обнаружения корреляции между данными, помощи в управлении данными и предотвращения «болота данных», вызванного агрегированием больших объемов данных низкого качества. Систему возможностей приложений, предоставляемую метаданными, можно разделить на:
Карта данных:Полное понимание текущего состояния и инвентаризации информационных активов.,Обеспечить глобальные метаданные возможности поиска,Достичь визуализации данных,Поддержка обзора данных и диаграммы тенденций изменения данных,Позвольте пользователям быстро выявлять изменяющиеся тенденции в общих ресурсах данных.,Заложить прочную основу для бизнес-приложений и сбора данных;
Родословная данных:Поддержка нескольких диалектов(HiveSQL、SparkSQL、FlinkSQLждать)изSQLанализ родословной,Получите ссылку на создание данных, а также восходящие и нисходящие отношения.,Поддержка восходящего отслеживания и нисходящего получения информации о происхождении.,выполнитьповерхностьуровень и Полеуровеньизанализ родословной;
Спецификация данных:формулировать Объединение внутри предприятияиз Спецификации стандартов данных,Поддержка пользовательских категорий данных,Построение модели хранилища данных,субъект данных,Создайте систему обмена данными,Разрушьте разрозненность данных,Обеспечьте эффективный обмен данными внутри предприятия.;
Качество данных:проходить建立一套切实Может行из Качество система мониторинга данных, проектирование данных Правила аудита,Укрепить контроль источников данных,Форма управления качеством данных, охватывающая весь жизненный цикл данных,Реализуйте преобразование необработанных данных озера данных в высококачественные активы;
Безопасность данных:проходитьформулировать Полныйиз Безопасность стратегия данных, создание систематической системы безопасности данныхмера、осуществлять Безопасность аудит данных, десенсибилизация конфиденциальных данных, настройки Безопасность данных Механизм оценивания,Осуществлять комплексное управление и контроль безопасности,Убедитесь, что сбор и использование данных являются законными и соответствуют требованиям,Обеспечить безопасную и надежную среду для полного изучения ценности данных;
Подвести итог
Управление метаданными — это основа и ядро управления данными. Чтобы избежать «островов данных», компании обычно создают Единые внутри компании. Метаданная платформа объединяет метаданные для унифицированного управления, предоставляет унифицированные услуги внешнему миру и выполняет унифицированное управление и внутреннюю оптимизацию. Статью написал Предыстория, тип метаданных、стандарты метаданных、Управление метаданными процессами теоретически вводится единое Управление метаданными, каждый подпункт процесса будет подробно объяснен позже.
Для получения более подробной информации, пожалуйста, обратитесь к: