Платформа больших данных: единое управление метаданными
Платформа больших данных: единое управление метаданными

Предыстория

Управление метаданнымивключать Сбор метаданных、хранилище、Ключевые аспекты, такие как управление и применение,Это основа и ядро ​​управления данными.。но Управление метаданными На практике обычноСтолкновение с такими проблемами, как многочисленные источники метаданных, разбросанные по разным системам, различные типы метаданных и частые изменения в метаданных.。Поэтому создание единой стандартной спецификации на основе,Универсальное расширяемое Управление Метаданными система имеет решающее значение.

Единые метаданные:Унифицируйте разнородные источники данных、Единые стандарты、Единая эксплуатация и управление системой,Интегрируйте метаданный онлайн-каталог данных и функции автономного анализа управления. Более общее понимание,На рисунке показано озеро данных Tencent Cloud Data Lake.Единые метаданные Архитектура:Поддержка унификации онлайн-каталога данных и автономного управления данными.

тип метаданных

тип метаданных По областям использования и функциям его можно разделить на:Технические метаданные, бизнес-метаданные, операционные метаданные, метаданные управления

  1. технические метаданные:Техническая информация, используемая для описания данных,Требуется следующая информация, включая систему хранения данных.,Формат,координировать,Физическая информация, такая как наслоение
  2. бизнес-метаданные:Используется для описания концепций, связанных с бизнес-областями в системах данных.、Данные о взаимоотношениях и правилах должны включать деловые термины;、Классификация информации、индекс、Статистический калибр и т. д.
  3. Манипулировать метаданными:Используется для описания поведения данных при работе.,Содействие внедрению механизмов подотчетности за управление данными,реализован Безопасность данныхоснова
  4. Управление метаданными:Информация управления данными профиля пользователя,Например, человек, отвечающий за стол,Принадлежность к человеку, жизненному циклу и т.п.;

стандарты метаданных

Стандарт метамодели MOF относится к «Мета-объектной возможности» (Meta-Object Facility). Стандарт объекта (сокращенно MOF), разработанный Организацией управления объектами (Object Management Organization) Management Group,аббревиатураOMG)формулировать。В качестве основного описания спецификации модели,Может описывать различные типы модельных стандартов.,Создайте основу для различных типов управления моделями.

  • Уровень M0: фактический уровень данных, конкретная информация и объекты, хранящиеся в базе данных.
  • этаж М1:Модельслой,Соответствующий экземпляр метамодели,Прямо сейчасметаданные,Структурированное описание данных слоя M0,Например, конкретныйповерхностьопределение
  • Этаж М2:Юань Модель,Например, модель CWM,Определяет структуру и семантику модели этажа М1.,Напримеропределениеметаданныекатегория:Библиотека、поверхность、Поле
  • M3слой:Юань Юань Модель,Это также уровень, на котором расположен сам MOF.,Определены структура и семантика метамодели «Этаж М2». Предоставляет языки и инструменты для построения метамоделей.,Например, пакеты, классы и т. д.

Управление метаданными

Обычное управление метаданными Процесс можно разделить на следующие5 шагов:Определение метамодели、Сбор метаданных、Обработка метаданных、Хранение метаданных、Приложение метаданных。

Определение метамодели

На основе стандарта MOF,Метамодель – это абстрактное описание метаданных.,Используется для определения и организации структур, типов и отношений метаданных. Метамодель предоставляет набор правил и стандартов для описания активов данных.,Обеспечить последовательность, понятность и интерактивность метаданных. Например, Hive Определение базовой таблицы базы данных Metastore — это метамодель, DBS — это метамодель, описывающая базу данных, а TBLS — это метамодель, описывающая таблицы.

Определение метамодели в основном включает в себя: группировку、Модель、свойство、Ключевые элементы, такие как типы данных。Группировка логически кластеризует различные коллекции моделей.,НапримерHiveЮань Модель、MySQLЮань Модель можно разделить на реляционные Юань Модель Группа。Модельопределениеметаданныеструктура объекта,Зависит от Модельсвойствоа также Модель Отношения между。

Сбор метаданных

Сбор метаданныхосновнойвключать:Доступ, адаптация, хранениетри этапа:

По способу доступа к Сбору метаданных его можно разделить на:

  • Активная коллекция:На основе системы планирования,Выполнение запланированного периодического сбора,Цикл сбора должен поддерживать установку,Адаптироваться к дифференцированной частоте обновления источников данных.
  • Пассивная коллекция:Вручную или через внешнюю системуAPIВозьмите на себя инициативу сообщить。При запуске вручную,Вы можете вручную загрузить метаданный файл или активно запустить задачу сбора.

Метод доступа к коллекции должен бытьДинамическая адаптация соответствующего интерфейсного адаптера,Адаптер поддерживаетплагинспособ расширения различных типов источников данных итип метаданных。

К основным процессам хранения метаданных относятся:

  • Найдены изменения:автоматическое распознаваниеметаданныеизменять,включать:Новый、удалить、операция обновления
  • Подтверждение изменения:Может Зависит от Соответствующее ответственное лицо подтверждает вручную,Это также может быть автоматически подтверждено системой; соответствующие записи должны быть сохранены в процессе подтверждения.,Для подготовки к последующей прослеживаемости
  • возобновлятьметаданные:на основеизменятьэлементвозобновлятьметаданные
  • История метаданные Архивы:для очень чувствительныхметаданныекатегория,История должна быть заархивирована до внесения изменений.,Для подготовки к откату в последующих версиях

Обработка метаданных

Обработка метаданные: процесс преобразования исходных метаданных перед хранением в целях удовлетворения требований Управления. метаданными и эксплуатационными потребностями. Обработка метаданных Необходимо соблюдать следующие принципы:Полнота, точность, объективность, масштабируемость。Общие операции преобразования механической обработки включают в себя:

  • Чистый:Коррекция илиудалить Неправильный、неполный、непоследовательный、Дублирующиеся данные
  • вычислить:На основе бизнес-правил или алгоритмоввычислитьиметь дело с,включать Операция、полимеризация、сортировать、слить、такие операции, как сегментация
  • стандартизация:Обязательно соберитеметаданныепоследовательный Формати показатели

Унифицированная обработка идентификаторов данных:метаданные Уникальные данные должны генерироваться внутри системы.ID,Сформируйте отношение сопоставления «один к одному» с идентификатором данных исходной платформы.,Метаданным удобно отслеживать весь процесс и адаптироваться под разные платформы.

Хранение метаданных

Из-за различных структур и сценариев использования метаданных,Часто используются разные типы систем хранения.,в соответствии сметаданные结构Может分为以下категория:

  • структурный типметаданные:Описать в структурном режимеметаданные,Например, библиотеки, таблицы, поля, бизнес-атрибуты, жизненные циклы и т.д.метаданные.,Могут быть представлены и сохранены с использованием структурированных данных (т. е. реляционной базы данных).,Если используется для функции поиска,Оптимизация запросов может выполняться на основе индексной базы данных (например, ES).
  • Соответствующийметаданные:Описать в реляционном режимеметаданные,Например Родословная данных,таблица как вершина,Отношения как описания ребер,Может使用图数据Библиотека Приходитьповерхность Демонстрацияхранилище

Разные структурные типы метаданных предъявляют разные требования к системам хранения, и разные системы хранения необходимо адаптировать. База данных, в которой хранятся метаданные, должна отвечать требованиям:

  • Учитывайте масштабируемость емкости и производительности и поддерживайте активное резервное или распределенное развертывание;
  • Рассмотрим системуТребования к надежности,Поддержка резервного копирования данных и обратного отслеживания;

Приложение метаданных

Приложение Метаданные — это способность использовать метаданные для обнаружения корреляции между данными, помощи в управлении данными и предотвращения «болота данных», вызванного агрегированием больших объемов данных низкого качества. Систему возможностей приложений, предоставляемую метаданными, можно разделить на:

  • Карта данных:Полное понимание текущего состояния и инвентаризации информационных активов.,Обеспечить глобальные метаданные возможности поиска,Достичь визуализации данных,Поддержка обзора данных и диаграммы тенденций изменения данных,Позвольте пользователям быстро выявлять изменяющиеся тенденции в общих ресурсах данных.,Заложить прочную основу для бизнес-приложений и сбора данных;
  • Родословная данных:Поддержка нескольких диалектов(HiveSQL、SparkSQL、FlinkSQLждать)изSQLанализ родословной,Получите ссылку на создание данных, а также восходящие и нисходящие отношения.,Поддержка восходящего отслеживания и нисходящего получения информации о происхождении.,выполнитьповерхностьуровень и Полеуровеньизанализ родословной;
  • Спецификация данных:формулировать Объединение внутри предприятияиз Спецификации стандартов данных,Поддержка пользовательских категорий данных,Построение модели хранилища данных,субъект данных,Создайте систему обмена данными,Разрушьте разрозненность данных,Обеспечьте эффективный обмен данными внутри предприятия.
  • Качество данных:проходить建立一套切实Может行из Качество система мониторинга данных, проектирование данных Правила аудита,Укрепить контроль источников данных,Форма управления качеством данных, охватывающая весь жизненный цикл данных,Реализуйте преобразование необработанных данных озера данных в высококачественные активы;
  • Безопасность данных:проходитьформулировать Полныйиз Безопасность стратегия данных, создание систематической системы безопасности данныхмера、осуществлять Безопасность аудит данных, десенсибилизация конфиденциальных данных, настройки Безопасность данных Механизм оценивания,Осуществлять комплексное управление и контроль безопасности,Убедитесь, что сбор и использование данных являются законными и соответствуют требованиям,Обеспечить безопасную и надежную среду для полного изучения ценности данных;

Подвести итог

Управление метаданными — это основа и ядро ​​управления данными. Чтобы избежать «островов данных», компании обычно создают Единые внутри компании. Метаданная платформа объединяет метаданные для унифицированного управления, предоставляет унифицированные услуги внешнему миру и выполняет унифицированное управление и внутреннюю оптимизацию. Статью написал Предыстория, тип метаданных、стандарты метаданных、Управление метаданными процессами теоретически вводится единое Управление метаданными, каждый подпункт процесса будет подробно объяснен позже.

Для получения более подробной информации, пожалуйста, обратитесь к:

Я участвую в последнем конкурсе эссе для специального учебного лагеря Tencent Technology Creation 2024, приходите и разделите со мной приз!

boy illustration
Углубленный анализ переполнения памяти CUDA: OutOfMemoryError: CUDA не хватает памяти. Попыталась выделить 3,21 Ги Б (GPU 0; всего 8,00 Ги Б).
boy illustration
[Решено] ошибка установки conda. Среда решения: не удалось выполнить первоначальное зависание. Повторная попытка с помощью файла (графическое руководство).
boy illustration
Прочитайте нейросетевую модель Трансформера в одной статье
boy illustration
.ART Теплые зимние предложения уже открыты
boy illustration
Сравнительная таблица описания кодов ошибок Amap
boy illustration
Уведомление о последних правилах Points Mall в декабре 2022 года.
boy illustration
Даже новички могут быстро приступить к работе с легким сервером приложений.
boy illustration
Взгляд на RSAC 2024|Защита конфиденциальности в эпоху больших моделей
boy illustration
Вы используете ИИ каждый день и до сих пор не знаете, как ИИ дает обратную связь? Одна статья для понимания реализации в коде Python общих функций потерь генеративных моделей + анализ принципов расчета.
boy illustration
Используйте (внутренний) почтовый ящик для образовательных учреждений, чтобы использовать Microsoft Family Bucket (1T дискового пространства на одном диске и версию Office 365 для образовательных учреждений)
boy illustration
Руководство по началу работы с оперативным проектом (7) Практическое сочетание оперативного письма — оперативного письма на основе интеллектуальной системы вопросов и ответов службы поддержки клиентов
boy illustration
[docker] Версия сервера «Чтение 3» — создайте свою собственную программу чтения веб-текста
boy illustration
Обзор Cloud-init и этапы создания в рамках PVE
boy illustration
Корпоративные пользователи используют пакет регистрационных ресурсов для регистрации ICP для веб-сайта и активации оплаты WeChat H5 (с кодом платежного узла версии API V3)
boy illustration
Подробное объяснение таких показателей производительности с высоким уровнем параллелизма, как QPS, TPS, RT и пропускная способность.
boy illustration
Удачи в конкурсе Python Essay Challenge, станьте первым, кто испытает новую функцию сообщества [Запускать блоки кода онлайн] и выиграйте множество изысканных подарков!
boy illustration
[Техническая посадка травы] Кровавая рвота и отделка позволяют вам необычным образом ощипывать гусиные перья! Не распространяйте информацию! ! !
boy illustration
[Официальное ограниченное по времени мероприятие] Сейчас ноябрь, напишите и получите приз
boy illustration
Прочтите это в одной статье: Учебник для няни по созданию сервера Huanshou Parlu на базе CVM-сервера.
boy illustration
Cloud Native | Что такое CRD (настраиваемые определения ресурсов) в K8s?
boy illustration
Как использовать Cloudflare CDN для настройки узла (CF самостоятельно выбирает IP) Гонконг, Китай/Азия узел/сводка и рекомендации внутреннего высокоскоростного IP-сегмента
boy illustration
Дополнительные правила вознаграждения амбассадоров акции в марте 2023 г.
boy illustration
Можно ли открыть частный сервер Phantom Beast Palu одним щелчком мыши? Супер простой урок для начинающих! (Прилагается метод обновления сервера)
boy illustration
[Играйте с Phantom Beast Palu] Обновите игровой сервер Phantom Beast Pallu одним щелчком мыши
boy illustration
Maotouhu делится: последний доступный внутри страны адрес склада исходного образа Docker 2024 года (обновлено 1 декабря)
boy illustration
Кодирование Base64 в MultipartFile
boy illustration
5 точек расширения SpringBoot, супер практично!
boy illustration
Глубокое понимание сопоставления индексов Elasticsearch.
boy illustration
15 рекомендуемых платформ разработки с нулевым кодом корпоративного уровня. Всегда найдется та, которая вам понравится.
boy illustration
Аннотация EasyExcel позволяет экспортировать с сохранением двух десятичных знаков.