Унифицированные метаданные: определение метамодели, сбор метаданных
Унифицированные метаданные: определение метамодели, сбор метаданных

фон

метаданные Управление можно разделить на следующие5 этапов процесса:Определение метамодели、Сбор метаданных、метаданныеобработка、метаданныехранилище、метаданныеприложение。в,Определение метамоделиэто весьметаданные Предпосылки и нормы управления,используется для определения управляемогометаданныепарадигма。Сбор метаданныхдаметаданныеважный источник,Обеспечить управляемое метаданное сырье,И как сделать масштабируемым и эффективным Сбор метаданные также являются одной из трудностей в метаданном управлении. В этой статье основное внимание будет уделено определению. метамодели、Сбор метаданные двух модулей подробно объяснены.

Определение метамодели

Метамодель — это уровень M2 стандарта метаданных и абстракция уровня метаданных M1.。Для получения более подробной информации см.«Система и стандарты управления информационными активами»

Например: таблица базы данных Hive user.student, поле имеет идентификатор, name, age,Выборочные данные, соответствующие каждому уровню:

  • M0: слой объекта (уровень данных), который может соответствовать записям учащихся, например, {id=1, name='zhangsan', age=18}
  • M1: Слой модели,Прямо сейчасметаданные,Это абстракция уровня данных M0.,определенныйschemaинформация(Определение таблицы библиотеки):{db=user, table=student, columns={id:int, name:string, age: int}}. Определить парадигму данных, основанную на метаданных
  • M2: слой метамодели,Это абстракция слоя модели M1.,Например, метамодель Hive можно понимать как определение связанной таблицы Hive Metastore.
  • M3: слой метамодели

Определение метамодели Hive Metastore показано ниже.,Таблица библиотеки представляет собой метамодель.Цветная библиотечная таблица — это основная метамодель.

  • DBS: определение библиотеки БД
  • TBLS: определение таблицы таблицы, DB_ID библиотеки, связанной с внешним ключом, SD_ID связанного физического хранилища.
  • SDS: связанное с физическим хранилищем таблицы таблиц, сериализация ассоциации внешнего ключа SERDE_ID, связанное поле хранения CD_ID
  • COLUMNS_V2: определение поля таблицы.
  • PARTITION_KEYS: определение поля раздела таблицы, таблица, связанная с внешним ключом: TBL_ID
  • PARTITIONS: сведения о списке разделов таблицы, таблица, связанная с внешним ключом: TBL_ID.

Абстракция метамодели может внести гибкость в метаданное управление,Но это приведет к усложнению системы и высоким затратам на обслуживание.。Следовательно, метамодель неда Чем гибче, тем лучше,Во время проектирования метамодели,Необходимо уделить внимание управлению метамоделями сценарных решений. Для удовлетворения сценариев использования и простоты совместимой системы.,Мы ограничиваем управление настройкой метамодели,Абстрагируются только две фиксированные метамодели:

  • Модель данных улья:поддерживатьметаданные Функциональность онлайн-каталога данных,Внешнее обеспечение и Улей Metastore имеет такую ​​же возможность подключаться к вызовам вычислительного механизма на основе интерфейса Thrift.
  • Общая модель данных:поддерживатьреляционный источник данныхизуправление данными,нравитьсяMySQL、PG、Oracleждатьметаданныеуправлять;

Примечание:нравиться Если документы подлежат рассмотрениюметаданныеждатьсцена,Необходимо расширить метамодель。Определение сложной метамодели、метамодельуправлять МожетссылкаApache Altasсистема типовизвыполнить,Для получения более подробной информации см.«Отраслевые метаданные менеджмент: обзор схемы проектирования»

Сбор метаданных

Архитектура системы

Сбор метаданных – один из важных способов получения метаданных.,Инкапсулируя различные задачи планирования,Сбор метаданные можно разделить на два типа:

  • Вывод метаданных:Читая и анализируяхранилищесистемаизфайл данных,Автоматически идентифицировать и вывести информацию о схеме, соответствующую файлу данных;
  • Поисковый робот метаданныхВ основном через PULL Способность активная синхронизация периодического извлечения метаданной информации;В то же время такжеподдерживать Двигатель запускается сHookиз Способ,Сообщайте метаданные сведения через фиксированный формат сообщений PUSH. В соответствии с различными базовыми механизмами источников данных,В основном делится на два типа:(1). Для традиционных реляционных баз данных (таких как MySQL и т. д.) используйте общее соединение JDBC Способность определить Сборку каждого типа источника данных. оператор метаданныхSQL, сканирующий необходимую метаданную информацию из метаданных встроенной таблицы системной библиотеки базового движка (2); для Чтоонбольшие данныекомпонентыметаданные(Такие как Улей、HBaseждать),метаданные могут не поддерживать соединение JDBC.,Мы настроим расширение исходя из характеристик его источника данных.

Общая архитектура системы Сбор метаданных представлена ​​на рисунке.,Для обеспечения расширения и универсальности,Многомерная гетерогенная адаптация

  • Гетерогенный бизнес:допускайте разнообразиеиз Бизнес-стыковка,Триггер Сбор Задачи метаданных, такие как поддержка вычислений DLC. на озере данные, система управления разработкой данных WeData;
  • Гетерогенная система планирования:поддерживатьдиверсификацияизколлекция Планирование задач,Включает встроенное расписание, Индивидуальное планирование、планирование WeData;
  • Разнородные источники данных
    • Поддерживает несколько типов источников данных JDBC.,PULL Способ вызывает соединение JDBC для получения метаданной информации.
    • Для источников данных, отличных от JDBC,Такие как HBase, Hive и т. д.,поддерживатьCustom PULLСпособ,Получить метаданные информацию;
    • Для специальных компонентов,Такие как Улей,МожетвыполнитькомпонентыHook,Проактивная отчетность на основе PUSH
    • Бизнес метаданные поддерживают упреждающую отчетность PUSH
  • Гетерогенный триггер сбора данных:На основе промежуточного программного обеспечения сообщений,Разделить процесс приобретения и процесс обработки метаданных;

Вывод метаданных

Вывод метаданных(InferSchema):также известный какметаданные Обнаружить,В основном используется в сценариях озера данных.,Используется для вывода схемы。для已хранилищеизфайл данных,Определить информацию о файле,Автоматически обнаруживать и загружать схемыметаданные,Сценарии анализа озера данных, которые упрощают миграцию пользователей одним щелчком мыши.,нравитьсяDLCВычисления на озере данных。

Вывод метаданных считывает и анализирует файлы данных из систем хранения (HDFS, COS и т. д.).,Автоматически идентифицировать и вывести информацию о схеме (поля и атрибуты полей), соответствующую файлу данных.,Основные соображения заключаются в следующем:

  • Права доступа гарантированы
  • поддерживатьиз Типы файлов и сжатие Способ:
    • Типы файлов: текстовые файлы (включая журналы, TXT и т. д.), CSV, Json, Parquet, ORC, AVRO;
    • Сжатый Способ: Несжатый,gz-сжатие,быстрое сжатие
  • Проблемы с производительностью при чтении и идентификации очень больших файлов.

Самый простойизвыполнить МожетпрямойВозможность повторного использования искровой схемы inferSchema,Под конкретные нужды бизнеса будут внесены соответствующие изменения:

Язык кода:java
копировать
val people = spark.read.format("csv")
  .option("sep", ";")
  .option("inferSchema", "true")
  .option("header", "true")
  .load("cos://examples/src/main/resources/people.csv")
val schema = people.schema;

Поисковый робот метаданных

Поисковый робот метаданные, которые являются универсальными метаданных,Обычно существует два типа методов сбора: PULL и PUSH.,Чтобы уменьшить навязчивость источников данных,Рекомендуется отдавать приоритет PULLСпособ.

  • Активный сбор PULL: метаданные системы управления регулярно собирают,Цикл сбора должен поддерживать установку,Адаптироваться к дифференцированной частоте обновления источников данных;
  • Пассивный сбор PUSH: инициируется вручную или активно сообщается внешней системой через API.,При запуске вручную,Этого можно добиться, загрузив метаданный файл вручную или активно запустив задачу сбора.

Методы сбора и реализации компонентов с открытым исходным кодом сообщества резюмируются следующим образом:

компоненты

Способ

выполнить

Apache Atlas

PUSH

Настройте Hive Hook для отправки отчетов в Kafka и необходимости адаптации к различным версиям Hive.

Lyft Amundsen

PULL

Скрипт сбора данных Python для подключения к базе данных метаданных HMS

Linkedin Datahub

PULL

Платформа ORM Python — это SQLAlchemy.

Schemacrawler

PULL

Адаптер JDBC получает метаданные из разных источников данных JDBC (поддерживаются только источники данных JDBC).

Поисковый робот метаданныхвыполнитьлогика:определениеколлекцияпредоставлено извнеиз接口определение,Чтовыполнить В основном делится наКоллекция JDBCНет Коллекция JDBCДве категории。

  1. Коллекция JDBC:В основном на основеJdbcCrawlerвыполнить,в:JdbcConnectorRegistryОтвечает за регистрацию различных источников данных.выполнить,JdbcRetrieverОтветственныйJDBCВсе виды Сбор метаданныхвыполнить,JdbcCrawlerOptionsПереписка по техническому обслуживанию Коллекция JDBCПараметры конфигурации,разделен на:Шаблон SPI,JDBC MetadataДве категории
    1. Шаблон SPI: на основе InformationSchemaViews. Определить операторы SQL механизма;
    2. JDBC Метаданные: на основе connection.getMetaData() получать;
  2. Индивидуальная коллекция:Механизм источника данных НетJDBCсоединять,Настройте характеристики в соответствии с двигателем;

особенный,Помимо поддержки автономного сбора, базовая логика метаданных Поискового робота,Также обеспечивает функцию каталога данных в реальном времени.。нравиться Как показано на картинке,Два сервиса могут быть спроектированы отдельно:

  • метаданные прямого подключения двигателя:Прямо сейчасвыполнено, когда,Получить текущую метаданную информацию о таблицах библиотеки.,В основном используется для поиска или выполнения в реальном времени;
  • Сбор метаданных Служить:Автономное планирование по расписанию,коллекцияметаданные,В основном используется в сценариях управления данными;

Подвести итог

В этой статье представлено определение метамодели、Сбор Некоторые идеи и направления проектирования метаданных。на практике,Поскольку единое метаданное управление тесно связано с конкретными бизнес-сценариями.,Хотя это архитектурное решение не может быть применено напрямую.,Но его также можно использовать при разработке программы.

  • Определение Метамодели не в том, что чем гибче, тем лучше, чем гибче метаданные управления становятся более сложными и непонятными. Определение метамодели Старайтесь быть максимально приближенными к конкретному бизнесу,Просто удовлетворите потребности бизнеса,Нет необходимости резервировать дополнительную масштабируемость;
  • Чтобы уменьшить инвазивное преобразование компонентов источника данных, рекомендуется отдать приоритет PULL Способы выполнить Сбор метаданных;
  • Сбор Когда объем метаданных велик, для разделения сообщений рекомендуется использовать промежуточное программное обеспечение. метаданные и метаданные процедуры обработки, чтобы избежать чрезмерного служебного давления на метаданные;
  • Сбор управление задачами метаданных, если таковые имеются Гетерогенная система планирования,Определение задач можно абстрагировать на метаданном уровне.,Адаптироваться к различным системам планирования;

Я участвую в последнем конкурсе эссе для специального учебного лагеря Tencent Technology Creation 2024, приходите и разделите со мной приз!

boy illustration
Углубленный анализ переполнения памяти CUDA: OutOfMemoryError: CUDA не хватает памяти. Попыталась выделить 3,21 Ги Б (GPU 0; всего 8,00 Ги Б).
boy illustration
[Решено] ошибка установки conda. Среда решения: не удалось выполнить первоначальное зависание. Повторная попытка с помощью файла (графическое руководство).
boy illustration
Прочитайте нейросетевую модель Трансформера в одной статье
boy illustration
.ART Теплые зимние предложения уже открыты
boy illustration
Сравнительная таблица описания кодов ошибок Amap
boy illustration
Уведомление о последних правилах Points Mall в декабре 2022 года.
boy illustration
Даже новички могут быстро приступить к работе с легким сервером приложений.
boy illustration
Взгляд на RSAC 2024|Защита конфиденциальности в эпоху больших моделей
boy illustration
Вы используете ИИ каждый день и до сих пор не знаете, как ИИ дает обратную связь? Одна статья для понимания реализации в коде Python общих функций потерь генеративных моделей + анализ принципов расчета.
boy illustration
Используйте (внутренний) почтовый ящик для образовательных учреждений, чтобы использовать Microsoft Family Bucket (1T дискового пространства на одном диске и версию Office 365 для образовательных учреждений)
boy illustration
Руководство по началу работы с оперативным проектом (7) Практическое сочетание оперативного письма — оперативного письма на основе интеллектуальной системы вопросов и ответов службы поддержки клиентов
boy illustration
[docker] Версия сервера «Чтение 3» — создайте свою собственную программу чтения веб-текста
boy illustration
Обзор Cloud-init и этапы создания в рамках PVE
boy illustration
Корпоративные пользователи используют пакет регистрационных ресурсов для регистрации ICP для веб-сайта и активации оплаты WeChat H5 (с кодом платежного узла версии API V3)
boy illustration
Подробное объяснение таких показателей производительности с высоким уровнем параллелизма, как QPS, TPS, RT и пропускная способность.
boy illustration
Удачи в конкурсе Python Essay Challenge, станьте первым, кто испытает новую функцию сообщества [Запускать блоки кода онлайн] и выиграйте множество изысканных подарков!
boy illustration
[Техническая посадка травы] Кровавая рвота и отделка позволяют вам необычным образом ощипывать гусиные перья! Не распространяйте информацию! ! !
boy illustration
[Официальное ограниченное по времени мероприятие] Сейчас ноябрь, напишите и получите приз
boy illustration
Прочтите это в одной статье: Учебник для няни по созданию сервера Huanshou Parlu на базе CVM-сервера.
boy illustration
Cloud Native | Что такое CRD (настраиваемые определения ресурсов) в K8s?
boy illustration
Как использовать Cloudflare CDN для настройки узла (CF самостоятельно выбирает IP) Гонконг, Китай/Азия узел/сводка и рекомендации внутреннего высокоскоростного IP-сегмента
boy illustration
Дополнительные правила вознаграждения амбассадоров акции в марте 2023 г.
boy illustration
Можно ли открыть частный сервер Phantom Beast Palu одним щелчком мыши? Супер простой урок для начинающих! (Прилагается метод обновления сервера)
boy illustration
[Играйте с Phantom Beast Palu] Обновите игровой сервер Phantom Beast Pallu одним щелчком мыши
boy illustration
Maotouhu делится: последний доступный внутри страны адрес склада исходного образа Docker 2024 года (обновлено 1 декабря)
boy illustration
Кодирование Base64 в MultipartFile
boy illustration
5 точек расширения SpringBoot, супер практично!
boy illustration
Глубокое понимание сопоставления индексов Elasticsearch.
boy illustration
15 рекомендуемых платформ разработки с нулевым кодом корпоративного уровня. Всегда найдется та, которая вам понравится.
boy illustration
Аннотация EasyExcel позволяет экспортировать с сохранением двух десятичных знаков.