Унифицированные метаданные: определение метамодели, сбор метаданных
Унифицированные метаданные: определение метамодели, сбор метаданных
фон
метаданные Управление можно разделить на следующие5 этапов процесса:Определение метамодели、Сбор метаданных、метаданныеобработка、метаданныехранилище、метаданныеприложение。в,Определение метамоделиэто весьметаданные Предпосылки и нормы управления,используется для определения управляемогометаданныепарадигма。Сбор метаданныхдаметаданныеважный источник,Обеспечить управляемое метаданное сырье,И как сделать масштабируемым и эффективным Сбор метаданные также являются одной из трудностей в метаданном управлении. В этой статье основное внимание будет уделено определению. метамодели、Сбор метаданные двух модулей подробно объяснены.
Например: таблица базы данных Hive user.student, поле имеет идентификатор, name, age,Выборочные данные, соответствующие каждому уровню::
M0: слой объекта (уровень данных), который может соответствовать записям учащихся, например, {id=1, name='zhangsan', age=18}
M1: Слой модели,Прямо сейчасметаданные,Это абстракция уровня данных M0.,определенныйschemaинформация(Определение таблицы библиотеки):{db=user, table=student, columns={id:int, name:string, age: int}}. Определить парадигму данных, основанную на метаданных
M2: слой метамодели,Это абстракция слоя модели M1.,Например, метамодель Hive можно понимать как определение связанной таблицы Hive Metastore.
M3: слой метамодели
Определение метамодели Hive Metastore показано ниже.,Таблица библиотеки представляет собой метамодель.,вЦветная библиотечная таблица — это основная метамодель.:
DBS: определение библиотеки БД
TBLS: определение таблицы таблицы, DB_ID библиотеки, связанной с внешним ключом, SD_ID связанного физического хранилища.
SDS: связанное с физическим хранилищем таблицы таблиц, сериализация ассоциации внешнего ключа SERDE_ID, связанное поле хранения CD_ID
COLUMNS_V2: определение поля таблицы.
PARTITION_KEYS: определение поля раздела таблицы, таблица, связанная с внешним ключом: TBL_ID
PARTITIONS: сведения о списке разделов таблицы, таблица, связанная с внешним ключом: TBL_ID.
Абстракция метамодели может внести гибкость в метаданное управление,Но это приведет к усложнению системы и высоким затратам на обслуживание.。Следовательно, метамодель неда Чем гибче, тем лучше,Во время проектирования метамодели,Необходимо уделить внимание управлению метамоделями сценарных решений. Для удовлетворения сценариев использования и простоты совместимой системы.,Мы ограничиваем управление настройкой метамодели,Абстрагируются только две фиксированные метамодели:
Модель данных улья:поддерживатьметаданные Функциональность онлайн-каталога данных,Внешнее обеспечение и Улей Metastore имеет такую же возможность подключаться к вызовам вычислительного механизма на основе интерфейса Thrift.
Общая модель данных:поддерживатьреляционный источник данныхизуправление данными,нравитьсяMySQL、PG、Oracleждатьметаданныеуправлять;
Примечание:нравиться Если документы подлежат рассмотрениюметаданныеждатьсцена,Необходимо расширить метамодель。Определение сложной метамодели、метамодельуправлять МожетссылкаApache Altasсистема типовизвыполнить,Для получения более подробной информации см.«Отраслевые метаданные менеджмент: обзор схемы проектирования»
Сбор метаданных
Архитектура системы
Сбор метаданных – один из важных способов получения метаданных.,Инкапсулируя различные задачи планирования,Сбор метаданные можно разделить на два типа:
Вывод метаданных:Читая и анализируяхранилищесистемаизфайл данных,Автоматически идентифицировать и вывести информацию о схеме, соответствующую файлу данных;
Поисковый робот метаданных:В основном через PULL Способность активная синхронизация периодического извлечения метаданной информации;В то же время такжеподдерживать Двигатель запускается сHookиз Способ,Сообщайте метаданные сведения через фиксированный формат сообщений PUSH. В соответствии с различными базовыми механизмами источников данных,В основном делится на два типа:(1). Для традиционных реляционных баз данных (таких как MySQL и т. д.) используйте общее соединение JDBC Способность определить Сборку каждого типа источника данных. оператор метаданныхSQL, сканирующий необходимую метаданную информацию из метаданных встроенной таблицы системной библиотеки базового движка (2); для Чтоонбольшие данныекомпонентыметаданные(Такие как Улей、HBaseждать),метаданные могут не поддерживать соединение JDBC.,Мы настроим расширение исходя из характеристик его источника данных.
Общая архитектура системы Сбор метаданных представлена на рисунке.,Для обеспечения расширения и универсальности,Многомерная гетерогенная адаптация:
Гетерогенный бизнес:допускайте разнообразиеиз Бизнес-стыковка,Триггер Сбор Задачи метаданных, такие как поддержка вычислений DLC. на озере данные, система управления разработкой данных WeData;
Гетерогенная система планирования:поддерживатьдиверсификацияизколлекция Планирование задач,Включает встроенное расписание, Индивидуальное планирование、планирование WeData;
Разнородные источники данных:
Поддерживает несколько типов источников данных JDBC.,PULL Способ вызывает соединение JDBC для получения метаданной информации.
Для источников данных, отличных от JDBC,Такие как HBase, Hive и т. д.,поддерживатьCustom PULLСпособ,Получить метаданные информацию;
Для специальных компонентов,Такие как Улей,МожетвыполнитькомпонентыHook,Проактивная отчетность на основе PUSH
Гетерогенный триггер сбора данных:На основе промежуточного программного обеспечения сообщений,Разделить процесс приобретения и процесс обработки метаданных;
Вывод метаданных
Вывод метаданных(InferSchema):также известный какметаданные Обнаружить,В основном используется в сценариях озера данных.,Используется для вывода схемы。для已хранилищеизфайл данных,Определить информацию о файле,Автоматически обнаруживать и загружать схемыметаданные,Сценарии анализа озера данных, которые упрощают миграцию пользователей одним щелчком мыши.,нравитьсяDLCВычисления на озере данных。
Вывод метаданных считывает и анализирует файлы данных из систем хранения (HDFS, COS и т. д.).,Автоматически идентифицировать и вывести информацию о схеме (поля и атрибуты полей), соответствующую файлу данных.,Основные соображения заключаются в следующем:
Права доступа гарантированы
поддерживатьиз Типы файлов и сжатие Способ:
Типы файлов: текстовые файлы (включая журналы, TXT и т. д.), CSV, Json, Parquet, ORC, AVRO;
Сжатый Способ: Несжатый,gz-сжатие,быстрое сжатие
Проблемы с производительностью при чтении и идентификации очень больших файлов.
Самый простойизвыполнить МожетпрямойВозможность повторного использования искровой схемы inferSchema,Под конкретные нужды бизнеса будут внесены соответствующие изменения:
Язык кода:java
копировать
val people = spark.read.format("csv")
.option("sep", ";")
.option("inferSchema", "true")
.option("header", "true")
.load("cos://examples/src/main/resources/people.csv")
val schema = people.schema;
Поисковый робот метаданных
Поисковый робот метаданные, которые являются универсальными метаданных,Обычно существует два типа методов сбора: PULL и PUSH.,Чтобы уменьшить навязчивость источников данных,Рекомендуется отдавать приоритет PULLСпособ.。
Активный сбор PULL: метаданные системы управления регулярно собирают,Цикл сбора должен поддерживать установку,Адаптироваться к дифференцированной частоте обновления источников данных;
Пассивный сбор PUSH: инициируется вручную или активно сообщается внешней системой через API.,При запуске вручную,Этого можно добиться, загрузив метаданный файл вручную или активно запустив задачу сбора.
Методы сбора и реализации компонентов с открытым исходным кодом сообщества резюмируются следующим образом:
компоненты
Способ
выполнить
Apache Atlas
PUSH
Настройте Hive Hook для отправки отчетов в Kafka и необходимости адаптации к различным версиям Hive.
Lyft Amundsen
PULL
Скрипт сбора данных Python для подключения к базе данных метаданных HMS
Linkedin Datahub
PULL
Платформа ORM Python — это SQLAlchemy.
Schemacrawler
PULL
Адаптер JDBC получает метаданные из разных источников данных JDBC (поддерживаются только источники данных JDBC).
Поисковый робот метаданныхвыполнитьлогика:определениеколлекцияпредоставлено извнеиз接口определение,Чтовыполнить В основном делится наКоллекция JDBC、Нет Коллекция JDBCДве категории。
Коллекция JDBC:В основном на основеJdbcCrawlerвыполнить,в:JdbcConnectorRegistryОтвечает за регистрацию различных источников данных.выполнить,JdbcRetrieverОтветственныйJDBCВсе виды Сбор метаданныхвыполнить,JdbcCrawlerOptionsПереписка по техническому обслуживанию Коллекция JDBCПараметры конфигурации,разделен на:Шаблон SPI,JDBC MetadataДве категории
Шаблон SPI: на основе InformationSchemaViews. Определить операторы SQL механизма;
JDBC Метаданные: на основе connection.getMetaData() получать;
Индивидуальная коллекция:Механизм источника данных НетJDBCсоединять,Настройте характеристики в соответствии с двигателем;
особенный,Помимо поддержки автономного сбора, базовая логика метаданных Поискового робота,Также обеспечивает функцию каталога данных в реальном времени.。нравиться Как показано на картинке,Два сервиса могут быть спроектированы отдельно:
метаданные прямого подключения двигателя:Прямо сейчасвыполнено, когда,Получить текущую метаданную информацию о таблицах библиотеки.,В основном используется для поиска или выполнения в реальном времени;
Сбор метаданных Служить:Автономное планирование по расписанию,коллекцияметаданные,В основном используется в сценариях управления данными;
Подвести итог
В этой статье представлено определение метамодели、Сбор Некоторые идеи и направления проектирования метаданных。на практике,Поскольку единое метаданное управление тесно связано с конкретными бизнес-сценариями.,Хотя это архитектурное решение не может быть применено напрямую.,Но его также можно использовать при разработке программы.
Определение Метамодели не в том, что чем гибче, тем лучше, чем гибче метаданные управления становятся более сложными и непонятными. Определение метамодели Старайтесь быть максимально приближенными к конкретному бизнесу,Просто удовлетворите потребности бизнеса,Нет необходимости резервировать дополнительную масштабируемость;
Чтобы уменьшить инвазивное преобразование компонентов источника данных, рекомендуется отдать приоритет PULL Способы выполнить Сбор метаданных;
Сбор Когда объем метаданных велик, для разделения сообщений рекомендуется использовать промежуточное программное обеспечение. метаданные и метаданные процедуры обработки, чтобы избежать чрезмерного служебного давления на метаданные;
Сбор управление задачами метаданных, если таковые имеются Гетерогенная система планирования,Определение задач можно абстрагировать на метаданном уровне.,Адаптироваться к различным системам планирования;