DataFlow Manager (DFM) — это пользователь NiFi с разрешениями на добавление, удаление и изменение компонентов потока данных NiFi.
FlowFile представляет собой отдельный фрагмент данных в NiFi. FlowFile состоит из атрибутов и содержимого. Содержимое — это данные, представленные FlowFile, а атрибуты состоят из пар ключ-значение, которые предоставляют информацию о данных или контекстных характеристиках. Все FlowFiles имеют следующие стандартные свойства:
uuid: универсальный уникальный идентификатор, используемый для различения отдельных FlowFiles.
имя файла: удобочитаемое имя файла, которое можно использовать при хранении данных на диске или во внешней службе.
путь: иерархическое значение, которое можно использовать при хранении данных на диске или во внешних службах, чтобы данные не хранились в одном каталоге.
Процессоры — это компоненты NiFi, используемые для прослушивания входящих данных, извлечения данных из внешних источников, публикации данных во внешних источниках, маршрутизации, преобразования или извлечения информации из FlowFiles.
Каждый процессор имеет ноль или более связей. Эти отношения определяют, как обрабатывается FlowFile: после того, как процессор обработал FlowFile, он маршрутизирует (передает) FlowFile в одно из этих отношений. DFM может связать каждое отношение с другими компонентами, чтобы указать, где FlowFile должен быть обработан следующим.
Connection может соединять различные процессоры вместе для создания процессов автоматической обработки данных.
Служба контроллера — это точка расширения, которая после добавления и настройки DFM в пользовательском интерфейсе будет запускаться при запуске NiFi и предоставлять информацию, необходимую другим компонентам (например, процессору или другим службам контроллера).
Задача создания отчетов выполняется в фоновом режиме и предоставляет статистические отчеты о том, что происходит в экземпляре NiFi.
Воронка — это компонент NiFi, используемый для объединения данных из нескольких соединений в одно соединение.
Когда поток данных становится сложным, полезно управлять потоком данных на более высоком, более абстрактном уровне. NiFi позволяет объединять несколько компонентов (например, процессоров) в группу процессов. Компоненты в группах и группах действий можно просмотреть через интерфейс.
Обычно используется для удаленного подключения к группам NiFi.
Удаленные группы позволяют передавать данные из одного экземпляра NiFi в другой. Хотя NiFi предоставляет множество различных механизмов для передачи данных из одной системы в другую, если вы передаете данные в другой экземпляр NiFi, реализация удаленной группы процессов является самым простым методом.
Пользовательский интерфейс NiFi обеспечивает множество возможностей мониторинга и обратной связи о текущем состоянии приложения. Помимо предупреждения «желтого треугольника» для каждого компонента, будет сообщаться об ошибке, когда каждый компонент запускается с ошибкой. Эта ошибка будет отображаться в правом верхнем углу процессора в виде красного значка. Объявления системного уровня отображаются в строке состояния в верхней части страницы. При наведении курсора мыши на этот значок появится всплывающая подсказка с информацией об объявлении.
DataFlow состоит из множества повторно используемых компонентов. NiFi позволяет DFM выбирать часть DataFlow (или весь DataFlow) и создавать шаблон для повторного использования.
Содержимое всех компонентов холста пользовательского интерфейса записывается в режиме реального времени в файл с именем flow.xml.gz, который по умолчанию находится в каталоге $NIFI_HOME/conf. Любые изменения, внесенные на холсте, автоматически сохраняются в этом файле. Кроме того, NiFi автоматически создаст резервную копию этого файла при обновлении. Вы можете использовать эти резервные копии для отката конфигурации. Если вы хотите выполнить откат, сначала остановите NiFi, замените flow.xml.gz необходимой резервной копией, а затем перезапустите NiFi. . В кластерной среде остановите весь кластер NiFi, замените flow.xml.gz одного узла, удалите flow.xml.gz с других узлов, а затем перезапустите кластер. Будет создана резервная копия «flow.xml.gz». автоматически синхронизируется между узлами документа.