Alluxio Первое в мире решение с открытым исходным кодом для облачного анализа данных и искусственного интеллекта. Технология оркестрации данных 。 Он строит мост между приложениями, управляемыми данными, и системами хранения данных. Переместите данные с уровня хранения ближе к приложениям, управляемым данными, чтобы к ним было легче получить доступ. Это также позволяет приложениям подключаться ко многим системам хранения через общий интерфейс. Иерархическая архитектура Alluxio, ориентированная на память, обеспечивает скорость доступа к данным на несколько порядков быстрее, чем существующие решения.
В экосистеме больших данных Alluxio находится в управляемых данными платформах или приложениях (таких как Apache Spark, Presto, Tensorflow, Apache HBase, Apache Hive или Apache Flink) и различных системах постоянного хранения (таких как Amazon S3, Google Cloud Storage, OpenStack). Swift, HDFS, GlusterFS, IBM Cleversafe, EMC ECS, Ceph, NFS, Minio и Alibaba OSS). Alluxio объединяет данные, хранящиеся в этих различных системах хранения, и предоставляет унифицированный клиентский API и глобальное пространство имен для своих приложений верхнего уровня, управляемых данными.
Alluxio Проект берет свое начало от UC Berkeley из AMPLab (Видеть бумага ), в стеке аналитики данных Беркли (Berkeley Data Analytics Stack, BDAS ) Играет роль уровня доступа к данным. Это начинается с Apache License 2.0 Протокол имеет открытый исходный код. Alluxio Это один из самых быстрорастущих проектов с открытым исходным кодом, который привлек более 300 организации 1000+ участников участвовать в Alluxio в разработке, в том числе Алибаба 、 Alluxio 、 Байду 、 CMU 、 Google 、 IBM 、 Intel 、 Нанкинский университет 、 Red Hat 、 Тенсент 、 UC Berkeley 、 и Yahoo 。
На сегодняшний день Аллюксио Уже в сотни учреждений из Развернуто в рабочей среде, превышен максимальный масштаб запуска развертывания изкластера 1500 узлы.
Преимущества
Упрощая способ доступа приложений к своим данным (независимо от формата и местоположения данных), Alluxio Может помочь преодолеть трудности, возникающие при извлечении информации из данных. Аллюксио из Преимущества включает в себя:
Скорость памяти ввода/вывода :Alluxio Может использоваться как распределенный общий сервис, так что Alluxio Коммуникационные компьютерные приложения могут быть часто прозрачно доступны (особенно из удаленных мест), чтобы обеспечить уровень памяти. I/O Пропускная способность。также,Иерархический механизм хранения Alluxio может полностью использовать память, твердотельные накопители или диски.,Сократите стоимость приложений, управляемых приложениями, за счет характеристик упругого расширения.
Упрощение доступа к облачному хранилищу и объектному хранилищу : По сравнению с традиционными файловыми системами, облачные системы хранения и объектные системы хранения используют разную семантику, и влияние этой семантики на производительность также отличается от традиционных файловых систем. Выполнение общих операций с файловой системой в облачных хранилищах и системах хранения объектов, таких как просмотр каталогов и переименование, часто приводит к значительным накладным расходам. При доступе к облачному хранилищу приложения не имеют локальности между приложениями на уровне узлов. Воля Alluxio Облачное хранилище и Объектное хранилище можно развернуть вместе, чтобы решить эти проблемы, поскольку оно Alluxio Извлекайте чтения из данных вместо чтения из базового облачного хранилища и хранилища объектов.
Упрощение управления данными :Alluxio Обеспечивает единую точку доступа к нескольким источникам. Помимо подключения источников разных типов, Alluxio Это также позволяет пользователям одновременно подключаться к разным версиям одной и той же системы хранения, например к нескольким версиям. HDFS и не требует сложной настройки и управления системой.
Простое развертывание приложений :Alluxio Управляйте связью между приложениями, файлами и объектным хранилищем, а также преобразуйте запросы доступа приложений в запросы базового интерфейса хранилища. Аллюксио и Hadoop Экосистема, совместимая с существующими аналитическими приложениями, такими как Spark и MapReduce программа без изменения кода Alluxio беги дальше.
технологические инновации
Alluxio сочетает в себе три ключевые области инноваций, предоставляя уникальный набор возможностей.
глобальное пространство имен :Alluxio Возможность предоставления единой точки доступа к нескольким независимым системам хранения данных.,Неважно, где физически расположены эти системы хранения. Это обеспечивает единое представление всех источников данных, приложений и стандартного интерфейса. Для получения дополнительной информации,ВидетьДокументация по единому пространству имен 。
Интеллектуальное многоуровневое кэширование :Alluxio кластер может выполнять функцию кэша чтения и записи данных в базовой системе хранения. Настраиваемая автоматическая оптимизированная стратегия размещения данных для обеспечения надежности между памятью и диском (SSD/HDD) и производительности. Кэш прозрачен для пользователей и использует буферизацию для поддержания постоянной целостности хранилища. Для получения дополнительной информации см. Документация по функциям кэширования 。
Преобразование перевода API на стороне сервера : Alluxio поддерживает промышленные сценарии и интерфейсы API, такие как HDFS. API, S3 API, FUSE API, REST API. Он может прозрачно конвертировать стандартный клиентский интерфейс в любой интерфейс хранилища. Аллюксио Отвечает за управление приложениямиидокументилимежду хранилищами объектовизкоммуникация,Это устраняет необходимость настройки и управления сложными системами. Данные файла могут выглядеть как данные объекта.,наоборот.
Сценарии применения
Многие ведущие компании мира используют Alluxio в производстве,следоватьданные Получите ценность от。мыPowered-ByНекоторые компании перечислены на странице。Ниже мы представим некоторые из наиболее распространенныхиз Alluxio Сценарии применения。
1. Сценарии Применение1: Ускорение облачного анализа и искусственного интеллекта Операция
Многие предприятия используют общедоступное облако (AWS S3、Google Cloud или Microsoft Запускайте рабочие нагрузки аналитики и машинного обучения (Spark, Presto, Hive, Tensorflow) в объектном хранилище Azure. ждать).
Хотя облачное объектное хранилище, как правило, более рентабельно.,Простота в использовании и расширение,Но есть и некоторые проблемы:
производительность нестабильна, и трудно достичь согласованного соглашения об уровне обслуживания.
Элементы дороги в эксплуатации и замедляют нагрузку.
Встроенный кэш не работает для коротких тиражей изкластера.
Alluxio Решите эти проблемы, предоставив интеллектуальное многоуровневое управление данными элементов кэша. Развертывание на компьютерном кластере Alluxio Помогает:
Отсутствие встроенной поддержки основных фреймворков.
Данные в юанях дороги в эксплуатации, а производительность низкая.
Alluxio предоставлено кэши API Преобразуйте функции для решения этих проблем. Развертывание на стороне приложения Alluxio Приносит следующие преимущества:
Анализ и повышение производительности нагрузки AI
Гибкая изоляция хранилища
Поддерживает несколько API, не влияя на удобство работы конечных пользователей.
Сокращение общих затрат на хранение
книга Сценарии применения Посмотреть делоDBS(ДБС Банк Сингапур)。
3. Сценарии применения3: Миграция в гибридное облако с «нулевой копией»
Поскольку все больше и больше предприятий переходят в облако,Одной из распространенных практик перехода является использование ресурсов облачных вычислений.,Также считывает данные из локального источника данных. но,Эта гибридная архитектура создает следующие проблемы:
Данные удаленного чтения выполняются медленно и нестабильно.
Копирование данных в облачное хранилище — трудоемкий, сложный и подверженный ошибкам процесс.
Соответствие иданные Правила, связанные с суверенитетом, не позволяют копировать данные в облако.
Alluxio обеспечивает облачную функциональность «нулевой копии».,Позволяет механизму облачных вычислений получать доступ к локальным данным.,Без необходимости постоянной изданной репликации или периодической синхронизации. Эта функция доступна:
производительность эквивалентна данным на кластере облачных вычислений
Не влияет на работу конечного пользователя и безопасный режим.
Обычный уровень доступа к данным использует доступ и политику мобильного доступа и зданные.
Эластичные ресурсы облачных вычислений можно использовать для снижения затрат.
книга Сценарии применения Посмотреть делоWalmart(Уолмарт)。
Другая гибридная облачная архитектура предполагает доступ к облачному хранилищу из частного центра обработки данных. Использование этой архитектуры часто приводит к следующим проблемам:
Нет облачного хранилища и локального хранилища в едином представлении
Стоимость сетевого трафика слишком высока
Невозможно получить доступ к данным в облаке с помощью локального вычислительного механизма.
низкая производительность при выполнении анализа иAIОперация
Alluxio 作为смешиваниеШлюз облачного хранилища,Может использовать локальную вычислительную обработку облачных данных.,тем самым решая эти проблемы. Когда Alluxio развертывается с локальными вычислениями,Alluxio управляет вычислениями и хранилищем, а также локализует то, что нужно вашему приложению.,Чтобы достичь:
Повысьте производительность чтения и записи с помощью интеллектуального распределенного кэша.
Сократите дублирование данных, тем самым сэкономив сетевые расходы.
Обеспечьте гибкий интерфейс API и режим безопасности облачного хранилища.,Не влияет на опыт конечного пользователя
книга Сценарии применения Посмотреть делоComcast(Комкаст)。
У многих компаний есть причины для повышения производительности, безопасности и изоляции ресурсов.,Создается независимо от основного кластера данных-кластериз спутниковых вычислений. Поскольку эти кластеры спутников требуют удаленного доступа к данным через основной кластер,Существует определенная степень сложности,Это потому, что:
Кросс-данный центр копирования требует ручного управления.,Очень много времени
Копирование данных приводит к ненужным и высоким сетевым затратам.
Репликация на перегруженном кластере хранилища. Операция серьезно влияет на производительность существующих нагрузок.
Alluxio можно использовать как логическую копию данных.,Развернуто на спутниковом вычислительном узле кластеризации.,и настроен на подключение к основному датакластеру,поэтому:
Нет необходимости хранить избыточные копии в центрах обработки данных.
Уменьшить сложность изданной синхронизации
Улучшение данных удаленного доступа по сравнению с производительностью
Создание автономной архитектуры данных для нескольких бизнес-подразделений