Большие данные — это совокупность данных, которые невозможно собрать, управлять и обработать в течение определенного периода времени с помощью обычных программных инструментов.
Анализ данных не может быть отделен от данных. Энциклопедия определяет данные как: результат фактов или наблюдений, логическую индукцию объективных вещей и необработанный исходный материал, используемый для представления объективных вещей. Данные могут быть непрерывными значениями, такими как звуки и изображения, которые называются аналоговыми данными; они также могут быть дискретными, например символы и текст, которые называются цифровыми данными;
Анализ данных подразумевает использование соответствующих методов статистического анализа для анализа собранных данных, их обобщения, понимания и обработки, чтобы максимизировать развитие функций данных и играть роль данных.
В сфере бизнеса анализ данных может помочь компаниям принимать суждения и решения для принятия соответствующих стратегий и действий. Например, руководители корпораций надеются понять рыночные тенденции текущих продуктов посредством анализа рынка и исследований, чтобы определить разумные планы разработки продуктов и продаж. Для завершения этого необходимо опираться на анализ данных. Самый известный пример из жизни: специалисты по погоде анализируют метеорологические данные и составляют прогнозы погоды. На основе прогнозов мы разрабатываем соответствующие стратегии, брать ли с собой зонтик или свитер.
Цель анализа данных — сконцентрировать и уточнить информацию, скрытую за данными, обобщить внутренние законы объекта исследования и помочь менеджерам принимать эффективные суждения и решения.
Анализ данных выполняет три основные функции в ежедневном бизнес-анализе предприятий:
Проще говоря, он сообщает вам текущую ситуацию, которая конкретно отражается в:
Во-первых, сообщите вам общее состояние работы компании на данном этапе и измерьте состояние работы компании посредством заполнения различных показателей, чтобы объяснить, хороши или плохи операции компании в течение дня, насколько они хороши и насколько плохо это.
Во-вторых, он рассказывает вам о составе различных подразделений компании, что позволяет вам понять развитие и изменения различных направлений деятельности компании, а также получить более глубокое понимание условий работы компании.
Проще говоря, он говорит вам, почему возникает определенный статус-кво.
Проанализировав текущую ситуацию, мы имеем общее представление о деятельности компании, но не знаем, каковы конкретные преимущества и недостатки этой деятельности и каковы причины. На этом этапе необходимо провести анализ причин для дальнейшего определения конкретных причин бизнес-изменений.
Например, в феврале 2020 года операционная прибыль упала на 50%. Чем это вызвано, было ли это снижение всех доходов бизнеса, или это было вызвано снижением доходов отдельных бизнесов, или это было снижение доходов бизнеса во всех регионах? было ли это вызвано снижением доходов бизнеса в отдельных регионах? Это требует от нас проведения анализа причин, дальнейшего определения конкретных причин снижения доходов, а также внесения корректировок и оптимизации в операционные стратегии.
Проще говоря, он говорит вам, что произойдет в будущем.
После понимания текущего состояния деятельности компании иногда необходимо спрогнозировать будущие тенденции развития компании, чтобы обеспечить эффективную справочную информацию и основу для принятия решений для формулирования корпоративных операционных целей и стратегий для обеспечения устойчивого и здорового развития компании. Прогнозный анализ обычно завершается тематическим анализом, который обычно проводится при формулировании корпоративных квартальных, годовых и других планов. Частота его проведения не так высока, как анализ текущей ситуации и анализ причин.
Чжан Вэньлинь сказал в «Шести шагах к анализу данных», что типичный анализ данных должен включать в себя следующие шаги:
Во-первых, поймите цель этого анализа, разберите идеи анализа и постройте общую структуру анализа. Разбейте цель анализа на несколько пунктов, сделав их ясными и ясными, то есть цель анализа, кто является. Пользователь знает, как конкретно проводить анализ данных и с чего начать Анализировать с разных точек зрения и какие индикаторы анализа использовать (все типы индикаторов анализа необходимо использовать в разумной комбинации).
В то же время убедитесь, что структура анализа является систематической и логичной. Проще говоря, что следует анализировать в первую очередь, а что — позже, чтобы между каждой точкой анализа была логическая связь. Избегайте незнания, с чего начать и являются ли содержание и показатели анализа разумными и полными. Таким образом, систематизация должна сделать вашу структуру анализа убедительной.
Систематизировать структуру анализа,Для этого требуются некоторые теории маркетинга, менеджмента и другие теории в качестве руководства.,Построено с учетом реальных условий бизнеса,Таким образом можно обеспечить целостность измерений анализа.,Достоверность и правильность результатов анализа。Например, стеория поведения пользователейдля руководства,Установленная система показателей анализа интернет-сайтов выглядит следующим образом:
Поместите маркетинг, связанный с анализом данных、Менеджмент и другие теории вместе называются методологией анализа данных.。напримертеория поведения пользователей, метод анализа PEST, метод анализа 5W2H и т. д.
Общие источники данных в основном включают следующие методы:
База данных: каждая компания имеет собственную бизнес-базу данных, в которой хранятся соответствующие бизнес-данные, созданные с момента основания компании. Эта бизнес-база данных представляет собой огромный ресурс данных, который необходимо эффективно использовать.
Публичные публикации: Публичные публикации, которые можно использовать для сбора данных, включают статистические ежегодники или отчеты, такие как Статистический ежегодник Китая, Ежегодник социальной статистики Китая, Ежегодник китайской демографии, Ежегодник мировой экономики и Доклад о мировом развитии.
Интернет: с развитием Интернета в Интернете публикуется все больше и больше данных. В частности, поисковые системы могут помочь нам быстро найти нужные нам данные, например, веб-сайты национальных и местных статистических бюро, веб-сайты отраслевых организаций, веб-сайты государственных учреждений. и средства массовой информации. Веб-сайты, крупные комплексные порталы и т. д. могут содержать необходимые нам данные.
Исследование рынка. При проведении анализа данных необходимо понимать идеи и потребности пользователей. Однако получить такие данные с помощью трех вышеуказанных методов будет сложно. Поэтому вы можете попробовать использовать методы исследования рынка для сбора идей и информации пользователей. нужны данные.
Обработка данных означает обработку и организацию собранных данных в формате, пригодном для анализа данных. Это важный этап перед анализом данных. Основная цель обработки данных — извлечение и получение ценных и значимых данных для решения проблем из большого количества беспорядочных и трудных для понимания данных.
данныеиметь дело с В основном включаютданные Чистый、данные Конвертировать、данныеизвлекать、данные计算等иметь дело сметод。Обычно доступенданные Все требуют определенныхиметь дело сможет быть использован для последующегоданные Аналитическая работа,Даже самые «чистые» исходные данные должны пройти определенную обработку, прежде чем их можно будет использовать.
Обработка данных является основой анализа данных. Посредством обработки данных собранные необработанные данные преобразуются в форму, которую можно анализировать, при этом обеспечивается согласованность и достоверность данных.
Анализ данных — это процесс использования соответствующих методов и инструментов анализа для анализа обработанных данных, извлечения ценной информации и формирования эффективных выводов. Поскольку анализ данных в основном выполняется с помощью программного обеспечения, от аналитиков данных требуется не только овладение различными методами анализа данных, но и знание работы программного обеспечения для анализа данных.
Интеллектуальный анализ данных на самом деле представляет собой расширенный метод анализа данных, который заключается в извлечении полезной информации из большого количества данных. Он основан на конкретных требованиях пользователя и позволяет найти необходимую информацию из огромного моря данных для удовлетворения конкретных потребностей. потребности пользователя. Технология интеллектуального анализа данных — это результат многолетних исследований и разработок людей в области технологий баз данных. Вообще говоря, интеллектуальный анализ данных фокусируется на решении четырех типов задач анализа данных: классификация, кластеризация, ассоциация и прогнозирование, с упором на поиск закономерностей и правил. Суть анализа данных и интеллектуального анализа данных одна и та же: оба из них заключаются в извлечении бизнес-знаний из данных.
Как правило, данные представлены в виде таблиц и графиков, что мы часто и говорим, когда используем графики для разговора. Обычно используемые диаграммы данных включают круговые диаграммы, столбчатые диаграммы, гистограммы, линейные диаграммы, точечные диаграммы, лепестковые диаграммы и т. д. Конечно, эти диаграммы можно дополнительно организовать и обработать, чтобы превратить их в нужные нам графики, такие как пирамидальные диаграммы, Матричная диаграмма, воронкообразная диаграмма и т. д.
В большинстве случаев люди более охотно принимают графику как способ отображения данных, поскольку она может более эффективно и интуитивно передать взгляды, которые будут выражены в ходе анализа. Помните, вообще говоря, если вы можете использовать картинки для объяснения проблемы, не используйте таблицы, если вы можете использовать таблицы для объяснения проблемы, не используйте слова;
Отчет об анализе данных на самом деле представляет собой краткое изложение и представление всего процесса анализа данных. В отчете для лиц, принимающих решения, полностью представлены происхождение, процесс, результаты и предложения по анализу данных.
Хороший отчет по анализу данных в первую очередь должен иметь хорошую структуру анализа с изображениями и текстами, а также четкими уровнями, чтобы читатели могли понять его с первого взгляда. Четкая структура и четкие приоритеты позволяют читателям правильно понять содержание отчета; изображения и тексты могут сделать данные более живыми, обеспечить визуальное воздействие и помочь читателям увидеть проблемы и выводы более ярко и интуитивно, тем самым побуждая к размышлению.
Кроме того, отчет об анализе данных должен иметь четкое заключение. Анализ без четкого заключения не может называться анализом, а также теряет смысл отчета, поскольку изначально мы проводили анализ, чтобы найти или проверить вывод, поэтому мы должны это сделать. не жертвовать своими корнями. Ищите конец.
Наконец, хороший аналитический отчет должен содержать предложения или решения. Как лицу, принимающему решения, вам нужно не просто выявлять проблемы, но, что более важно, предлагать или решать, чтобы люди могли ссылаться на них при принятии решений. Следовательно, аналитикам данных необходимо не только владеть методами анализа данных, но также понимать и знать бизнес, чтобы они могли делать практические предложения или решения на основе обнаруженных бизнес-проблем.
Первым, кто предложил наступление эры «больших данных», была McKinsey, всемирно известная консалтинговая фирма. McKinsey заявила: «Сегодня данные проникли во все отрасли и сферы деятельности и стали важным фактором производства. применение массивных данных предвещает приближение новой волны роста производительности и потребительского излишка».
В 2012 году термин «большие данные» упоминается все чаще и чаще. Люди используют его для описания и определения огромных объемов данных, генерируемых в эпоху информационного взрыва, а также для обозначения связанных с ними технологических разработок и инноваций.
Документальный фильм CCTV «Эра больших данных» — первый документальный фильм об индустрии больших данных в Китае. Программа подробно и ярко описывает изменения, которые технологии больших данных принесли нам в таких аспектах, как государственное управление, услуги жизнеобеспечения людей, безопасность данных, промышленная трансформация, будущая жизнь и влияние.
Публичные данные показывают, что в 2013 году объем данных интернет-поискового гиганта Baidu был близок к EB. Alibaba и Tencent заявили, что общий объем хранимых ими данных достиг более 100 петабайт. Кроме того, объем данных, хранящихся в различных аспектах, таких как телекоммуникации, медицинское обслуживание, финансы, общественная безопасность, транспорт, метеорология и т. д., также достиг уровня десятков или сотен петабайт. Объем глобальных данных удваивается каждые два года. Эпоха ZB официально вступила в 2010 году, а в 2020 году общий объем глобальных данных достигнет 44ZB.
Как хранить огромные объемы данных — основная проблема, с которой сталкиваются предприятия. Емкость традиционных моделей хранения данных ограничена размером или пространством. Как спроектировать решение для хранения, способное поддерживать большие объемы данных, является первым предварительным условием для анализа данных.
После решения проблемы хранения больших данных следующая проблема расчета больших данных также является более сложной, поскольку предприятия гонятся не только за вычислениями, но также за скоростью и эффективностью вычислений.
Учитывая нынешний уровень данных, генерируемых интернет-индустрией, для обработки этих данных необходим лучший и более удобный метод анализа и расчета. Традиционные методы обработки данных явно неадекватны и очень неэффективны. Это еще одна проблема, с которой сталкивается традиционная область анализа данных: как анализировать и рассчитывать большие объемы данных.
Объем: объем данных велик, включая объемы сбора, хранения и расчета;
Разнообразие: Разнообразие типов и источников. Включает структурированные, полуструктурированные и неструктурированные данные;
Ценность: плотность данных относительно низкая, или, можно сказать, что это пустая трата времени, но они чрезвычайно ценны;
Скорость: объем данных растет быстро, скорость обработки также высока, а требования к своевременности высоки;
Достоверность: точность и достоверность данных, то есть качество данных.
С точки зрения электронной коммерции: точные рекламные позиции посредством сбора больших данных и анализа поведения пользователей в Интернете, поведения кликов и т. д. для сбора лайков пользователей второго и третьего уровня и расширения результатов.
Что касается средств массовой информации: думаю, вам это понравится. Благодаря анализу больших данных модели аудитории и в сочетании с соответствующим алгоритмом даются интерактивные рекомендации о том, что нравится аудитории.
Финансовые аспекты: финансовые инвестиции, посредством оценки личной кредитоспособности и оценки риска, набор многих финансовых продуктов и рекомендуемых инвестиционных и финансовых продуктов.
Транспорт: В настоящее время применение больших данных на транспорте осуществляется в основном в двух аспектах: с одной стороны, посредством сбора, оценки и прогнозирования массивных данных, таких как транспортный поток, ситуация с транспортным потоком на участке дороги в течение определенного периода. времени предоставляется для обеспечения удобства пользователей и разумного планирования дорог. С другой стороны, большие данные могут использоваться для реализации диспетчеризации светофоров в реальном времени и улучшения пропускной способности существующих линий;
Телекоммуникации: «умный бизнес-зал» корректирует свою бизнес-структуру, анализируя текущие поведенческие привычки, предпочтения пользователей и соответствующие изменения данных во время праздников, чтобы добиться распределения по требованию.
Безопасность: распознавание лиц посредством распознавания лиц, сопоставления и хранения пользовательских данных в сочетании с искусственным интеллектом анализирует и отслеживает поведение пользователей для предотвращения преступного поведения.
Медицинский аспект. Умная медицинская помощь создает интеллектуальную медицинскую систему, храня большие объемы данных о случаях заболевания, сопоставляя, извлекая и комбинируя пищевые и поведенческие привычки пользователей.
Распределенная система — это система аппаратного или программного обеспечения, компоненты которой распределены на разных компьютерах и взаимодействуют и координируют друг друга только посредством обмена сетевыми сообщениями.
Проще говоря, это группа независимых компьютеров, которые объединяются для предоставления услуг внешнему миру, но для пользователей системы это похоже на один компьютер, предоставляющий услуги.
Распределение означает, что больше обычных компьютеров (по сравнению с дорогими мэйнфреймами) можно использовать для формирования распределенного кластера для предоставления внешних услуг. Чем больше компьютеров, тем больше процессоров, памяти, ресурсов хранения и т. д., и тем больший объем одновременного доступа может быть обработан.
Ниже приведен пример изменений архитектуры веб-сайта.
Архитектура веб-сайтов веб-сервисов первого поколения часто была относительно простой: все ресурсы, такие как приложения, базы данных и файлы, находились на одном сервере.
Рисунок: Сегодня широко используемая архитектура интернет-сайтов.
Из концепции распределенных систем мы знаем, что связь и координация между хостами в основном осуществляются через сеть. Поэтому в распределенных системах практически нет ограничений по пространству. Эти компьютеры могут быть размещены в разных шкафах, и это может быть. развернут в разных компьютерных залах или в разных городах. Для крупных веб-сайтов он может даже распространяться в разных странах и регионах.
Распределенные приложения и сервисы
Наслаивайте и сегментируйте приложения и сервисы, а затем распределяйте модули приложений и сервисов. Это может не только улучшить возможности одновременного доступа и сократить подключения к базе данных и потребление ресурсов, но также позволит различным приложениям повторно использовать общие сервисы, что упрощает расширение бизнеса. Например: платформа распределенных сервисов Dubbo.
Распределенное хранилище данных
Большим веб-сайтам часто приходится обрабатывать огромные объемы данных, и один компьютер часто не может обеспечить достаточно места памяти для распределенного хранения этих данных. Например, Apache Hadoop HDFS.
распределенные вычисления
С развитием вычислительной техники,Для выполнения некоторых приложений требуется чрезвычайно большая вычислительная мощность.,Если используются централизованные вычисления,Это занимает довольно много времени. распределенные Вычисление разбивает приложение на множество мелких частей и распределяет их по нескольким компьютерам для обработки. Это может сэкономить общее время вычислений и значительно повысить эффективность вычислений. Такие как Апач Hadoop MapReduce。
распределенный(distributed)Это относится к развертыванию различных сервисных модулей на нескольких разных серверах.,Совместная работа посредством удаленных звонков,Предоставлять услуги извне.
кластер(cluster)Это относится к развертыванию одного и того же приложения или модуля службы на нескольких разных серверах.,сформировать кластер,Предоставление внешних услуг с помощью оборудования балансировки нагрузки.