Какие проблемы возникают при обработке больших данных
Перейти к содержимому

Какие проблемы возникают при обработке больших данных

  • автор:

ОСНОВНЫЕ ПРОБЛЕМЫ ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Менщиков Александр Алексеевич, Перфильев Владислав Эдуардович, Федосенко Максим Юрьевич, Фабзиев Ильшат Равильевич

В статье рассматривается проблематика использования больших данных в современных информационных системах. Представлены хронологические этапы становления термина Big Data, начиная с первого его упоминания главным редактором журнала Nature Клиффордом Линчем в выпуске «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?» и заканчивая становлением учебного и научного направления data science. Указаны крупные корпорации, внедряющие в свои производственные процессы большие данные (IBM, Oracle, Microsoft, Hewlett-Packard, EMC). Классификация больших данных рассмотрена согласно теории “VVV”, включающей в себя объём (volume), скорость (velocity), многообразие (variety) обрабатываемых данных, “4V”, включающей в себя помимо прочего достоверность (veracity), “5V”, включающей в себя помимо прочего жизнеспособность (viability), «7V», рассматривающая также переменчивость (variability) и визуализацию (vizualization). Сами массивы данных, в зависимости от формы их хранения и представления, характеризуются как структурированные, слабоструктурированные, неструктурированные. Отсюда, проблематика Big Data рассматривается исходя из большого объёма, способов хранения и обработки, неструктурированного вида и процесса структуризации, скорости обработки и существующих алгоритмов обработки. Само определение и процесс отнесения набора данных к Big Data в статье рассматривается со стороны количественного показателя скорости обработки NoSQL данных в системе. Для работы и анализа массивом больших данных существуют такие направления как Data Science (наука о данных), технологии Machine Learning (машинного обучения), частным случаем которого является Artificial Intelligence (искусственный интеллект)

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Менщиков Александр Алексеевич, Перфильев Владислав Эдуардович, Федосенко Максим Юрьевич, Фабзиев Ильшат Равильевич

Обзор технологии «большие данные» (Big Data) и программно-аппаратных средств, применяемых для их анализа и обработки

Проблематика Big Data в инфраструктуре уровня предприятия
Обеспечение качества бизнес-процессов авиакомпании
Применение современных технологий больших данных в правовой сфере
Технологии больших данных в статистике
i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE MAIN PROBLEMS OF USE OF BIG DATA IN MODERN INFORMATION SYSTEMS

The article deals with the problems of using big data in modern information systems. The chronological stages of the formation of the term Big Data are presented, starting from its first mention by the editor-in-chief of the journal Nature Clifford Lynch in the issue “How can technologies that open up opportunities for working with large amounts of data affect the future of science?” and ending with the formation of the educational and scientific direction of data science. Large corporations that implement big data in their production processes (IBM, Oracle, Microsoft, Hewlett-Packard, EMC) are indicated. The classification of big data is considered according to the theory “VVV”, which includes the Volume, Velocity, Variety of processed data, “4V”, which includes Veracity, “5V”, which includes Viability, «7V», also considering Variability and Visualization. The data arrays themselves, depending on the form of their storage and presentation, are characterized as structured, semi-structured, unstructured. Hence, the problems of Big Data are considered based on the large volume, storage and processing methods, unstructured form and structuring process, processing speed and existing processing algorithms. The very definition and process of classifying a data set as Big Data is considered in the article from the side of a quantitative indicator of the speed of NoSQL data processing in the system. To work and analyze an array of big data, there are such areas as Data Science Machine Learning technologies, a special case of which is Artificial Intelligence.

Текст научной работы на тему «ОСНОВНЫЕ ПРОБЛЕМЫ ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ»

Научная статья Original article УДК 004.043 + 004.622

ОСНОВНЫЕ ПРОБЛЕМЫ ИСПОЛЬЗОВАНИЯ БОЛЬШИХ ДАННЫХ В СОВРЕМЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ

THE MAIN PROBLEMS OF USE OF BIG DATA IN MODERN INFORMATION

Менщиков Александр Алексеевич, кандидат технических наук, доцент, ординарный доцент факультета Безопасности информационных технологий, ФГАОУ ВО «Национальный исследовательский университет ИТМО» (197101 Россия, г. Санкт-Петербург, Кронверкский проспект, д.49, лит. А.), тел. 8 (812) 458-43-08, ORCID: 0000-0002-2287-4310, menshikov@itmo.ru Перфильев Владислав Эдуардович, аспирант, инженер факультета Безопасности информационных технологий, ФГАОУ ВО «Национальный исследовательский университет ИТМО» (197101 Россия, г. Санкт-Петербург, Кронверкский проспект, д.49, лит. А.), тел. 8 (812) 458-43-08, ORCID: 0000-00017338-4939, vladik.perfilev@gmail. com

Федосенко Максим Юрьевич, магистрант, инженер факультета Безопасности информационных технологий, ФГАОУ ВО «Национальный исследовательский университет ИТМО» (197101 Россия, г. Санкт-Петербург, Кронверкский проспект, д.49, лит. А.), тел. 8 (812) 458-43-08, ORCID: 0000-0001-8786-5661,

Фабзиев Ильшат Равильевич, студент факультета Безопасности информационных технологий, ФГАОУ ВО «Национальный исследовательский университет ИТМО» (197101 Россия, г. Санкт-Петербург, Кронверкский проспект, д.49, лит. А.), тел. 8 (812) 458-43-08, ifabzievr@gmail.com

Menshchikov Alexander Alekseevich, candidate of technical sciences, associate professor, ordinary associate professor of the Faculty of Information Technology

Security, ITMO University (49 bldg. A, Kronverksky Pr., St. Petersburg, 197101, Russia), tel. 8 (812) 458-43-08, ORCID: https://orcid.org/0000-0002-2287-4310, menshikov@itmo .ru

Perfiliev Vladislav Eduardovich, post-graduate student, engineer of the Faculty of Information Technology Security, ITMO University (49 bldg. A, Kronverksky Pr., St. Petersburg, 197101, Russia), tel. 8 (812) 458-43-08, ORCID: https://ordd.org/0000-0001-7338-4939, vladik.perfilev@gmail.com

Fedosenko Maksim Yurievich, master student, engineer of the Faculty of Information Technology Security, ITMO University (49 bldg. A, Kronverksky Pr., St. Petersburg, 197101, Russia), tel. 8 (812) 458-43-08, ORCID: https://orcid.org/0000-0001-8786-5661, fedosenkomaksim98@gmail.com

Fabziev Ilshat Ravilevich, student of the Faculty of Information Technology Security ITMO University (49 bldg. A, Kronverksky Pr., St. Petersburg, 197101, Russia), tel. 8 (812) 458-43-08, ifabzievr@gmail.com

Аннотация: В статье рассматривается проблематика использования больших данных в современных информационных системах. Представлены хронологические этапы становления термина Big Data, начиная с первого его упоминания главным редактором журнала Nature Клиффордом Линчем в выпуске «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?» и заканчивая становлением учебного и научного направления data science. Указаны крупные корпорации, внедряющие в свои производственные процессы большие данные (IBM, Oracle, Microsoft, Hewlett-Packard, EMC). Классификация больших данных рассмотрена согласно теории «VVV», включающей в себя объём (volume), скорость (velocity), многообразие (variety) обрабатываемых данных, «4V», включающей в себя помимо прочего достоверность (veracity), «5V», включающей в себя помимо прочего жизнеспособность (viability), «7V», рассматривающая также переменчивость (variability) и визуализацию

(vizualization). Сами массивы данных, в зависимости от формы их хранения и представления, характеризуются как структурированные,

слабоструктурированные, неструктурированные. Отсюда, проблематика Big Data рассматривается исходя из большого объёма, способов хранения и обработки, неструктурированного вида и процесса структуризации, скорости обработки и существующих алгоритмов обработки. Само определение и процесс отнесения набора данных к Big Data в статье рассматривается со стороны количественного показателя скорости обработки NoSQL данных в системе. Для работы и анализа массивом больших данных существуют такие направления как Data Science (наука о данных), технологии Machine Learning (машинного обучения), частным случаем которого является Artificial Intelligence (искусственный интеллект)

Abstract: The article deals with the problems of using big data in modern information systems. The chronological stages of the formation of the term Big Data are presented, starting from its first mention by the editor-in-chief of the journal Nature Clifford Lynch in the issue «How can technologies that open up opportunities for working with large amounts of data affect the future of science?» and ending with the formation of the educational and scientific direction of data science. Large corporations that implement big data in their production processes (IBM, Oracle, Microsoft, Hewlett-Packard, EMC) are indicated. The classification of big data is considered according to the theory «VVV», which includes the Volume, Velocity, Variety of processed data, «4V», which includes Veracity, «5V», which includes Viability, «7V», also considering Variability and Visualization. The data arrays themselves, depending on the form of their storage and presentation, are characterized as structured, semi-structured, unstructured. Hence, the problems of Big Data are considered based on the large volume, storage and processing methods, unstructured form and structuring process, processing speed and existing processing algorithms. The very definition and process of classifying a data set as Big Data is considered in the article from the side of a quantitative indicator of the speed of NoSQL data processing in the system. To work

and analyze an array of big data, there are such areas as Data Science Machine Learning technologies, a special case of which is Artificial Intelligence. Ключевые слова: большие данные, обработка данных, неструктурированные данные, NoSQL системы, технологии хранения данных, наука о данных. Keywords: big data, data processing, unstructured data, NoSQL systems, data storage technologies, data science.

Конец 20-го и начало 21 века характеризуется большим скачком в увеличении объёма использования цифровой информации. Увеличиваются размеры файлов, в жизнь стремительно внедряются информационные технологии: социальные сети, средства связи, электронный документооборот, безналичный расчёт, различные системы по сбору и хранению информации (напр. системы видеонаблюдения). Это в свою очередь увеличивает ресурсозатраты на технологии хранения и обработки данных, вынуждая научного сообщество вести активные исследования и разработки в данном направлении [1].

Увеличение объёма данных приводит к появлению термина Big Data. Big Data (с англ. большие данные) — это структурированные или неструктурированные (в большинстве своём) массивы данных большого объема. Данный термин был предложен редактором журнала Nature Клиффорд Линч в 2008 году, в сентябрьском спецвыпуске «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?». В нём говорилось о феномене взрывного роста объёмов и многообразия обрабатываемых данных в мире, а также об технологических перспективах в решении задачи их обработки [2]. Этапы становления

Уже с 2009 года термин распространился в научных кругах и деловой прессе, а к 2010 году начинают появляться первые продукты и решения,

относящихся непосредственно к обработке больших данных. До 2011 года анализом больших данных занимались только в рамках научных и статистических исследований. Их изучали, тестировали уже имеющиеся подходы, разрабатывали новые алгоритмы для работы с ними. Но уже к началу 2012-го объемы данных выросли до огромных масштабов, в связи с чем возникла потребность в их систематизации для практического применения [3]. С этого момента большинство крупнейших компаний — поставщиков информационных технологий, для организации рабочего процесса начинают использовать понятие о больших данных. Среди них стоит выделить компании IBM, Oracle, Microsoft, Hewlett-Packard, EMC — где аналитики рынка информационных технологий посвящают данной концепции отдельные выделенные исследования. Например, в компании Gartner отметили большие данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации), а также прогнозировали, что внедрение данной технологии окажет наибольшее влияние на информационные технологии в производстве, торговле, здравоохранении, государственном управлении и других в сферах и отраслях, где регистрируются частые перемещения информационных ресурсов. Другими словами, для данных сфер задача структуризации, обработки, выделения закономерностей и внедрения в производственные процессы большого объёма пользовательской информации наиболее актуальна. По этим же причинам, С 2014 на Big Data обратили внимание ведущие мировые вузы, обучающие не только «науке о данных» (data science), но и различным инженерным и ИТ-специальностям [4]. Проблемы

В сущности, понятие Big Data подразумевает работу с информацией огромного объема и разнообразного состава, которая часто обновляется и может располагаться в различных информационных источниках. Согласно отчету McKinsey Institute «Большие данные: новый рубеж для инноваций, конкуренции и производительности» (дословно Big data: The next frontier for innovation,

competition and productivity), данный термин относится к наборам данных, размер которых превосходит возможности типовых баз данных (БД) по хранению, управлению и анализу. В своей статье (в выпуске сентября 2008 года журнала Nature) Клиффорд Линч отнес к Big Data любые массивы неоднородных данных, превышающие объёмом обработки 150 Гб в сутки. Однако, единого критерия на объём до сих пор не существует в силу различий в особенностях данных из разных источников. Например, набор данных на 100000 записей, состоящей из серий и номеров документов будет в разы меньше по объёму набора данных из такого же количество профессиональных фотографий. И те, и те необходимо структурировать и обрабатывать, однако подходы и применяемые для этого технологии будут различаться [5].

Как было сказано ранее, одной из проблем в изучении вопроса больших данных является классификация. Несмотря на то, что есть способы классифицировать данные и применяемые к ним технологии, свойственный большим данным плюрализм не позволяет создать единые направления и методы для работы с ними. Существуют общие классификации и направления по работе с наборами данных они будут рассмотрены далее, однако каждый набор требует к себе индивидуального подхода в процессе его обработки. Указанная выше проблема вытекает из того, что подавляющее большинство наборов данных не структурированы. Другими словами, имея разный вид, особенности заполнения, поля, источники — данные не имеют единого вида, из-за чего становится сложно анализировать их единым механизмом. Это в свою очередь вызывают неудобства при работе с ним: найти необходимый элемент из кучи, где могут храниться картинки, метаданные, сетевые пакеты, хеш-значения и прочее. Данные хранилища называют нерелятивными NoSQL системами, однако для манипуляций всё же необходимо выявить закономерности и группировку.

Следующей проблемой при работе с Big Data выделяют их объём. Огромные массивы не всегда возможно хранить на одном сервере, что в свою очередь приводит к применению технологий распределённых систем. Под данной

системой прежде всего понимают совокупность взаимосвязанных автономных компьютеров и их вычислительных мощностей. Распределённое хранение также вызывает сложности при выборки данных и составлении алгоритмов их обработки. Большой объём в свою очередь требует от системы огромных вычислительных мощностей, что является дорогостоящей технологией [6]. Также, от объёма хранилища данных зависит и скорость их обработки. Если скорость обработки низкая, то данные могут устареть, прежде чем принесут практическую пользу. При небольшой скорости также увеличивается процесс выборки нужной информации их большого объёма, что приводит к несвоевременному получению необходимых составляющих. Отсутствия структурированного вида усугубляет данную проблемы.

Обобщая вышесказанное, у Big Data существую следующие проблемы, расположенные в порядке уменьшения их актуальности:

• Большой объём данных, требующий дорогостоящий технологий для их хранения и обработки

• Хранение данных, обеспечивающие их целостность (чтобы ничего не упустить и не «потерять»), доступность (возможность получить необходимую информацию по мере необходимости), конфиденциальность (очень часто датасеты содержат в себе персональные данные и не подлежат разглашению третьим лицам)

• Неструктурированный вид, где данные разного формата представления хранятся «в куче», а состав конкретного элемента не имеет однообразный вид

• Сложность структуризации, сортировки, распределения при составлении выборок и поиске конкретного элемента из общей системы

• Низкая скорость обработки (в сравнении с объёмом данных), способная привести к большому времени ожидания ответа при поиске определённой позиции, а также их устареванию уже в процессе обработки

• Отсутствие эффективных алгоритмов обработки, учитывающих объём хранилища данных, структуру и методы поиска необходимого элемента (ячейки памяти)

• Большое количество шумов и процесс их учёта при работе с датасетами [7].

Последнюю проблему стоит осветить чуть подробнее, поскольку она вытекает из всех остальных и имеет в себе противоречия. Дело в том, что в структурированных наборах данных, представляющих собой релятивные SQL системы, отклонения от общей структуры (по форме данных, их содержанию) считаются выбросами, и зачастую не учитываются (отбрасываются) при составлении общих выборок. Однако в случае с Big Data выбросы и отклонения зачастую содержат в себе наиболее важную информацию, а сам большой объём данных формируется с целью выявить эти самые отклонения. Небольшая по размеру их выборка (по сравнению с большим объёмом общего хранилище) имеет наибольшую ценность в практической и исследовательской деятельности. И очень важно при обработке датасета их не пропустить и не отбросить. Это первостепенное противоречие, связанная с проблемой наличия шумов. Затем уже идёт задача верно выявить выбросы, структурировать, классифицировать, проанализировать, сделать из них выводы и найти им применение. Эта задача, в свою очередь задействует упомянутые ранее проблемы, связанные с объёмом, скоростью обработки, структуризацией и алгоритмическими подходами при их обработке. Классификация

Одна из важных проблем при работе с Big Data является классификация. Однозначно классифицировать данные порой бывает сложно в силу их неоднородности, в связи с чем также различаются подходы к их обработке. Однако, общие закономерности всё-таки выделяются, с целью направить практическое применение массивов данных в нужное русло, дать некие рекомендации для работы с ними. Рассмотрим имеющиеся способы классификации общего понятия Больших данных без привязки к какому-то конкретному набору. Энциклопедии и имеющиеся научные труды в качестве определяющих характеристик для больших данных традиционно выделяют теорию «VVV», которая содержит в себе следующие характеристики:

• Объём (от англ. Volume) — представляет собой величину физического объёма данных

• Скорость (от англ. Velocity) — подразумевает под собой как скорость прироста информации, так и необходимость высокоскоростной обработки и получения результатов,

• Многообразие (от англ. Variety) — возможность одинаковой и одновременной обработки различных типов данных: структурированных и полуструктурированных, неструктрированных.

Также, с данные характеристики уместно добавить следующие:

• Достоверность (от английского veracity) — представляет собой набор истинной информации, учёт которой при обработке массивов данных является наиболее важным.

• Жизнеспособность (от англ. Viability) — характеризует данные в зависимости от времени их актуальности.

• Ценность (от англ. Value) — показатель, характеризующий важность и необходимость выборки данных при работе с ними над решением конкретных практических задач.

• Переменчивость (от англ. Variability) — способность данный терять свою актуальность со временем. Может является частным показателем для жизнеспособности, если рассматривать их как единое целое и в одной системе классификации.

• Визуализация (от англ. Visualization) — характеризует набор данных в зависимости от степени удобства их представления и графической интерпертации [8].

Набор признаков VVV (Volume, Velocity, Variety) был выработан Meta Group в 2001 году вне контекста представлений понятия Big Data как об определённой структуры информационно-технологических методов и инструментов, поскольку, в связи с ростом популярности концепции центрального хранилища данных для организаций того времени, отмечалась

равнозначимость проблематик при управлении данными по всем трём аспектам. Затем стали появляться интерпретации с «4V», где четвёртая V представляет собой достоверность (от английского veracity) — набор истинной и наиболее важной для практического применения данных (использовалась в рекламных материалах IBM). IDC интерпретирует «четвёртое V» как value c точки зрения важности экономической целесообразности обработки соответствующих объёмов в соответствующих условиях, что отражено также и в определении больших данных от IDC. Интерпретация «5V» прибавляет к набору характеристик жизнеспособность (от англ. Viability), и ценность (от англ. Value), представляющие собой схожее с достоверностью определения, однако не берущее во внимания истинную причину происхождения данных и характер их правдивости. Это сделано с целью взять во внимания все имеющиеся выборки и выявить из них максимально возможное количество характеристик [9]. Интерпретация «7V» ,кроме всего упомянутого, добавляет также переменчивость (от англ. Variability) — способность данный терять свою актуальность со временем и визуализацию (от англ. visualization) — показатель степени возможности графической интерпретации выборок данных и их закономерностей. В каждом из случаев, в этих признаках подчёркивается, что определяющей характеристикой для больших данных является не только их физический объём, но и другие категории, специально разработанные для формирования представления о сложности задачи обработки и анализа данных.

Также, наборы данных характеризуют и по их физическому представлению. Существуют следующие категории: 1. Структурированные данные: это когда данные хранятся, извлекаются, или могут быть использованы в конкретном, определенном формате. Например, информация о клиенте банка может содержаться в базе данных в виде таблицы, сериализованного пакета и содержать информацию, которую возможно найти однозначно и без особых усилий (имя, возраст, номер телефона, номер счёта, состояния счёта, аресты и др.)

2. Неструктурированные данные: этот вид данных трудно категорировать или структурировать. Неструктурированные данные не имеют определенной формы или общего формата, а храниться могут в виде текста, пакетов или мультимедийных файлов. Хорошим примером могут являться электронные письма, текстовые документы, презентации, видео — которые хоть и могут принадлежать конкретной категории, однако данные в них хранятся хаотично и непредсказуемое.

3. Слабоструктурированные (полуструктурированные) данные: представляет собой некий гибрид, смешанную категорию между структурированными и неструктурированными данными. Основное отличие заключается в том, что нельзя категоризировать, но они имеют некоторые определенные свойства (например логи, тэги), которые можно проанализировать и структурировать для их хранения.

Рассмотренная выше классификация уже имеет своё отражение при исследовании проблематики использования Big Data. Исследуются оптимальные технологии для работы с учётом особенностей массива данных по «каждой из V», ведутся работы для разработки оптимальных алгоритмов при анализе неструктурированных массивов. Это достаточно важное направление для исследования, поскольку 80%-90% информации, которую получают компании — это неструктурированные данные [10]. Многообразные, большого объёма, имеющие не всегда необходимую скорость обработки, что приводит к их низкой жизнеспособности и ценности за счёт имеющейся переменчивости. Это всё представляет сложность при поиске необходимого значения. Достоверность данных уже является следующим направлением для исследования, хоть и для составления и анализ точных практических моделей необходимы правдивые наборы. Затем необходимо иметь алгоритмы, которые учитывают при работе каждую из особенностей датасета и способны давать ожидаемый результат. Для работы и анализа с Big Data используются такие направления как Data Science

(наука о данных), технологии Machine Learning (машинного обучения), частным случаем которого является Artificial Intelligence (искусственный интеллект). Но в основе любого подхода лежит серьёзный математический аппарат и большие вычислительные ресурсы для ЭВМ.

1. United Nations Development Programme. Public service excellence in the 21 st century

— Singapore: Springer Singapore, 2019 — 345 C.

2. Lynch C. How do your data grow? //Nature. — 2008. — V. 455. № 7209. — P. 28-29.

3. Корнев М.С. История понятия «Большие данные» (Big Data): словари, научная и деловая периодика // Вестник РГГУ. Серия: История. Филология. Культурология. Востоковедение. — 2018. — № 1(34). — С. 81-85.

4. Свириденкова М.А., Свириденков К.И.. Тенденции развития Big Data // Международный журнал информационных технологий и энергоэффективности.

— 2020. — № 1(15). — С. 23-29.

5. Сердюк С. В., Иващенко И. И. Применение Big Data в современных IT-технологиях. // Ассоциация научных сотрудников «Сибирская академическая книга». — 2017. — №1. — С. 73-74

6. XLVI международная научно-практическая конференция. Инновационные подходы в современной науке, Москва, 2019, 5 С.

7. Клименко А.В., Слащев И. С., Калайда А. В.. Методы обработки больших массивов данных в крупномасштабных системах // Инновационные подходы в современной науке (Москва, 24 мая 2019 года). — Москва, 2019.- С. 98-102.

8. Искаков Р.Р.. Big Data: Актуальные проблемы и пути решения // Моя профессиональная карьера — 2020. — Т.2 № 12. — С. 129-133.

9. Шаталова В.В., Лихачевский Д.В., Казак Т.В.. Большие данные: как технологии Big Data меняют нашу жизнь. // Big data and advanced analytics. — 2021. — № 7-1. -С. 188-192.

10. Формула Big Data: семь «V» + неординарная задача / Блог Форсайт.

11. IV Всероссийская научно-практической конференциия. Приоритетные и перспективные направления научно-технического развития российской федерации, Москва, 2021, 5 С.

12. Дегтярёва В.В., Гусейнова Н.Р.. Возможности применения глобальных технологий Big Data в автоматизированных системах управления // Приоритетные и перспективные направления научно-технического развития российской федерации (Москва, 11-12 марта 2021 года) — Москва, 2021. — С. 338342.

1. United Nations Development Programme. Public service excellence in the 21 st century

— Singapore: Springer Singapore, 2019 — 345 P.

2. Lynch C. How do your data grow? //Nature. — 2008. — V. 455. № 7209. — P. 28-29.

3. Kornev M.S. The history of the concept of «Big Data» (Big Data): dictionaries, scientific and business periodicals // Bulletin of the Russian State University for the Humanities. Series: History. Philology. Culturology. Oriental studies. — 2018. — No. 1 (34). — P. 81-85.

4. Sviridenkova M.A., Sviridenkov K.I. Big Data Development Trends // International Journal of Information Technologies and Energy Efficiency. — 2020. — No. 1(15). — P. 23-29.

5. Serdyuk S. V., Ivashchenko I. I. Application of Big Data in modern IT technologies. // Association of Researchers «Siberian Academic Book». — 2017. — No. 1. — P. 73-74

6. XLVI International scientific and practical conference. Innovative approaches in modern science, Moscow, 2019, 5 P.

7. Klimenko A.V., Slashchev I.S., Kalaida A.V. Methods for processing large data sets in large-scale systems // Innovative approaches in modern science (Moscow, May 24, 2019). — Moscow, 2019. — P. 98-102.

8. Iskakov R.R. Big Data: Actual problems and solutions // My professional career — 2020.

— V.2 No. 12. — P. 129-133.

9. Shatalova V.V., Likhachevsky D.V., Kazak T.V. Big data: how Big Data technologies change our lives. // Big data and advanced analytics. — 2021. — No. 7-1. — P. 188-192.

10. Big Data formula: seven «V» + extraordinary task / Foresight Blog. https://www.fsight.ru/blog/formula-big-data-sem-v-neordinarnaja-zadacha-2/ (01.16.2022).

11. IV All-Russian Scientific and Practical Conference. Priority and promising areas of scientific and technological development of the Russian Federation, Moscow, 2021, 5 P.

12. Degtyareva V.V., Huseynova N.R.. Possibilities of using global Big Data technologies in automated control systems // Priority and promising areas of scientific and technical development of the Russian Federation (Moscow, March 11-12, 2021) — Moscow, 2021. — P. 338-342.

© Менщиков А.А., Перфильев В.Э., Федосенко М.Ю., Фабзиев И.Р., 2022 Научный сетевой журнал «Столыпинский вестник» №1/2022.

Для цитирования: Менщиков А.А., Перфильев В.Э., Федосенко М.Ю., Фабзиев И.Р. Основные проблемы использования больших данных в современных информационных системах // Научный сетевой журнал «Столыпинский вестник» №1/2022.

Проблемы анализа Больших Данных

Большие Данные создают характерные особенности, которые не разделяются традиционными наборами данных. Эти особенности создают значительные проблемы для анализа данных и мотивируют разработку новых статистических методов. В отличие от традиционных наборов данных, где объем выборки, как правило, больше, чем измерение, Большие Данные характеризуются огромным размером выборки и высокой размерностью. Во-первых, мы обсудим влияние большого размера выборки на понимание неоднородности: с одной стороны, большой размер выборки позволяет нам раскрыть скрытые модели, связанные с небольшими подгруппами населения и слабой общностью среди всей популяции. С другой стороны, моделирование внутренней неоднородности Больших Данных требует более сложных статистических методов. Во-вторых, мы обсудим несколько уникальных явлений, связанных с высокой размерностью, включая накопление шума, ложную корреляцию и случайную эндогенность. Эти уникальные особенности делают традиционные статистические процедуры недействительными.

Разнородность

Большие Данные часто создаются путем объединения множества источников данных, соответствующих различным подгруппам. Каждая подгруппа может демонстрировать некоторые уникальные особенности, которые не разделяются другими. В классических условиях, когда размер выборки небольшой или умеренный, точки данных из небольших субпопуляций обычно классифицируются как «отклонения», и их систематически сложно моделировать из-за недостаточного количества наблюдений. Однако в эпоху Больших Данных большой размер выборки позволяет нам лучше понять гетерогенность, проливая свет на исследования, такие как изучение связи между определенными ковариатами (например, генами или SNP) и редкими результатами (например, редкими заболеваниями или болезнями в небольших популяциях) и понимание того, почему определенные виды лечения (например, химиотерапия) приносят пользу одной группе населения и наносят вред другой. Чтобы лучше проиллюстрировать этот момент, мы вводим следующую модель для населения:

Где λj ≥ 0 представляет долю j-й подгруппы, pj (y; θj (x)) — это распределение вероятностей отклика j-й подгруппы, учитывая ковариаты x с θj (x) в качестве вектора параметров. На практике многие субпопуляции наблюдаются редко, то есть λj очень мало. Когда размер выборки n умеренный, nλj может быть небольшим, что делает невозможным вывод ковариатозависимых параметров θj (x) из-за недостатка информации. Однако поскольку Большие Данные характеризуются большим размером выборки n, размер выборки nλj для j-й группы населения может быть умеренно большим, даже если λj очень мала. Это позволяет нам более точно сделать вывод о параметрах субпопуляции θj (·). Короче говоря, основным преимуществом Больших Данных является понимание неоднородности субпопуляций, таких как преимущества определенных персонализированных методов лечения, которые невозможны при небольшом или умеренном размере выборки.

Большие Данные также позволяют нам, благодаря большим размерам выборки, выявить слабую общность среди всего населения. Например, оценить пользу на сердце одного бокала красного вина в день может быть трудно без большого объема выборки. Точно так же риски для здоровья, связанные с воздействием определенных факторов окружающей среды, могут быть оценены более убедительно только тогда, когда размеры выборки достаточно велики.

Помимо вышеупомянутых преимуществ, неоднородность Больших Данных также создает значительные проблемы для статистического вывода. Вывод модели смеси в (1) для больших наборов данных требует сложных статистических и вычислительных методов. В небольших измерениях могут применяться стандартные методы, такие как алгоритм ожидания-максимизации для моделей конечных смесей. В больших размерах, однако, нам необходимо тщательно упорядочить процедуру оценки, чтобы избежать переобучения или накопления шума и разработать хорошие вычислительные алгоритмы.

Накопление шума

Анализ Больших Данных требует от нас чтобы мы одновременно оценили и проверили много параметров. Ошибки оценки накапливаются тогда, когда решение или правило прогнозирования зависит от большого количества таких параметров. Такой эффект накопления шума особенно серьезен в больших размерностях и может даже доминировать над истинными сигналами. Это обычно обрабатывается предположением о разреженности.

Возьмите, например, многомерную классификацию. Плохая классификация обусловлена наличием множества слабых мест, которые не способствуют уменьшению ошибки классификации. В качестве примера рассмотрим задачу классификации, когда данные поступают из двух классов:

Мы хотим построить правило классификации, которое классифицирует новое наблюдение Z∈RdZ∈Rd либо в первый, либо во второй класс. Чтобы проиллюстрировать влияние накопления шума в классификации, мы устанавливаем n = 100 и d = 1000. Мы устанавливаем μ1 = 0μ1 = 0 и μ2 как разреженные, т.е. только первые 10 записей μ2 отличны от нуля со значением 3, а все остальные записи равны нулю. На рисунке 1 показаны первые два основных компонента с использованием первых m = 2, 40, 200 элементов и целых 1000 элементов. Как показано на этих графиках, когда m = 2, мы получаем высокую степень дискриминации. Однако дискриминирующая мощность становится очень низкой, когда m слишком велико из-за накопления шума. Первые 10 функций вносят вклад в классификацию, а остальные — нет. Поэтому, когда m> 10, процедуры не получают никаких дополнительных сигналов, но накапливают шумы: чем больше m, тем больше накапливается шум, что ухудшает процедуру классификации из-за размерности. При m = 40 накопленные сигналы компенсируют накопленный шум, так что первые два главных компонента все еще имеют хорошую способность распознавания. Когда m = 200, накопленный шум превышает усиление сигнала.

Приведенное выше обсуждение мотивирует использование разреженных моделей и выбора переменных для преодоления эффекта накопления шума. Например, в модели классификации (2) вместо использования всех функций мы могли бы выбрать подмножество признаков, которые достигают наилучшего отношения сигнал / шум. Такая разреженная модель обеспечивает более высокую эффективность классификации. Другими словами, выбор переменных играет ключевую роль в преодолении накопления шума при классификации и прогнозировании регрессии. Тем не менее, выбор переменных в больших измерениях является сложной задачей из-за ложной корреляции, случайной эндогенности, неоднородности и ошибок измерений.

Ложная корреляция

Высокая размерность также содержит ложную корреляцию, ссылаясь на тот факт, что многие некоррелированные случайные величины могут иметь высокие выборочные корреляции в больших измерениях. Ложная корреляция может привести к ошибочным научным открытиям и неправильным статистическим выводам.

Рассмотрим задачу оценки вектора коэффициента β линейной модели

где y∈Rny∈Rn представляет вектор ответа, X = [x1,…, xn] T∈Rn × dX = [x1,…, xn] T∈Rn × d представляет матрицу проектирования, ,∈Rnϵ∈Rn представляет независимый вектор случайного шума и Id — единичная матрица d × d. Чтобы справиться с проблемой накопления шума, когда размер d сравним или больше размера выборки n, принято считать, что ответ дает лишь небольшое количество переменных, то есть β является разреженным вектором. В соответствии с этим допущением разреженности, выбор переменной может быть выполнен, чтобы избежать накопления шума, улучшить производительность прогнозирования, а также улучшить интерпретируемость модели с консервативным представлением.

При больших размерах даже для такой простой модели, как (3), выбор переменных затруднен из-за наличия ложной корреляции. В частности, при высокой размерности важные переменные могут быть сильно коррелированы с несколькими ложными переменными, которые с научной точки зрения не связаны. Рассмотрим простой пример, иллюстрирующий это явление. Пусть x1,…, xn — независимые наблюдения d-мерного гауссовского случайного вектора X = (X1,…, Xd) T∼Nd (0, Id) X = (X1,…, Xd) T∼Nd (0, Id ) ⁠. Мы многократно моделируем данные с n = 60 и d = 800 и 6400 по 1000 раз. На рисунке 2а показано эмпирическое распределение максимального абсолютного выборочного коэффициента корреляции между первой переменной, а остальные определены как

где Corr ^ (X1, Xj) Corr ^ (X1, Xj) — выборочная корреляция между переменными X1 и Xj. Мы видим, что максимальная абсолютная корреляция выборки становится выше с увеличением размерности.

Кроме того, мы можем вычислить максимальную абсолютную кратную корреляцию между X1 и линейными комбинациями нескольких нерелевантных побочных переменных:

Используя стандартную конфигурацию, приведено эмпирическое распределение максимального абсолютного коэффициента выборочной корреляции между X1 и ∑j ∈ SβjXj, где S — любое подмножество четвертого размера из и βj является коэффициентом регрессии наименьших квадратов Xj при регрессии X1 на j ∈ S. Опять же, мы видим, что, хотя X1 совершенно не зависит от X2,…, Xd, корреляция между X1 и ближайшей линейной комбинацией любых четырех переменные от j ≠ 1 до X1 могут быть очень высокими.

Ложная корреляция оказывает существенное влияние на выбор переменных и может привести к ошибочным научным открытиям. Пусть XS = (Xj) j ∈ S — случайный вектор, индексированный S, и пусть SˆS ^ — выбранный набор, который имеет более высокую паразитную корреляцию с X1, как на рис. 2. Например, когда n = 60 и d = 6400, мы видим, что X1 практически неотличим от XSˆXS ^ для множества SˆS ^ с | Sˆ | = 4 | S ^ | = 4⁠. Если X1 представляет уровень выраженности гена, ответственного за заболевание, мы не можем отличить его от других четырех генов в SˆS ^, которые имеют аналогичную прогностическую силу, хотя они, с научной точки зрения, не имеют значения.

Помимо выбора переменных, ложная корреляция может также привести к неверному статистическому выводу. Объясним это, рассмотрев снова ту же линейную модель, что и в (3). Здесь мы хотели бы оценить стандартную ошибку σ остатка, которая заметно проявляется в статистических выводах коэффициентов регрессии, выборе модели, тесте соответствия и предельной регрессии. Пусть SˆS ^ — набор выбранных переменных, а PSˆPS ^ — матрица проекции на пространство столбцов XSˆXS ^ ⁠. Стандартная оценка остаточной дисперсии, основанная на выбранных переменных:

Оценщик (6) является беспристрастным, когда переменные не выбраны по данным и модель верна. Однако ситуация совершенно иная, когда переменные выбираются на основе данных. В частности, авторы показали, что, когда существует много ложных переменных, σ2 серьезно недооценивается, это приводит к ошибочным статистическим выводам, включая выбор моделей или тесты значимости, и ошибочным научным открытиям, таким как поиск неправильных генов для молекулярных механизмов. Они также предлагают усовершенствованный метод перекрестной проверки, чтобы ослабить проблему.

Случайная эндогенность

Случайная эндогенность — еще одна тонкая проблема, возникающая из-за высокой размерности. В настройке регрессии Y = ∑dj = 1βjXj + εY = ∑j = 1dβjXj + ε⁠ термин «эндогенность» означает, что некоторые предикторы коррелируют с остаточным шумом ε. Обычная разреженная модель предполагает

с небольшим множеством S = . Экзогенное предположение (7), что остаточный шум ε не коррелирует со всеми предикторами, имеет решающее значение для достоверности большинства существующих статистических методов, включая согласованность выбора переменных. Хотя это предположение выглядит невинным, его легко нарушить в больших измерениях, поскольку некоторые переменные случайно коррелируют с ε, что делает большинство многомерных процедур статистически недействительными.

Чтобы объяснить проблему эндогенности более подробно, предположим, что неизвестный нам ответ Y связан с тремя ковариатами следующим образом:

На этапе сбора данных мы не знаем истинную модель и поэтому собираем как можно больше ковариат, потенциально связанных с Y, в надежде включить все члены в S в (7). Кстати, некоторые из этих Xj (для j j 1, 2, 3) могут быть связаны с остаточным шумом ε. Это опровергает предположение об экзогенном моделировании в (7). На самом деле, чем больше ковариат собрано или измерено, тем сложнее это предположение.

В отличие от ложной корреляции, случайная эндогенность относится к настоящему существованию корреляций между непреднамеренными переменными. Первое аналогично тому, что два человека похожи друг на друга, но не имеют генетической связи, а второе похоже на знакомство, которое легко происходит в большом городе. В более общем смысле эндогенность возникает в результате смещения выбора, ошибок измерения и пропущенных переменных. Эти явления часто возникают при анализе Больших Данных, в основном по двум причинам:

  • Благодаря новым высокопроизводительным методам измерения ученые могут собирать как можно больше функций и стремиться к этому. Это, соответственно, увеличивает вероятность того, что некоторые из них могут быть коррелированы с остаточным шумом.
  • Большие Данные обычно объединяются из нескольких источников с потенциально разными схемами генерации данных. Это увеличивает вероятность смещения выбора и ошибок измерения, которые также вызывают потенциальную случайную эндогенность.

Чтобы проиллюстрировать существование эндогенности, мы подгоняем регрессию наименьших квадратов L1 (Лассо) к данным, и штраф автоматически выбирается с помощью 10-кратной перекрестной проверки (отобрано 37 генов). Затем мы восстановим обычную регрессию наименьших квадратов для выбранной модели, чтобы вычислить остаточный вектор. На правой панели рис. 3 мы строим эмпирическое распределение корреляций между предикторами и остатками. Мы видим, что остаточный шум сильно коррелирует со многими предикторами. Чтобы убедиться, что эти корреляции не вызваны чисто ложной корреляцией, мы вводим «нулевое распределение» ложных корреляций путем случайной перестановки порядков строк в матрице проекта, так что предикторы действительно не зависят от остаточного шума. Сравнивая эти два распределения, мы видим, что распределение корреляций между предикторами и остаточным шумом в необработанных данных (помеченных как «необработанные данные») имеет более “тяжелый хвост”, чем в переставленных данных (помеченных как «переставленные данные»). Этот результат предоставляет убедительные доказательства эндогенности.

Большие ошибки в больших данных: проблемы анализа на практике

При работе с big data ошибок не избежать. Вам нужно докопаться до сути данных, расставить приоритеты, оптимизировать, визуализировать данные, извлечь правильные идеи. По результатам опросов, 85 % компаний стремятся к управлению данными, но только 37% сообщают об успехах в этой области. На практике изучать негативный опыт сложно, поскольку о провалах никто не любит говорить. Аналитики с удовольствием расскажут об успехах, но как только речь зайдет об ошибках, будьте готовы услышать про «накопление шума», «ложную корреляцию» и «случайную эндогенность», и без всякой конкретики. Действительно ли проблемы с big data существуют по большей части лишь на уровне теории?

Сегодня мы изучим опыт реальных ошибок, которые ощутимо повлияли на пользователей и аналитиков.

Ошибки выборки

В статье «Big data: A big mistake?» вспомнили об интересной истории со стартапом Street Bump. Компания предложила жителям Бостона следить за состоянием дорожного покрытия с помощью мобильного приложения. Софт фиксировал положение смартфона и аномальные отклонения от нормы: ямы, кочки, выбоины и т.д. Полученные данные в режиме реального времени отправлялись нужному адресату в муниципальные службы.

Однако в какой-то момент в мэрии заметили, что из богатых районов жалоб поступает гораздо больше, чем из бедных. Анализ ситуации показал, что обеспеченные жители имели телефоны с постоянным подключением к интернету, чаще ездили на машинах и были активными пользователями разных приложений, включая Street Bump.

В результате основным объектом исследования стало событие в приложении, но статистически значимой единицей интереса должен был оказаться человек, использующий мобильное устройство. Учитывая демографию пользователей смартфонов (на тот момент это в основном белые американцы со средним и высоким уровнем дохода), стало понятно, насколько ненадежными оказались данные.

Проблема неумышленной предвзятости десятилетиями кочует из одного исследования в другое: всегда будут люди, активнее других пользующиеся соцсетями, приложениями или хештегами. Самих по себе данных оказывается недостаточно — первостепенное значение имеет их качество. Подобно тому, как вопросники влияют на результаты опросов, электронные платформы, используемые для сбора данных, искажают результаты исследования за счет воздействия на поведение людей при работе с этими платформами.

По словам авторов исследования «Обзор методов обработки селективности в источниках больших данных», существует множество источников big data, не предназначенных для точного статистического анализа — опросы в интернете, просмотры страниц в Твиттере и Википедии, Google Trends, анализ частотности хештегов и др.

Одной из самых ярких ошибок такого рода является прогнозирование победы Хилари Клинтон на президентских выборах в США в 2016 году. По данным опроса Reuters/Ipsos, опубликованным за несколько часов до начала голосования, вероятность победы Клинтон составляла 90%. Исследователи предполагают, что методологически сам опрос мог быть проведен безупречно, а вот база, состоящая из 15 тыс. человек в 50 штатах, повела себя иррационально — вероятно, многие просто не признавались, что хотят проголосовать за Трампа.

Ошибки корреляций

Непонятная корреляция и запутанная причинно-следственная связь часто ставят в тупик начинающих дата-сайнтистов. В результате появляются модели, безупречные с точки зрения математики и совершенно не жизнеспособные в реальности.

На диаграмме выше показано общее количество наблюдений НЛО с 1963 года. Число зарегистрированных случаев из базы данных Национального центра отчетности по НЛО в течение многих лет оставалось примерно на одном уровне, однако в 1993 году произошел резкий скачок.

Таким образом, можно сделать совершенно логичный вывод, что 27 лет назад пришельцы всерьез взялись за изучение землян. Реальная же причина заключалась в том, что в сентябре 1993 года вышел первый эпизод «Секретных материалов» (на пике его посмотрели более 25 млн человек в США).

Теперь взгляните на данные, которые показывают частоту наблюдений НЛО в зависимости от времени суток и дня недели: желто-оранжевым окрашена наибольшая частота случаев наблюдения. Очевидно, что пришельцы чаще высаживаются на Землю в выходные, потому что в остальное время они ходят на работу. Значит, исследование людей для них — хобби?

Эти веселые корреляции имеют далеко идущие последствия. Так, например, исследование «Доступ к печати в сообществах с низким уровнем дохода» показало, что школьники, имеющие доступ к большему количеству книг, получают лучшие оценки. Руководствуясь данными научной работы, власти Филадельфии (США) занялись реорганизацией системы образования.

Пятилетний проект предусматривал преобразование 32 библиотек, что обеспечило бы равные возможности для всех детей и семей в Филадельфии. На первый взгляд, план выглядел великолепно, но, к сожалению, в исследовании не учитывалось, действительно ли дети читали книги — в нем лишь рассматривался вопрос, доступны книги или нет.

В итоге значимых результатов добиться не удалось. Дети, не читавшие книги до исследования, не полюбили вдруг чтение. Город потерял миллионы долларов, оценки у школьников из неблагополучных районов не улучшились, а дети, воспитанные на любви к книгам, продолжили учиться так же, как учились.

Потеря данных

Иногда выборка может быть верной, но авторы просто теряют необходимые для анализа данные. Так произошло в работе, широко разошедшейся по миру под названием «Фрикономика». В книге, общий тираж которой превысил 4 млн экземпляров, исследовался феномен возникновения неочевидных причинно-следственных связей. Например, среди громких идей книги звучит мысль, что причиной спада подростковой преступности в США стал не рост экономики и культуры, а легализация абортов.

Авторы «Фрикономики», профессор экономики Чикагского университета Стивен Левитт и журналист Стивен Дабнер, через несколько лет признались, что в итоговое исследование абортов попали не все собранные цифры, поскольку данные просто исчезли. Левитт объяснил методологический просчет тем, что в тот момент «они очень устали», и сослался на статистическую незначимость этих данных для общего вывода исследования.

Действительно ли аборты снижают количество будущих преступлений или нет — вопрос все еще дискуссионный. Однако у авторов подметили множество других ошибок, и часть из них удивительно напоминает ситуацию с популярностью уфологии в 1990-х годах.

Ошибки анализа

Биотех стал для технологических предпринимателей новым рок-н-роллом. Его также называют «новым IT-рынком» и даже «новым криптомиром», имея ввиду взрывную популярность у инвесторов компаний, занимающихся обработкой биомедицинской информации.

Являются ли данные по биомаркерам и клеточным культурам «новой нефтью» или нет — вопрос второстепенный. Интерес вызывают последствия накачки индустрии быстрыми деньгами. В конце концов, биотех может представлять угрозу не только для кошельков венчурных фондов, но и напрямую влиять на здоровье людей.

Например, как указывает генетик Стивен Липкин, для генома есть возможность делать высококлассные анализы, но информация о контроле качества часто закрыта для врачей и пациентов. Иногда до заказа теста вы не можете заранее узнать, насколько велика глубина покрытия при секвенировании. Когда ген прочитывают недостаточное число раз для адекватного покрытия, программное обеспечение находит мутацию там, где ее нет. Зачастую мы не знаем, какой именно алгоритм используется для классификации аллелей генов на полезные и вредные.

Тревогу вызывает большое количество научных работ в области генетики, в которых содержатся ошибки. Команда австралийских исследователей проанализировала около 3,6 тыс. генетических работ, опубликованных в ряде ведущих научных журналов. В результате обнаружилось, что примерно одна из пяти работ включала в свои списки генов ошибки.

Поражает источник этих ошибок: вместо использования специальных языков для статистической обработки данных ученые сводили все данные в Excel-таблице. Excel автоматически преобразовывал названия генов в календарные даты или случайные числа. А вручную перепроверить тысячи и тысячи строк просто невозможно.

В научной литературе гены часто обозначаются символами: например, ген Септин-2 сокращают до SEPT2, а Membrane Associated Ring Finger (C3HC4) 1 — до MARCH1. Excel, опираясь на настройки по умолчанию, заменял эти строки датами. Исследователи отметили, что не стали первооткрывателями проблемы — на нее указывали более десятилетия назад.

В другом случае Excel нанес крупный удар по экономической науке. Знаменитые экономисты Гарвардского университета Кармен Рейнхарт и Кеннет Рогофф в исследовательской работе проанализировали 3,7 тыс. различных случаев увеличения госдолга и его влияние на рост экономики 42 стран в течение 200 лет.

Работа «Рост за время долга» однозначно указывала, что при уровне госдолга ниже 90 % ВВП он практически не влияет на рост экономики. Если же госдолг превышает 90 % ВВП, медианные темпы роста падают на 1 %.

Исследование оказало огромное влияние на то, как мир боролся с последним экономическим кризисом. Работа широко цитировалась для оправдания сокращения бюджета в США и Европе.

Однако несколько лет спустя Томас Херндорн, Майкл Эш и Роберт Поллин из Университета Массачусетса, разобрав по пунктам работу Рогоффа и Рейнхарта, выявили банальные неточности при работе с Excel. Статистика, на самом деле, не показывает никакой зависимости между темпами роста ВВП и госдолгом.

Заключение: исправление ошибок как источник ошибок

Учитывая огромное количество информации для анализа, некоторые ошибочные ассоциации возникают просто потому, что такова природа вещей. Если ошибки редки и близки к случайным, выводы итогового анализа могут не пострадать. В некоторых случаях бороться с ними бессмысленно, так как борьба с ошибками при сборе данных может привести к возникновению новых ошибок.

Знаменитый статистик Эдвард Деминг сформулировал описание этого парадокса следующим образом: настройка стабильного процесса для компенсации небольших имеющихся отклонений с целью достижения наиболее высоких результатов может привести к худшему результату, чем если бы не происходило вмешательства в процесс.

В качестве иллюстрации проблем с чрезмерным исправлением данных используется моделирование корректировок в процессе случайного падения шариков через воронку. Корректировать процесс можно с помощью нескольких правил, основная цель которых — предоставить возможность попасть как можно ближе к центру воронки. Однако чем больше вы будете следовать правилам, тем более разочаровывающими будут результаты.

Проще всего эксперимент с воронкой провести онлайн, для чего создали симулятор. Пишите в комментариях, каких результатов вам удалось достичь.

Правильно анализировать большие данные мы можем научить в Академии MADE — бесплатном образовательном проекте от Mail.ru Group. Заявки на обучение принимаем до 1 августа включительно.

  • Блог компании VK
  • Анализ и проектирование систем
  • Big Data
  • Математика
  • Визуализация данных

Что такое Big Data (большие данные) в маркетинге: проблемы, алгоритмы, методы анализа

большие данные big data

Большие данные (Big Data) — довольно распространенное понятие в IT и интернет-маркетинге. По сути, определение термина лежит на поверхности: «большие данные» означает управление и анализ очень больших объемов данных. Если смотреть шире, то это информация, которая не поддается обработке классическими способами по причине больших объемов.

Big Data — что это такое?

Цифровые технологии присутствуют во всех областях жизни человека. Объем записываемых в мировые хранилища данных ежесекундно растет, а это означает, что такими же темпами должны изменяться условия хранения информации и появляться новые возможности для наращивания ее объема.

Эксперты в области IT высказывают мнение, что расширение Big Data и ускорение темпа роста стало объективной реальностью. Ежесекундно гигантские объемы контента генерируют такие источники, как социальные сети, информационные сайты, файлообменники — и это лишь сотая часть поставщиков.

Согласно исследованию IDC Digital Universe, в ближайшие пять лет объем данных на планете вырастет до 40 зеттабайтов, то есть к 2020 году на каждого живущего на Земле человека будет приходиться по 5200 Гб.

Big Data

Рост Big Data к 2020 году, прогноз IDC Digital Universe от 2012 года Источник:www.emc.com.

Известно, что основной поток информации генерируют не люди. Источником служат роботы, находящиеся в постоянном взаимодействии друг с другом. Это приборы для мониторинга, сенсоры, системы наблюдения, операционные системы персональных устройств, смартфоны, интеллектуальные системы, датчики и прочее. Все они задают бешеный темп роста объема данных, что приводит к появлению потребности наращивать количество рабочих серверов (и реальных, и виртуальных) — как следствие, расширять и внедрять новые data-центры.

По сути, большие данные — довольно условное и относительное понятие. Самое распространенное его определение — это набор информации, по объему превосходящей жесткий диск одного персонального устройства и не поддающейся обработке классическими инструментами, применяемыми для меньших объемов.

Big Data

Наглядная иллюстрация роста объемов с 1986 до 2007 годов. Источник: www.martinhilbert.net.

Технология Big Data — что это? Обобщенно говоря, технологию обработки больших данных можно свести к трем основным направлениям, решающим три типа задач:

  • Хранение и перевод поступаемой информации в гигабайты, терабайты и зеттабайты для их хранения, обработки и практического применения.
  • Структурирование разрозненного контента: текстов, фотографий, видео, аудио и всех иных видов данных.
  • Анализ Big Data и внедрение различных способов обработки неструктурированной информации, создание различных аналитических отчетов.

В сущности, применение Big Data подразумевает все направления работы с огромным объемом самой разрозненной информации, постоянно обновляемой и разбросанной по разным источникам. Цель предельна проста — максимальная эффективность работы, внедрение новых продуктов и рост конкурентоспособности.

Проблема Big Data

Проблемы системы Big Data можно свести к трем основным группам: объем, скорость обработки, неструктурированность. Это три V — Volume, Velocity и Variety.

Хранение больших объемов информации требует специальных условий, и это вопрос пространства и возможностей. Скорость связана не только с возможным замедлением и «торможением», вызываемом старыми методами обработок, это еще и вопрос интерактивности: чем быстрее процесс, тем больше отдача, тем продуктивнее результат.

Проблема неоднородности и неструктурированности возникает по причине разрозненности источников, форматов и качества. Чтобы объединить данные и эффективно их обрабатывать, требуется не только работа по приведению их в пригодный для работы вид, но и определенные аналитические инструменты (системы).

Но это еще не все. Существует проблема предела «величины» данных. Ее трудно установить, а значит трудно предугадать, какие технологии и сколько финансовых вливаний потребуется для дальнейших разработок. Однако для конкретных объемов данных (терабайт, к примеру) уже применяются действующие инструменты обработки, которые к тому же и активно развиваются.

Существует проблема, связанная с отсутствием четких принципов работы с таким объемом данных. Неоднородность потоков только усугубляет ситуацию. Каким образом подходить к их применимости, чтобы вынести из них что-то ценное? Здесь требуется разработка такого направления, как новые методы анализа Big Data, чтобы этот поток стал полезным источником информации. Возможно, согласно утверждениям представителей университетов США (Нью-Йоркского, Вашингтонского и Калифорнийского), сегодня пришло время ввести и развивать новую дисциплину — науку о Big Data.

Собственно, это и является главной причиной отсрочки внедрения в компании проектов Big Data (если не брать во внимание еще один фактор — довольно высокую стоимость).

Подбор данных для обработки и алгоритм анализа может стать не меньшей проблемой, так как отсутствует понимание, какие данные следует собирать и хранить, а какие можно игнорировать. Становится очевидной еще одна «болевая точка» отрасли — нехватка профессиональных специалистов, которым можно было бы доверить глубинный анализ, создание отчетов для решения бизнес-задач и как следствие извлечение прибыли (возврат инвестиций) из Big Data.

Еще одна проблема Big Data носит этический характер. А именно: чем сбор данных (особенно без ведома пользователя) отличается от нарушения границ частной жизни? Так, информация, сохраняемая в поисковых системах Google и Яндекс, позволяет им постоянно дорабатывать свои сервисы, делать их удобными для пользователей и создавать новые интерактивные программы.

Поисковики записывают каждый клик пользователя в Интернете, им известен его IP-адрес, геолокация, интересы, онлайн-покупки, личные данные, почтовые сообщения и прочее, что, к примеру, позволяет демонстрировать контекстную рекламу в соответствии с поведением пользователя в Интернете. При этом согласия на это не спрашивается, а возможности выбора, какие сведения о себе предоставлять, не дается. То есть по умолчанию в Big Data собирается все, что затем будет храниться на серверах данных сайтов.

Здесь можно затронуть дргую проблему — обеспечение безопасности хранения и использования данных. Например, сведения о возможных покупателях и их история переходов на сайтах интернет-магазинов однозначно применимы для решения многих бизнес-задач. Но безопасна ли аналитическая платформа, которой потребители в автоматическом режиме (просто потому, что зашли на сайт) передают свои данные, — это вызывает множество споров. Современную вирусную активность и хакерские атаки не сдерживают даже супер-защищенные серверы правительственных спецслужб.

История больших данных

Сами по себе алгоритмы Big Data возникли при внедрении первых высокопроизводительных серверов (мэйнфреймов), обладающих достаточными ресурсами для оперативной обработки информации и пригодных для компьютерных вычислений и для дальнейшего анализа..

Сам термин Big Data впервые был озвучен в 2008 году на страницах спецвыпуска журнала Nature в статье главного редактора Клиффорда Линча. Этот номер издания был посвящен взрывному росту глобальных объемов данных и их роли в науке.

Специалисты утверждают, что большими данными допустимо называть любые потоки информации объемом более 100 Гб в сутки.

Однако в последние 2-3 года ученые отмечают, что термин Big Data стал лишком популяризирован, его употребляют практически везде, где упоминаются потоки данных, и как следствие он стал восприниматься слишком обобщенно и размыто. Виной тому не совсем сведущие журналисты и малоопытные предприниматели, которые попусту злоупотребляют данным понятием. По мнению западных экспертов, термин давно дискредитировал себя и пришло время от него отказаться.

Сегодня мировое сообщество вновь заговорило о больших данных. Причины — в неизменном росте объемов информации и отсутствии какой-либо структуры в ней. Предпринимателей и ученых волнуют вопросы качественной интерпретации данных, разработки инструментов для работы с ними и развитие технологий хранения. Этому способствует внедрение и активное использованию облачных моделей хранения и вычислений.

Big Data в маркетинге

Информация – это главный аспект успешного прогнозирования роста и составления маркетинговой стратегии в умелых руках маркетолога. Анализ больших данных давно и успешно применяется для определения: целевой аудитории, интересов, спроса, активности потребителей. Таким образом, Big Data является точнейшим инструментом маркетолога для предсказания будущего компании.

К примеру, анализ больших данных позволяет выводить рекламу (на основе известной модели RTB-аукциона — Real Time Bidding) только тем потребителям, которые заинтересованы в товаре или услуге.

Применение Big Data в маркетинге позволяет бизнесменам:

  • лучше узнавать своих потребителей, привлекать аналогичную аудиторию в Интернете;
  • оценивать уровень удовлетворенности клиентов;
  • понимать, соответствует ли предлагаемый сервис ожиданиям и потребностям;
  • находить и внедрять новые способы, увеличивающие доверие клиентов;
  • создавать проекты, пользующиеся спросом.

Например, сервис Google.trends очень точно укажет маркетологу прогноз сезонной активности спроса на конкретный продукт, колебания и географию кликов. Достаточно сопоставить эти сведения со статистическими данными собственного сайта и можно составить качественный план по распределению рекламного бюджета с указанием месяца и региона.

Вместо заключения

Сегодня, в пик высоких технологий и огромных потоков информации, у компаний появилось гораздо больше возможностей для достижения превосходных показателей в ведении бизнеса благодаря использованию Big Data.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *