В статье «Данные соберутся в центре», опубликованной в текущем номере, описывается, как Министерство финансов России использует технологии больших данных (big data) для повышения собираемости налогов и улучшения качества услуг. Однако финансовые ведомства — не единственные, кто активно использует big data в экономике. Технологии больших данных, применение которых стало возможным благодаря росту вычислительных мощностей компьютеров в
Под big data понимаются объемы данных настолько масштабные, что традиционные способы обработки информации для них уже не подходят. Круг операций, совершаемых с большими данными, достаточно широк: анализ, сбор, хранение, распространение, визуализация и защита информации. По сути, становление больших данных — это становление самого интернета. С включением все большего числа пользователей в Мировую паутину стало производиться все больше и больше информации. Так, по данным Google, объем всей информации, созданной человечеством с момента его зарождения по 2003 год, оценивается в пять эксабайт (это сопоставимо примерно с триллионом
Пожалуй, наиболее массовое направление применения больших данных — это построение предсказательных моделей. Крупные интернет-продавцы предсказывают, какие товары могут быть интересны их пользователям. Поисковые интернет-системы оценивают соответствие веб-страниц запросу пользователя. Рекламщики стараются предсказать, насколько товар может быть интересен тому или иному потребителю. Естественно, большие данные находят применение и в таких отраслях, как маркетинг, производство, экономическая политика и экономическая наука.
Двигатель торговли
Постепенно технологии big data становятся все более важным конкурентным преимуществом для тех компаний розничной торговли, которые их применяют. Одним из способов использования больших данных в этой отрасли является прогнозирование спроса. Big data позволяют не просто предсказать периоды массового спроса (например, рождественские праздники), в которые необходимо предоставить торговым точкам дополнительные объемы товара. Технологии позволяют определить примерные необходимые запасы по отдельным единицам. Например, анализ больших данных может сообщить, сколько необходимо экземпляров дисков с конкретной компьютерной игрой.
Технологии больших данных помогают синхронизировать цены со спросом, наличием товара и наличием конкурентов. Еще один важный способ применения технологий big data в торговле — интернет-поиск пользователей, наиболее заинтересованных в том или ином продукте. В настоящее время на рынке действуют сотни систем, которые анализируют поведение пользователей. Они изучают архив поиска, поведение в социальных сетях, участие в форумах, историю покупок, данные о лояльности крупным продавцам, демографическую информацию и другие сегменты данных. Это позволяет отобрать тех пользователей, которые потенциально могут быть заинтересованы в подобном продукте.
Самое простое — это связаться с пользователем, пока он ищет или читает что-нибудь в интернете, к примеру, показав ему рекламный баннер. По этому принципу, например, работает популярный интернет-сервис «Яндекс. Музыка». Программа анализирует не только то, какие музыкальные композиции слушает пользователь, но и людей с похожими вкусами. В результате она предлагает потребителю ознакомиться с творчеством коллективов, которые могут быть интересны исключительно ему.
Есть путь и сложнее: современные системы могут зафиксировать появление потенциального покупателя в нужном месте в нужное время и связаться с ним. Например, в момент, когда пользователь находится рядом с магазином, можно предложить ему скидку или просто позвать его на бесплатную консультацию. Контакт осуществляется с помощью социальных сетей, текстовых сообщений, электронной почты. Используя те же алгоритмы анализа поведения с помощью big data, можно предсказать, какие еще сопутствующие товары может приобрести потенциальный покупатель. Очевидно, что такие технологии позволяют выстроить совершенно новый уровень коммуникации между потребителем и продавцом: если раньше потенциальный клиент заходил в торговую точку или на интернет-сайт и просто выбирал товар, то сейчас ему дают рекомендации еще до того, как он сформулировал свой запрос.
Технологии big data в частном бизнесе активно используются не только в торговле, маркетинге и рекламе, но и в промышленности — для увеличения производительности труда и снижения расходов. Так, в Германии реализуют программу «Индустрия 4.0», направленную на создание так называемых умных фабрик. Использование технологий big data позволяет оптимизировать производственные расписания исходя из доступности машин, поставок и спроса. В отчете McKinsey 2014 года, посвященном влиянию больших данных на производство, отмечается, что без big data связать работу настолько разноплановых департаментов не получится.
Инструменты big data активно используются для сбора информации о работе оборудования. Анализ позволяет выявить, какая комбинация продукции и какая последовательность операций на линии являются самыми оптимальными с точки зрения производительности. Некоторые эксперты называют большие данные одним из наиболее эффективных способов повысить производительность.
Инструменты для big data
Согласно отчету консалтинговой компании McKinsey, вышедшему в 2011 году, для работы с большими данными используется более десятка различных методов. Перечислим некоторых из них:
- краудсорсинг (crowdsourcing) — массовое вовлечение интернет-пользователей в некоторую деятельность, например в сбор данных;
- объединение данных (data fusion) и интеграция — это слияние разнообразных данных в одну простую, понятную и репрезентативную выборку;
- генетический алгоритм (genetic algorithm) — алгоритм поиска, используемый для решения задач оптимизации и моделирования путем случайного подбора, комбинирования и вариации искомых параметров с использованием механизмов, аналогичных естественному отбору в природе;
- машинное обучение (machine teaching) — раздел науки об искусственном интеллекте, изучающий способы выявления закономерностей в эмпирических данных;
- обработка естественного языка (Natural Language Processing, NLP) — еще одно из направлений науки об искусственном интеллекте, изучающее взаимодействие человека и компьютера, генерацию грамотного текста и понимание языка;
- А/Б-тестирование (A/B testing) — метод исследования, при котором контрольная группа элементов сравнивается с набором тестовых групп, в которых один или несколько показателей были изменены, для того чтобы выяснить, какие из изменений улучшают целевой показатель;
- обработка сигналов (signal processing) — термин пришел из радиотехники, целью метода является разделение информационных потоков, подавление шумов;
- симуляция (simulation) — имитация реальных процессов с помощью цифровых технологий.
На пульсе рынка
Методы использования больших данных для экономической политики в целом совпадают с инструментарием для частного сектора, констатируют Лиран Эйнав и Джонатан Левин из Стэнфордского университета в своей статье «Big data и революция в экономическом анализе».
Одно из наиболее очевидных применений big data в экономической политике — более точное и быстрое измерение экономических трендов. Например, в США Бюро статистики по занятости (Bureau of Labor Statistics) использует следующий способ измерения уровня инфляции. Анкеты для заполнения вручную направляются в 80 тысяч выбранных фирм. На основании этих данных формируются различные индексы, в том числе и индекс потребительских цен. Альтернативу такому способу собирать статистику создали в Массачусетском университете, где запустили проект «Миллиард цен» (Billion Prices Project). Проект получает данные о ценах более чем из 50 тысяч интернет-магазинов по всему миру. Так, BPP подсчитывает ежедневный индекс изменения цен в США.
Аналогичные технологии используются для определения потребительской активности и предсказаний по безработице. Так, разработанный платежной системой MasterCard продукт «Потребительский пульс» позволяет получать в реальном времени информацию о тенденциях по расходам покупателей в тех или иных сегментах. Конкурент MasterCard, Visa, выпускает периодические отчеты о тенденциях в тех или иных отраслях. Что касается предпринимательской активности и безработицы, то такие данные публикует аналитическое подразделение Moody’s, которое онлайн анализирует данные 500 тысяч американских фирм.
Еще одним перспективным направлением является изучение запросов в поисковых системах для определения экономических тенденций. Для тех же целей может использоваться анализ записей в соцсетях. Например, анализ числа запросов на покупку новых автомобилей позволяет увидеть спад или подъем рынка еще до выхода официальной статистики, основанной на объемах официальных продаж авто.
Профессор экономики Университета Джорджии Тара Синклайр приводит другой пример. Компания по подбору персонала, в которой она работает старшим экономистом, анализирует, как меняются тенденции в найме сотрудников. Если компании массово снижают спрос на специалистов, в том числе и квалифицированных, это позволяет заявить о кризисе в сегменте задолго до выхода официальной статистики.
Правда, использование подобных методов может уступать по точности традиционному анкетированию. Очевидно, что данные могут оказаться нерепрезентативными, потому что они будут действительны только для тех людей, которые приобрели карту MasterCard, а портрет такого потребителя может сильно отличаться от среднестатистического гражданина страны.
Модернизация госуслуг
В то же время, отмечается в уже упомянутом исследовании Стэнфордского университета, государственные органы не используют big data достаточно эффективно. Государству доступен мощный ресурс ценных и очень качественных данных. В первую очередь речь идет об административной и налоговой информации, а также данных по социальным, в том числе образовательным и медицинским, программам. Анализ этих данных позволяет государственным органам принимать лучшие решения, однако у госслужащих в отличие от частного бизнеса часто недостает для этого инициативы. Одним из решений является публикация данных в открытом доступе, чтобы их могли обрабатывать частные компании или энтузиасты.
Так, мэрия Нью-Йорка разместила колоссальный объем муниципальных данных в проекте NYC OpenData («Открытые данные Нью-Йорка»). Туда вошла информация о проверках, адреса ресторанов, кафе, гостиниц и других заведений, финансовая информация, криминальная статистика и прочее. Независимые наблюдатели изучили данные по проверкам заведений общественного питания и пришли к выводу, что соблюдение санитарных норм никак не связано с числом надзорных мероприятий. Это заставило власти принять соответствующие решения по числу проверок и их методике. С похожими целями федеральное правительство США выкладывает базы данных несекретной информации на сайте Data.Gov.
Личные данные под защитой
Когда речь идет о больших массивах таких данных, как поведение интернет-пользователей, встает вопрос о защите личной информации. Большинство развитых стран (в том числе и Россия) законодательно запрещают сбор личных данных людей без их согласия. Если государственные органы в некоторых случаях (например, когда речь идет об уплате налогов) и могут заниматься такой деятельностью, то частные компании, использующие big data для рекламы и маркетинга, не имеют права анализировать и хранить личные данные.
Поэтому компании, осуществляющие такую деятельность в интернете, хранят не данные пользователей, а их обезличенные профили. Когда люди путешествуют по интернету, браузеры их компьютеров (программы для просмотра веб-страниц, например, Internet Explorer) обмениваются небольшими текстовыми файлами (называемыми «куками», или cookies). В результате сайты могут запоминать данные не о самих пользователях, а о действиях их компьютеров. Таким образом, информацию о поведении можно хранить и анализировать, не нарушая законодательства о защите персональных данных. Кстати, пользователи могут запрещать браузерам обмен cookies. Это не позволит сайтам вспоминать компьютер (например, чтобы напомнить, в какую игру играл его владелец) и значительно затруднит анализ поведения.
Есть и другие способы сбора обезличенной информации, например на основе ip-адресов (интернет-адресов компьютеров).
Достаточно неожиданным направлением использования big data в интересах государства является создание на базе анализа больших объемов данных информационных продуктов, которые могли бы помогать гражданам. Так, на основании жалоб потребителей составляются рекомендации о том, как не пожалеть о своем выборе и не приобрести ненужную вещь. Таким образом, людей можно предостеречь от часто повторяющихся ошибок потребительского выбора, касается ли это покупки автомобиля, дома или путевки в отпуск.
Еще одно очевидное применение технологий big data — экономические исследования. Понятно, что возможности анализировать большие объемы данных расширяют способность оценивать влияние тех или иных решений экономической политики на различные целевые показатели.
Так, например, в 2011 году в Нью-Йорке были проведены исследования долгосрочного влияния уровня подготовки учителей на уровень зарплат их выпускников. Уровень подготовки преподавателей оценивался как средний результат их профессиональных тестов. Были проанализированы данные по 2,5 миллиона выпускников школ в США. В итоге было установлено, что замена одного учителя с результатами тестов на 5% ниже среднего одним учителем со средними тестами дает прирост среднего дохода учеников на 250 тысяч долларов на протяжении всей жизни.
Еще один пример касается исследований связи между повышением налогов на интернет-торговлю в США и желанием людей приобретать товары онлайн. Для этого были запрошены данные интернет-аукциона eBay (более 100 миллионов американских пользователей). Собирались исключительно данные о покупках пользователей в своих штатах, чтобы исключить межрегиональную торговлю. Была обнаружена значительная зависимость между объемами продаж одних и тех же товаров в разных штатах в зависимости от введения повышенных налогов.
В то же время не все разделяют идею о том, что технологии big data действительно меняют многие сферы экономики. Так, известный исследователь социальных медиа Данах Бойд утверждает, что применение технологий big data фактически нивелирует зарекомендовавший себя метод использования статистических выборок. Эксперты также обращают внимание и на то, что фактически при работе с большими данными мощности требуются не для анализа, потому что он весьма поверхностен, а для хранения огромных массивов данных. В связи с этим якобы важность аналитического инструментария слишком преувеличена. Однако чтобы ни говорили критики, инструменты ценят по их эффективности.
К. В. ОВЧАРУК