О ПРОЕКТЕ
ВСЕ ПРОЕКТЫ HH
Регистрация компании
Заявка на грант Повысить зарплату Поможем выбрать курс Регистрация карьериста
во всех городах



С каждым годом объем цифровой информации на планете растет. За 2011 год человечество нагенерировало ее больше, чем за предыдущие 20 веков своего существования. Рынок IT озадачен: где хранить все эти данные?

Предвестники катаклизма

В 2012 году, по самым скромным прогнозам аналитиков, объем хранящихся в мире цифровых данных увеличится на 50%: с 1,8 до 2,7 зеттабайт. При сохранении таких темпов роста к 2015 году, по оценке Лоуренса Джеймса (Laurence James), менеджера по маркетингу продукции, альянсов и решений компании NetApp, каждые 10 минут в мире будет генерироваться столько же данных, сколько их было накоплено человечеством к 2003 году. Значительную лепту в этот процесс вносят неструктурированные данные из новых источников, такие как мобильные устройства, RFID-метки, камеры наблюдения и всевозможные датчики телеметрии. Но наибольшую волну информации порождает Интернет: каждую минуту в нем появляется свыше 600 новых записей в блогах и 34 тыс. постов в Twitter. К 2015 году объем мирового интернет-трафика превысит 966 эксабайт в год, а глобальное онлайновое видеосообщество вырастет до 1,5 млрд пользователей. При этом если до 2010 года почти 100% трафика генерировали ПК, то в ближайшие три года их потеснят мобильные гаджеты. Кроме того, меняется характер создаваемых в Интернете цифровых данных: если раньше это в основном была структурированная текстовая информация, то теперь большая часть приходится на разнородный мультимедийный трафик.

Глобальный информационный поток получил наименование Big Data («большие данные»), которое впервые было введено в обиход в конце 2000-х годов применительно к ситуациям, когда данные становятся большой проблемой. Однако с легкой руки игроков IT-рынка вскоре под данным термином стали подразумевать не только проблемы, но и методики обработки и анализа «больших данных», а также сопутствующие технологии. По словам Артема Гришковского, заместителя генерального директора компании Sybase CIS, наиболее точное определение термина Big Data гласит, что это «совокупность структурированных и неструктурированных данных в таких объемах, которые невозможно проанализировать традиционными технологиями за разумный отрезок времени». При этом Дмитрий Хорошев, менеджер компании Cisco по развитию бизнеса в области ЦОД, отмечает, что у задач, объединенных термином Big Data, есть ярко выраженные особенности, которые отличают их от традиционных методов работы с данными. Среди них - обработка данных внутри базы без создания промежуточных копий, возможность работы с неструктурированными данными, использование для хранения и обработки информации большого количества вычислительных узлов в параллельном режиме, в том числе и для реакции на один информационный запрос.

Артем Гришковский, заместитель генерального директора компании SybaseCIS:

«Несмотря на то что проблема Big Data в том или ином виде существует уже довольно долго, только начиная с прошлого года это направление действительно стало ключевым трендом в IT-индустрии».

Мера «больших данных»

По оценке Александра Котенко, руководителя направления по продвижению СХД компании «Инфосистемы Джет», четкие рамки «больших данных» не определены – все зависит от конкретных задач, типов данных и требований к скорости их обработки, а также множества других факторов. Но, как показывает практика, в большинстве случаев традиционные методы обработки информации становятся непригодными для использования при объемах от нескольких сотен терабайт и более. «Чаще всего, когда упоминают Big Data, имеют в виду сверхбольшие объемы.

Например, если говорить о решениях Oracle, то оптимизированный программно-аппаратный комплекс Oracle Big Data Appliance позволяет хранить и обрабатывать до 216 Тбайт данных», – комментирует Андрей Пивоваров, руководитель группы перспективных технологий предпроектного консалтинга компании Oracle в СНГ.

Александр Котенко, руководитель направления по продвижению систем хранения данных компании «Инфосистемы Джет»:

«Экстенсивный путь развития рано или поздно приводит к стагнации, и для дальнейшего роста необходимо, чтобы “количественное” переросло в “качественное”. Big Data – как раз тот набор инструментов, который позволит это осуществить».

Андрей Пивоваров, руководитель группы перспективных технологий предпроектного консалтинга компании Oracle в СНГ:

«Интерес к Big Data имеет экономические предпосылки: благодаря наработкам интернет-компаний на рынке появились технологии, которые позволяют в разы снизить стоимость обработки данных для выполнения различных бизнес-задач».

Однако большинство экспертов сходится во мнении, что охарактеризовать Big Data одним лишь объемом невозможно, поскольку не менее важны такие их характеристики, как скорость их потока и разнообразие. «Если сочетание этих факторов делает обработку данных при помощи традиционных инструментов невозможной или экономически неэффективной, то это и есть Big Data», – подчеркивает Илья Гершанов, старший технический консультант компании ЕМС в России и СНГ. «Проблематика “больших данных” порождается не столько их объемом, сколько сложностью обработки, поэтому для одних отраслей Big Data это несколько десятков гигабайт информации, а для других – петабайты», – добавляет Дмитрий Лисогор, заместитель генерального директора и руководитель департамента по бизнес-аналитике и технологиям компании SAP в СНГ.

Информационная эволюция

Глобальная сеть приучила людей практически мгновенно реагировать на запросы и вести быстрый поиск информации: за несколько секунд поисковые системы выдают результаты, для получения которых требуется обработка десятков и даже сотен терабайт информации, и в день они удовлетворяют сотни миллионов запросов. Между тем в большинстве областей бизнеса такие показатели пока что недостижимы: к примеру, среднестатистический банк успевает обработать лишь несколько тысяч транзакций в день, притом что размер автоматизированной банковской системы в среднем колеблется от сотен гигабайт до нескольких терабайт.

«Для любой компании предвестником “больших данных” являются показатели, которые определяют масштабы ее деятельности: количество клиентов и выполняемых бизнес-операций, а также сопутствующие объемы хранимой и обрабатываемой информации. Для предприятий федерального и международного уровня, количество клиентов которых исчисляется миллионами, а бизнес-операции – десятками миллионов в месяц, эпоха Big Data уже наступила», – отмечает Денис Первушин, директор департамента бизнес-приложений Oracle компании «АйТи».

Денис Первушин, директор департамента бизнес-приложений Oracle компании «АйТи»:

«Обычно термин Big Data применяется к данным, исчисляющимся десятками терабайт и больше, но нужно также принимать во внимание такие показатели, как количество операций по их обработке, степень разнородности и скорость увеличения объемов информации».

Вячеслав Ковалев, начальник отдела ЦОД компании «Открытые Технологии», полагает Big Data закономерной эволюцией технологий обработки информации, доступной в различном виде из различных источников. По его словам, анализ накапливающихся со временем неструктурированных данных дает возможность компаниям адаптировать свой бизнес к реалиям рынка и принимать правильные бизнес-решения. Главная же проблема состоит в том, как правильно соотнести разрозненную и неструктурированную информацию с уже накопленными данными, дабы получить на выходе стройную систему, позволяющую принимать правильные решения.

Вячеслав Ковалев, начальник отдела ЦОД компании «Открытые Технологии»:

«Мало быстро собрать, обработать и проанализировать данные – не менее важно представить полученные результаты именно в том виде, в каком они будут востребованы менеджерами, принимающими на их основании решения».

Флюгер для ИТ

По оценке Сергея Лихарева, руководителя направления по продажам решений для бизнес-аналитики компании IBM в России и СНГ, сбор и анализ бизнес-данных, вне зависимости от их типа, объема и темпов роста, приобретает ключевое значение для принятия взвешенных решений в бизнесе. «Скептики могут рассматривать Big Data как очередной маркетинговый трюк, но реальность такова, что многие компании в перспективе могут потонуть в потоке данных, не сумев извлечь из них пользы для своего бизнеса», – подчеркивает Лоуренс Джеймс (NetApp). По его словам, главная задача IT-индустрии – решать подобные проблемы посредством соответствующих технологий.

Сергей Лихарев, руководитель направления по продажам решений для бизнес-аналитики компании IBM в России и СНГ:

«В 2011 году стало ясно, что повсеместная экспансия Big Data – это вызов, не ответить на который означает проиграть в борьбе за эффективность бизнеса».

По итогам 2011 года исследовательская компания Gartner признала Big Data одним из ключевых факторов, оказывающих влияние на IT-рынок. По словам Валерия Юринского, директора отделения технологического консалтинга компании «ФОРС», под воздействием этого тренда принципиально меняется подход к хранению информации: все чаще ее просто невозможно собрать в одном месте для последующего анализа. Кроме того, необходимо учитывать их разнообразие, скорость поступления и изменения в реальном времени, и многое другое. Именно поэтому аналитики Gartner предложили формулировку Big Data and Extreme Information Processing and Management (дословно: «Большие данные и экстремальная обработка и управление информацией») – как более полную и лучше отражающую суть происходящего явления.

Валерий Юринский, директор отделения технологического консалтинга компании «ФОРС»:

«Проблема Big Data заключается не в том, как хранить огромные массивы информации, а в том, каким образом извлечь из них пользу для бизнеса».

Максим Исаев менеджер по развитию бизнеса ДСР компании IBS отмечает, что на текущем этапе рынок Big Data еще не разогрет и поэтому вендоры пытаются принять в его развитии активное участие. По его оценке, Россия немного отстает от других европейских стран по объемам продаж и количеству инициированных проектов в области Big Data. Денис Первушин («АйТи») объясняет это тем, что бизнес-задачи, решаемые с помощью анализа «больших данных», актуальны лишь для компаний, достигших определенного уровня зрелости и осознающих оправданность инвестиций в соответствующие технологии, а внедрение решений класса Big Data требует существенных временных и материальных ресурсов. «Big Data повторяет путь облачных вычислений: пока рынок не понимает смысл этой технологии и не умеет ее использовать, она кажется всем маркетинговой уловкой, но как только приходит понимание ее сути и появляется первый опыт применения, она начинает восприниматься рынком как готовое решение реальных проблем», – констатирует Владимир Колганов, руководитель направления систем хранения данных компании КРОК.

Владимир Колганов, руководитель направления систем хранения данных компании КРОК:

«Еще пять лет назад говорили о том, что объем данных растет по экспоненте, и IT-отрасль давно готова к тому, что для работы с ними потребуются новые технологии».

Три кита BigData

Новые технологии для работы с «большими данными» появились в связи с возникновением конкретных проблем с обработкой информации, решение которых существующими методами трудно реализуемо или неэффективно. По оценке компании NetApp, проблематика Big Data включает в себя три обширные области: аналитику, пропускную способность и контент.

Компании, работающие на массовом рынке и обслуживающие большое количество клиентов, сталкиваются с необходимостью их удержания. Для решения этой задачи, по словам Дениса Первушина («АйТи»), необходимо максимально быстро осуществлять детальный анализ клиентских предпочтений исходя из накопленных данных об истории взаимоотношений с тем или иным заказчиком. На основе полученной информации можно сформулировать соответствующие предложения, способные повысить лояльность клиентов. Но, по словам Вячеслава Ковалева, начальника отдела ЦОД компании «Открытые Технологии», мало быстро собрать, обработать и проанализировать данные – не менее важно представить полученные результаты именно в том виде, в каком они будут востребованы менеджерами, принимающими на их основании решения. «Ценность систем, основанных на технологиях Big Data, состоит в качестве и скорости предоставляемой аналитики», – резюмирует Сергей Лихарев (IBM).

По словам Лоуренса Джеймса (NetApp), для того чтобы все это стало возможным, существующие в большинстве компаний ИС должны быть приведены в соответствие новым нормам обработки данных, а именно обрабатывать потоки данных при помощи множества вычислительных узлов в параллельном режиме.

Лоуренс Джеймс, менеджер по маркетингу продукции, альянсов и решений компании NetApp:

«Никто не может себе позволить ждать аналитику годами».

Параллельная реальность

Именно такой подход лежит в основе новой архитектуры MPP (Massively Parallel Processing – «массово-параллельная обработка»). Он кардинально отличается от традиционных способов работы с данными средствами СУБД, в основе которых лежит архитектура SMP (Symmetric Multi-Processing – «симметричная мультипроцессорная обработка»).

По словам Андрея Пивоварова, руководителя группы перспективных технологий предпроектного консалтинга компании Oracle в СНГ, традиционные технологии обработки данных почти всегда устроены примерно так: есть СХД и сервер, где происходит их обработка, связанные сетевым интерфейсом. Чтобы произвести какую-либо манипуляцию над данными, необходимо перекачать их по сети на сервер и там обработать. В случае с большими объемами данных могут возникнуть сразу две проблемы: во-первых, их передача на сервер способна растянуться на долгий срок в силу ограничений пропускной способности сети, а во вторых – на сервере может оказаться недостаточно процессорной емкости для обработки таких объемов информации в разумное время.

Андрей Пивоваров, руководитель группы перспективных технологий предпроектного консалтинга компании Oracle в СНГ:

«Новые технологии класса Big Data позволяют распределять данные по множеству серверов таким образом, чтобы обработка информации осуществлялась там же, где она хранится».

Новые технологии класса Big Data позволяют распределять данные по множеству серверов таким образом, чтобы их обработка осуществлялась там же, где они хранятся. По оценке Андрея Пивоварова, это снижает нагрузку на сеть, при этом такая архитектура может масштабироваться практически неограниченно, так как для увеличения ее производительности достаточно просто добавить еще один или несколько вычислительных узлов к кластеру.

Торжество порядка

Высокая пропускная способность систем, через которые проходит поток данных, также является обязательным требованием при построении решений Big Data. Но самой большой проблемой в данной области остается контент, а точнее, его хранение и обработка.

По оценке Александра Котенко («Инфосистемы Джет»), справиться с хранением «больших данных» нынешним технологиям вполне по силам, однако этого недостаточно. С ростом объемов данных возникает ряд новых проблем, которые переводят задачу обработки информации на качественно новый уровень. В частности, появляется необходимость оценивать полезность информации: чтобы эффективно справляться с большими объемами данных, нужно уметь их классифицировать и выделять из общей массы действительно важную для бизнеса информацию. Кроме того, по мере увеличения объема данных возрастает сложность методов их обработки, а также обеспечения целостности и сохранности. Эти задачи осложняются и тем, что, по статистике, 80% данных, важных для бизнеса, неструктурированны. «Традиционные решения и технологии уже не способны удовлетворить потребностям заказчика по скорости обработки информации и совокупной стоимости владения», – констатирует Александр Котенко.

Фундамент «больших данных»

По словам Дмитрия Хорошева, менеджера компании Cisco по развитию бизнеса в области ЦОД, все системы для создания решений класса Big Data, предлагаемые на рынке, можно условно разделить на две среды: инфраструктурную и программную, при этом успех проекта в равной степени зависит от проработанности обеих сред.

Компания Cisco фокусируется на решениях для инфраструктурной среды Big Data: к ним относятся высокопроизводительные коммутаторы с неблокируемой архитектурой и широкая линейка серверов, особенность которых заключается в том, что весь кластер настраивается и управляется как единая система при помощи единого интерфейса. «В применении к задачам Big Data это дает существенное уменьшение сроков ввода системы в эксплуатацию и снижает операционные расходы на поддержку ее функционирования», – подчеркивает Дмитрий Хорошев.

Дмитрий Хорошев, менеджер компании Cisco по развитию бизнеса в области ЦОД:

«Основные проблемы, которые должны быть решены на инфраструктурном уровне Big Data, – сбалансированность архитектуры серверов с точки зрения процессорной мощности, оперативной и дисковой памяти, сетевого ввода-вывода, а также гибкая и удобная система управления как программной, так и аппаратной средой».

В качестве примера основы для построения программной среды Дмитрий Лисогор, заместитель генерального директора и руководитель департамента по бизнес-аналитике и технологиям компании SAP в СНГ, приводит систему SAP HANA. Этот инструмент позволяет организациям любого размера анализировать состояние бизнеса, обрабатывая огромные объемы информации практически из любого источника в режиме реального времени. Другим примером может служить реляционная СУБД EMC Greenplum DB, предназначенная для организации хранения и аналитики данных. По словам старшего технического консультанта компании ЕМС в России и СНГ Ильи Гершанова, она обеспечивает высокую скорость загрузки данных и выполнения запросов, которую можно линейно масштабировать путем добавления новых узлов в кластер СУБД.

Дмитрий Лисогор, руководитель департамента по бизнес-аналитике и технологиям компании SAP в СНГ:

«При помощи Big Data можно решить многие проблемы и получить конкретные преимущества в бизнесе: например, оптимизировать источники выручки и продуктовую линейку, повысить объем бизнеса с клиентами за счет мгновенного анализа эффективности текущего предложения».

Илья Гершанов, старший консультант компании ЕМС в России и СНГ:

«Проблемы из области Big Data возникают практически в каждом секторе экономики»

Объективные сложности

Казалось бы, IT-рынок предлагает достаточно решений, чтобы бизнес не испытывал трудностей с «приручением» Big Data. Однако заказчики с опасением относятся ко всему новому – для его осмысления необходимо время.

«Дать клиенту четкое и обоснованное представление о преимуществах внедрения Big Data – самая большая сложность российского рынка», – убежден Максим Исаев, менеджер по развитию бизнеса ДСР отдела программно-аппаратных комплексов компании IBS. По его словам, вендоры создают решения, которые достаточно легко интегрируются в существующую инфраструктуру, но работа с заказчиком зачастую сопровождается серьезными изменениями его бизнес-процессов из-за необходимости ломать устоявшиеся подходы к работе, в том числе и в IT-подразделениях. В частности, решения Big Data требуют тесного взаимодействия бизнес-подразделений и корпоративных IT-специалистов, поскольку силами IT-команды без поддержки бизнеса внедрить их попросту невозможно. По оценке Максима Исаева, далеко не во всех российских компаниях это взаимодействие выстроено корректно.

Максим Исаев, менеджер по развитию бизнеса ДСР отдела программно-аппаратных комплексов компании IBS:
«Игнорируя проблематику Big Data, компании не смогут получать информацию, необходимую для принятия критических бизнес-решений в те моменты, когда она им будет жизненно необходима, чтобы оставаться конкурентоспособными».