DATA LAKE И BIG DATA ПОД КЛЮЧ

Строим озера данных для быстрой аналитики и машинного обучения. Учим правильно использовать их для решения бизнес-задач
Инфосистемы Джет

Хотят зарабатывать и экономить, используя данные

Транспорт
Авиакомпании
Медицина
Страхование
Ритейл
E-commerce
Промышленность
Производство
Финтех
Банки
Нефтегазовый сектор
Добывающий сектор

Для этого нужно уметь

Быстро их обрабатывать с помощью аналитики и машинного обучения
Хранить вместе большие объемы неструктурированных (аудио, видео, фото, текстов, логов) и структурированных данных

Почему не подходят классические хранилища данных (Data Warehouse, DWH)?

Хранилище и его логическая модель не эластичны — перепроектирование и модернизация DWH под запуск новых приложений могут занимать до 6 месяцев.

После модернизации данные нужно накопить — это еще от 6 до 12 месяцев.

Бизнесу же все чаще нужно проверять на данных новые гипотезы.
В DWH очень легко и быстро обрабатывать структурированные данные.

Но если загрузить туда фото и видео, то анализировать их будет невозможно без инструментов обработки, декомпозиции и подготовки под работу ML-алгоритмов.
Чтобы база данных работала хорошо с большим объемом, надо купить дорогостоящее оборудование.

Это много доп. настроек и работ, плюс проблемы с архивированием в будущем.

А долгий срок модернизации DWH означает большие затраты на дорогостоящих специалистов.

Долго

Сложно

Затратно

Пришла эра Data Lake

Готовность ко всему

Экономичность

Масштабируемость

Быстрые запуски

Теперь не нужно проектировать хранение под конкретную задачу и ждать накопления данных. Хранение не требует трудоемкой специальной сортировки, подготовки и разметки.

Все данные уже в Data Lake. Появляется новая задача? Можно быстро запустить по ней процесс на имеющихся данных.
Без дорогостоящих лицензий и дорогих СХД, только нужное количество сравнительно бюджетных commodity-серверов.
Распределенная файловая система позволяет в любой момент подключить новые машины или узлы без изменения структуры БД или сложной перенастройки.
Новое приложение на данных за 2 недели — реальность.

Создаете ML-модель, делаете «витрину», используете полученную аналитику в бизнес-процессе.

В 2 РАЗА

В 3-20 РАЗ

В 3-5 РАЗ

ОТ 2 ДО 5 ДНЕЙ

меньше стоимость хранения и владения
меньше объем хранимых данных благодаря сжатию
быстрее Time to Market по запуску бизнес-инициатив и новых приложений
на запуск новых моделей машинного обучения для экспериментов с данными

Где это может применяться и уже применяется?

Но внедрение в продуктив потребует мощных ресурсов, которые
В пилотном режиме эти кейсы можно реализовать и в облаке.
предоставляет Data Lake

Как не превратить озеро данных в болото

Почему решение от Hortonworks (Cloudera)?

Hortonworks — готовый дистрибутив Open Source ПО (в т.ч. Hadoop).

Его лицензии бесплатны, поэтому решение на Hortonworks в 1.5—3.5 раза* дешевле ряда вендорских продуктов для Big Data из Gartner MQ for Data Management Solutions for Analytics.
Продукт работает почти «из коробки»: требуется лишь минимальная настройка компонентов.

В отличие от Open Source, у продукта есть поддержка вендора и интегратора, поэтому вы не останетесь один на один с проблемами.
Data Lake и Big Data на Hortonworks поддерживает работу с Self-Service BI.

Данные из Data Lake могут использовать не только дата сайентисты в своих моделях, но и сотрудники бизнес-подразделений, работая в Self-Service BI.

Ниже стоимость

Open Source без минусов

Self Service для бизнеса

Узнайте больше о том, как расширить хранлище (DWH) с помощью Data Lake, а также избежать превращения накопленных данных в неиспользуемое болото (риск, о котором с 2014 года говорит Gartner)
* стоимость зависит от задач и масштабов проекта, поэтому рассчитывается индивидуально

Нашей экспертизе по работе с данными и
высоконагруженными приложениями доверяют

Мы много пишем про работу с данными

Москва, ул. Большая Новодмитровская, д. 14, стр. 1
Офисный центр «Новодмитровский»
Продолжая использование настоящего сайта, вы выражаете своё согласие на обработку ваших персональных данных. Порядок обработки ваших персональных данных, а также реализуемые требования к их защите содержатся в Политике обработки ПДН. В случае несогласия с обработкой ваших персональных данных вы можете отключить сохранение cookie в настройках вашего браузера.