DATA LAKE И BIG DATA ПОД КЛЮЧ

Строим озера данных для быстрой аналитики и машинного обучения. Учим правильно использовать их для решения бизнес-задач
Инфосистемы Джет

Хотят зарабатывать и экономить, используя данные

Транспорт
Авиакомпании
Медицина
Страхование
Ритейл
E-commerce
Промышленность
Производство
Финтех
Банки
Нефтегазовый сектор
Добывающий сектор

Для этого нужно уметь

Быстро их обрабатывать с помощью аналитики и машинного обучения
Хранить вместе большие объемы неструктурированных (аудио, видео, фото, текстов, логов) и структурированных данных

Почему не подходят классические хранилища данных (Data Warehouse, DWH)?

Хранилище и его логическая модель не эластичны — перепроектирование и модернизация DWH под запуск новых приложений могут занимать до 6 месяцев.

После модернизации данные нужно накопить — это еще от 6 до 12 месяцев.

Бизнесу же все чаще нужно проверять на данных новые гипотезы.
В DWH очень легко и быстро обрабатывать структурированные данные.

Но если загрузить туда фото и видео, то анализировать их будет невозможно без инструментов обработки, декомпозиции и подготовки под работу ML-алгоритмов.
Чтобы база данных работала хорошо с большим объемом, надо купить дорогостоящее оборудование.

Это много доп. настроек и работ, плюс проблемы с архивированием в будущем.

А долгий срок модернизации DWH означает большие затраты на дорогостоящих специалистов.

Долго

Сложно

Затратно

Пришла эра Data Lake

Готовность ко всему

Экономичность

Масштабируемость

Быстрые запуски

Теперь не нужно проектировать хранение под конкретную задачу и ждать накопления данных. Хранение не требует трудоемкой специальной сортировки, подготовки и разметки.

Все данные уже в Data Lake. Появляется новая задача? Можно быстро запустить по ней процесс на имеющихся данных.
Без дорогостоящих лицензий и дорогих СХД, только нужное количество сравнительно бюджетных commodity-серверов.
Распределенная файловая система позволяет в любой момент подключить новые машины или узлы без изменения структуры БД или сложной перенастройки.
Новое приложение на данных за 2 недели — реальность.

Создаете ML-модель, делаете «витрину», используете полученную аналитику в бизнес-процессе.

В 2 РАЗА

В 3-20 РАЗ

В 3-5 РАЗ

ОТ 2 ДО 5 ДНЕЙ

меньше стоимость хранения и владения
меньше объем хранимых данных благодаря сжатию
быстрее Time to Market по запуску бизнес-инициатив и новых приложений
на запуск новых моделей машинного обучения для экспериментов с данными

Где это может применяться и уже применяется?

Промышленность
Предсказание брака на конвейере и определение его причины — предотвращение до 39% брака

Оптимизация расхода дорогостоящих ферросплавов при выплавке стали — до 300 млн рублей экономии в год

Ускорение движения стальных слябов по прокатному стану — экономия до 30 млн рублей в год за счет увеличения объема проката

Мониторинг износа и амортизации оборудования (ТОИР) — до 9% экономии на обслуживании
Нефть и газ
Разведка залежей газа по анализу кроны деревьев, растительности и ландшафта на базе спутниковой и аэрофотосъемки

Анализ видеозаписей с дронов для обнаружения нелегальных врезок в трубопроводы — снижение потерь от мошенничества до 35%

Анализ видеозаписей с дронов для обнаружения утечек из трубопроводов — оперативное реагирование на инциденты, снижение потерь до 42%
Финансы и банки
Прогнозирование ухода клиентов — предотвращение оттока от 10 до 80% клиентов (в зависимости от таргета)

Прогноз необходимого остатка наличных средств в кассах и банкоматах с детализацией до устройства — точность более 99,6%

Рекомендации next best action для сотрудников фронт-офиса и операторов контакт-центра — рост доп. продаж (cross-sell, up-sell)
Страхование
Анализ фотографий страховых случаев с вычислением ущерба и выявлением мошенничества — до 300 млн рублей экономии

Анализ данных телеметрии лизинговых автомобилей — снижение аварий на 10%, снижение стоимости страховок до 23%, снижение потерь на амортизации до 12%

Контроль телеметрии грузовых авто — снижение аварийности до 6%

Анализ видеозаписей из кабин грузовых авто — снижение аварийности до 12%
Транспорт
Оптимизация складских остатков и повышение индекса оборачиваемости на 5−10%

Анализ данных телеметрии лизинговых автомобилей — снижение аварий на 10%, снижение стоимости страховок до 23%, снижение потерь на амортизации до 12%

Контроль телеметрии грузовых авто — снижение аварийности до 6%

Анализ видеозаписей из кабин грузовых авто — снижение аварийности до 12%
Ретейл и е-commerce
Динамическая сегментация клиентской базы — поиск «золотого» сегмента клиентов, покупающих значительно больше остальных

Прогнозирование покупок — вплоть до SKU с точностью 33%

Товарные рекомендации по анализу чека и истории покупок — рост продаж до 15%

Анализ поведения клиентов на сайте в реальном времени и спасение «брошенных» корзин — рост конверсии до 10%

Оценка чувствительности к цене c точностью до 97%

Построение цепочек поставок продукции — экономия топлива до 5%, снижение износа автопарка до 12%

Анализ фото и видеозаписей товаров на полках — ускорение процесса мерчендайзинга с 40 до 3 минут на магазин / точку, снижение ФОТ и расходов на мерчендайзинг до 45%
Персонал
Анализ работы и коммуникации сотрудников для предсказания и предотвращения увольнений — до 15% экономии на процессах найма и обучения

Анализ видеозаписей на предмет нарушения правил техники безопасности — сокращение кол-ва инцидентов и снижение объема страховых выплат на 5−30%

Анализ фото и видеозаписей товаров на полках — ускорение процесса мерчендайзинга с 40 до 3 минут на магазин / точку, снижение ФОТ и расходов на мерчендайзинг до 45%
Обслуживание клиентов
Анализ голосовых записей работы операторов контакт-центра

Анализ текстовых сообщений общения сотрудников — ускорение работы quality division, сокращение ФОТ до 30%

Семантический анализ отзывов и обращений клиентов — сокращение ФОТ quality division и контакт-центра до 10%

Анализ видеозаписей работы сотрудников — ускорение работы quality division, учет времени присутствия сокращает ФОТ до 12%

Анализ видеозаписей на качество обслуживания — рост NPS на 5−20%
Маркетинг
Товарные рекомендации истории покупок — рост продаж до 15%

Анализ поведения клиентов на сайте в реальном времени и спасение «брошенных» покупок — рост конверсии до 10%

Анализ фото и видеозаписей товаров конкурентов на полках — снижение стоимости и ускорение подготовки промоакций, а также повышение их качества
Производство
Распознавание номеров и колесных пар вагонов — точность до 99% при скорости движения 50 км/ч и ясной погоде, снижение потерь и мошенничества на 3−10%

Анализ снимков сварок для автоматизации неразрушающего контроля — снижение количества брака до 32%

Контроль качества изготовления лопаток турбин высокого давления для газотурбинных двигателей — снижение количества брака до 19%
Безопасность
Анализ видеозаписей на предмет проникновения на объекты — рост количества оперативно предотвращенных инцидентов в 1,5−5 раз

Анализ видеозаписей с дронов для обнаружения нелегальных врезок в трубопроводы — снижение потерь от мошенничества до 35%

Анализ видеозаписей на предмет мошенничества — предотвращение потерь на 1−5% товарооборота и уменьшение недостачи на 0,5−2% и более
Но внедрение в продуктив потребует мощных ресурсов, которые
В пилотном режиме эти кейсы можно реализовать и в облаке.
предоставляет Data Lake

Связаться с нами

Почему решение от Hortonworks (Cloudera)?

Hortonworks — готовый дистрибутив Open Source ПО (в т.ч. Hadoop).

Его лицензии бесплатны, поэтому решение на Hortonworks в 1.5—3.5 раза* дешевле ряда вендорских продуктов для Big Data из Gartner MQ for Data Management Solutions for Analytics.
Продукт работает почти «из коробки»: требуется лишь минимальная настройка компонентов.

В отличие от Open Source, у продукта есть поддержка вендора и интегратора, поэтому вы не останетесь один на один с проблемами.
Data Lake и Big Data на Hortonworks поддерживает работу с Self-Service BI.

Данные из Data Lake могут использовать не только дата сайентисты в своих моделях, но и сотрудники бизнес-подразделений, работая в Self-Service BI.

Ниже стоимость

Open Source без минусов

Self Service для бизнеса

Разговор важен, чтобы лучше понять ваши цели
и вместе выбрать лучшую из возможных реализаций Data Lake и Big Data.
* стоимость зависит от задач и масштабов проекта, поэтому рассчитывается индивидуально
Связаться с нами

Нашей экспертизе по работе с данными и
высоконагруженными приложениями доверяют

Статьи
ЧТО МОЖЕТ ДАТЬ «ОЗЕРО ДАННЫХ» БИЗНЕСУ.PDF

КАК НЕ УТОПИТЬ ВАШИ ДАННЫЕ В БОЛОТЕ.PDF

MediaMetrics

Кибер-тех. Большие данные и машинное обучение
http://radio.mediametrics.ru/kiber-teh/56 840/

РБК
Как избежать потерь при внедрении AI-решений в бизнес-процессы
https://plus.rbc.ru/specials/ai_in_business

Коммерсантъ
Вложиться в интеллект
https://www.kommersant.ru/doc/3 752 158

Искусственный интеллект поднимут за три года
https://www.kommersant.ru/doc/3 479 798

Forbes
Пройти мимо: почему в России катастрофически мало применяется искусственный интеллект
https://www.forbes.ru/tehnologii/363 405-proyti-mimo-pochemu-v-rossii-katastroficheski-malo-primenyaetsya-iskusstvennyy

Гонка технологий. Как искусственный интеллект помогает бизнесу
https://www.forbes.ru/tehnologii/354 727-gonka-tehn…

Habr
Как мы в хакатоне AI. HACK победили, или Когда нужно выключить искусственный интеллект и включить естественный
https://habr.com/ru/company/-jetinfosystems/blog/41…

В чём мерить будем? Как выбрать правильные ML-метрики под задачи бизнеса
https://habr.com/ru/company/-jetinfosystems/blog/42…

ПО для машинного обучения на Python
https://habr.com/ru/company/-jetinfosystems/blog/415 997/

Что дает рознице машинное обучение: пример проекта
https://habr.com/ru/company/-jetinfosystems/blog/43…

Выкупят/не выкупят: наш ML-пилот в «Утконосе»
https://habr.com/ru/company/-jetinfosystems/blog/445 190/

Как рассадить всех по науке и не превратить кабинет в рассадник ненависти
https://habr.com/ru/company/-jetinfosystems/blog/448 648/

Профиль
Время шевелить электронными мозгами
https://profile.ru/scitech/vremya-shevelit-elektronnymi-mozgami-3597/

CNews
Машинное обучение, или Как бизнес практикует прикладную магию
http://www.cnews.ru/reviews/bi_-bigdata_2017/interviews/-evgenij_kolesnikov

Ведомости
Правительство займется искусственным интеллектом для Путина
https://www.vedomosti.ru/-technology/articles/2019/…

New Retail
Зачем ритейлеру машинное обучение? 7 «железных» причин
https://new-retail.ru/tehnologii/zachem_riteyleru_-mashinnoe_obuchenie5677/

Национальный банковский журнал
Jet Detective: больше, чем антифрод
http://nbj.ru/publs/upgrade-modernizatsija-i-razvitie/2017/03/22/jet-detective-bol-she-chem-antifrod/index.html

Мы много пишем про работу с данными

Москва, ул. Большая Новодмитровская, д. 14, стр. 1
Офисный центр «Новодмитровский»