Гуржиев Алексей Сергеевич - Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации стр 4.

Шрифт
Фон

Далеко не все данные, которые попадают на серверы компании, представлены в удобном для использования виде. Поэтому «склады» этих данных разделяют на несколько типов, между которыми непрерывно перекачивается информация, изменяя свою форму (или, говоря профессиональным языком, формат). Первый склад называется «озеро данных» (с английского Data Lake). В него попадает вообще все, во всех возможных форматах. Там могут находиться файлы текстовых документов PDF или DOC вперемешку с JPEG-изображениями и MP4-видеофайлами. Как можно догадаться, если бессистемно поставлять подобные потоки информации в хранилище и не определить заранее, как и куда сохранять, то озеро данных очень быстро превратится в болото. Чтобы этого не произошло, нужен специальный программист, он же «инженер по данным». А если быть совсем точным, «директор по данным» (с английского Chief Data Officer). Он следит как за порядком на этом «водохранилище», так и за правами доступа к нему. Весь процесс называется «управление данными» (с английского Data Governance).

Итак, озеро данных это первый «склад», куда попадает информация. После чего начинается процесс ее трансформации в более удобные формы для последующего размещения в следующем складе под названием «хранилище данных» (с английского Data Warehouse). Сам процесс преобразования информации и ее перемещения между «складами» называется ETL (англ. термин Extract, Transform, Load дословно «извлечение, преобразование, загрузка»). И в конце, когда данные оказываются в хранилище в удобной для чтения форме, с ними уже могут начинать работать другие специалисты. На основе этих данных строят графики, их анализируют, на них тренируют модели машинного обучения, а также используют их для построения статистики и бизнес-отчетов.

Обычно ETL-процессы автоматизируются специальными программами, которые пишут инженеры по данным. К примеру, каждый квартал компания скачивает публичный бухгалтерский отчет конкурентов в PDF-формате. Делается это для того, чтобы держать руку на пульсе, следить за рынком. Очевидно, что в такой ситуации невозможно попросить конкурента выкладывать информацию в более удобном формате. Поэтому инженер по данным пишет программу, которая сначала скачивает PDF-файл в «озеро данных», потом достает пару-тройку нужных значений из него и сохраняет в «хранилище». После чего обновляет графики, которые строятся по этим данным. И в конце удаляет исходный PDF-файл из озера. Подобная программа срабатывает по расписанию, автоматически, непрерывно доставляя свежую информацию руководству и аналитикам. А в хранилище не остается больших ненужных файлов, все преобразуется в максимально компактный и удобный вид.

Машинное обучение

Итак, мы определились как со способом хранения данных, так и с причиной их преобразования в более удобный и компактный формат. Но остались вопросы: какова цель хранения данных, почему их не стоит удалять по прошествии длительного времени, зачем их бесконечно копить? Кратко на эти вопросы можно ответить так: собранные «большие данные» нужны для обучения машин. После прохождения такого обучения компьютеры способны прогнозировать параметры спроса, предлагать меры по улучшению продуктов и услуг, а также выдвигать идеи для построения новых стратегий по продажам. Наличие подобных обученных машин ведет к увеличению прибыли, снижению издержек производства, улучшению бизнес-процессов, и, как следствие всего этого, компания начинает теснить своих конкурентов.

Попробуем понять принцип машинного обучения с помощью небольшого примера. Предположим, в компьютер загрузили фотографии собаки. Затем машине сказали: «Это фотографии собаки». Компьютер запомнит такой образ собаки и само слово. Для контроля этих знаний надо провести экзамен загрузить в машину фото другой собаки. И компьютер, используя созданную во время обучения логическую модель, скажет: «С вероятностью 95 % это похоже на собаку». Если тренирующий машину специалист будет удовлетворен таким уровнем точности ответа, он завершит обучение и сохранит текущее состояние машины в файл, чтобы воспользоваться им при необходимости в будущем. В этом файле натренированной модели машинного обучения находится логика определения собак по изображению на фотографии. При этом данную модель можно улучшить в будущем, переобучить: сделать ее более точной, используя больше изображений.

Готовая модель с созданной в процессе обучения логикой сохраняется в файл, в память компьютера. Это делается специально, чтобы в следующий раз, когда понадобится прогноз, не приходилось проводить обучение с самого нуля. Обратите внимание, что тренировка машины похожа на процесс обучения человека: чтобы получить качественное образование, необходимо выполнить как можно больше контрольных, пройти много тестов и сдать кучу экзаменов. В случае с изображениями собаки, для достижения более-менее уверенного распознавания потребуется показать машине тысячи фотографий с этими и другими животными. Такой процесс обучения может растянуться на несколько дней даже на мощных компьютерах. А вот само предсказание с помощью готовой модели занимает считанные доли секунды. И может осуществляться на ограниченных вычислительных ресурсах, даже на мобильных телефонах. При этом файл модели редко превышает размер в пару сотен мегабайт.

Часто можно услышать еще такие термины как «нейронное программирование» и «глубокое обучение» (с английского Deep Learning). По сути, это способы построения логики, которые находятся под «капотом» у модели машинного обучения. Конечному пользователю готовой модели абсолютно все равно, как проводилось обучение: будь то «нейронное программирование», «дерево решений» или что-то связанное с «глубоким обучением». Главное, чтобы это была действительно обученная (натренированная) модель с хорошей предсказательной силой (высокой вероятностью верного ответа). А выбор методов по ее построению и тренировке это задача специалистов. Ведь с точки зрения тех, кто использует готовые модели, все работает одинаково. Это как с автомобилями они такие разные, но у всех у них есть педаль газа и тормоза. Поэтому, если услышите термины «нейронное программирование» и «глубокое обучение», знайте, что это все то же «машинное обучение».

Кто использует машинное обучение в бизнесе

Чтобы оценить необходимость использования машинного обучения в бизнесе, достаточно взглянуть на лидеров рынка, которые в подавляющем большинстве уже активно его применяют[2] и, по данным консалтинговой компании McKinsey & Company, делают это практически во всех возможных областях (от ретейла и туризма до фармакологии и электрогенерации) и почти в 4 раза чаще, чем остальные фирмы. Судя по такой существенной разнице, машинное обучение является одним из основных инструментов, которыми должна уметь пользоваться организация, если она стремится выбиться в лидеры.

По данным аналитиков, после внедрения машинного обучения у компаний в среднем себестоимость производства снижается на 1020 %, а выручка растет на 510 % в зависимости от сферы деятельности. Это невероятная выгода. Поэтому почти 70 % лидеров рынка говорят о том, что машинное обучение является частью их стратегии и у них составлены многолетние корпоративные планы по его дальнейшему развитию.

Бытует мнение, что при внедрении машинного обучения придется нанимать много сотрудников для поддержания работы созданных систем. Но по статистике лишь 30 % компаний придется увеличить штат на 3 %. И только у 5 % он вырастет на 10 %. При этом в фирмах, связанных с тяжелой промышленностью, общее количество сотрудников, наоборот, уменьшится на 310 %.

Ваша оценка очень важна

0
Шрифт
Фон

Помогите Вашим друзьям узнать о библиотеке

Скачать книгу

Если нет возможности читать онлайн, скачайте книгу файлом для электронной книжки и читайте офлайн.

fb2.zip txt txt.zip rtf.zip a4.pdf a6.pdf mobi.prc epub ios.epub fb3