Автоматическое машинное обучение — как оно работает, при чём здесь ламы и где учиться его использовать

Дневник админа
Автоматическое машинное обучение - как оно работает, при чём здесь ламы и где учиться его использовать

 

Автоматическое машинное обучение: как оно работает, какое отношение к нему имеют ламы и где узнать, как его применить

 

Специалистам по обработке данных и аналитикам необходимо выполнить множество рутинных задач — от трудоемкой подготовки данных до выяснения, какие методы и алгоритмы лучше всего работают с данными. И неважно, основные это задачи или вспомогательные — мы всегда тратим большую часть времени на рутину.

Чтобы ускорить процессы и позволить экспертам сосредоточиться на наиболее важных задачах, в Sber AI Lab мы создали фреймворк LightAutoML, сокращенно LAMA. Этот текст объяснит, как работает библиотека, почему она полезна для бизнеса и где вы можете узнать, как ее использовать.

Что такое LAMA и как он упрощает управление данными.

LAMA — это среда с открытым исходным кодом, которая может автоматически создавать модели обучения учителей. Изначально это решение было разработано для решения следующей проблемы: «Чтобы за 15 минут на ноутбуке мы могли построить модель машинного обучения на уровне среднего эксперта, которую затем можно было бы легко перенести в производство».

Последние решения, существовавшие на тот момент, были неэкономичными (требовали значительных ресурсов) и обременили ИТ-инфраструктуру. LAMA был достаточно легким, чтобы быть быстрым. Мы сами были удивлены, увидев, что каким-то образом нам удалось превзойти более тяжелые решения — на повторное тестирование у нас ушло больше месяца.

Для начала все, что вам нужно сделать, это настроить решение с помощью одной команды, загрузить набор данных (не обязательно табличный) и указать машине, что делать. Это означает, что вам нужно выбрать тип задания, целевую переменную, метрику качества, на которой нужно сосредоточиться, производительность машины и время — как быстро вы хотите получить результат. После этого остается только провести тренировку. Поддержка различных типов наборов данных и готовых данных — еще одна причина, по которой Sber выбрал собственное решение: LAMA работает с табличными данными, текстовыми данными, последовательностями и т. Д. 

 

Как выглядит поддержка на основе LAMA в ML Space — мы рассмотрим это ниже

 

LAMA умеет удалять данные самостоятельно. Например, он обрабатывает пропуски или определяет, имеет ли дело с категориальной или реальной переменной.

 

Результаты будут включать не только готовую «нестандартную» модель, но также результаты всех стартапов, которые имели место внутри, а также окончательный отчет о разработке. В соревнованиях результаты LAMA сопоставимы с результатами 10% лучших специалистов по данным, участников хакатонов и конкурсов. Но лучшие из лучших алгоритмов, какими бы хорошими они ни были, не могут их превзойти. Вы можете увидеть результаты в нашей статье.

Что наш "DS robot" LightAutoML уже умеет делать

Ramework может выполнять несколько типов задач.

Бинарная классификация. Когда вы хотите предсказать, существует ли для заемщика риск дефолта или какова вероятность отказа сложного оборудования в течение заданного периода времени. Он бинарный, потому что есть два варианта: да или нет.

Бинарная классификация.

Мультиклассовая классификация. Примером может служить классическая задача радужной оболочки глаза, которая послужила отправной точкой для ознакомления многих экспертов с машинным обучением. Он просит вас определить, какой сорт ириса вам интересен. Также сюда входит переадресация звонков с клиентами, выбор канала связи и другие задачи.

Регрессия , когда алгоритм предсказывает значение некоторого значения. Напримеропределяет стоимость квартиры в зависимости от ее характеристик или потребности в ресурсах того или иного типа в ближайший месяц.

Регрессия, когда алгоритм предсказывает стоимость определенное значение. Здесь мы построили модель и проверили ее за 20 минут, не написав ни единой строчки кода

Спектр задач, которые могут выполнять машины и наши «роботы DS», постоянно расширяется. В этом году, например, мы добавили задачу максимизировать влияние наших каналов коммуникации с клиентами за несколько кликов. Теперь давайте посмотрим, что умеет AutoML, а затем перейдем к для бизнес-кейсов.

AutoML отличается

Решения для автоматизации машинного обучения бывают самыми разными. Они могут быть специализированными, например, для задач компьютерного зрения и временных рядов, а также для общих, академических или промышленных целей. И у каждого из них своя ниша.

Академические решения, такие как TPOT, Oboe и FEDOT, отлично подходят для экспериментов. Они хорошо подходят для задач, в которых мало данных или время не критично.

Промышленные платформы, такие как H2O или AutoGluon, были разработаны для быстрых прикладных задач даже с относительно большими наборами данных. Как правило, они имеют фиксированные конвейеры и больше полагаются на эвристические подходы. Такие структуры автоматизируют создание моделей в широком смысле: отчеты, интегративные привязки и т. Д. Конечно, инновационные подходы, основанные на академических решениях, в конечном итоге находят свое отражение в промышленных средах, помогая решать бизнес-задачи.

Наше решение LAMA относится к промышленному классу.

Как (и где) можно использовать LAMA.

Когда мы создавали наше облачное решение, наши коллеги из SberCloud сказали: «Нам нужно что-то, чтобы выделить его из общей массы». Напоминаем, что ML Space — это платформа для разработки машинного обучения полного цикла. На нем программисты могут использовать технологию Sber и мощь нашего суперкомпьютера Christofari. 

Так выглядит Кристофари: именно здесь творится магия машинного обучения

Идея заключалась в том, чтобы перенести решение AutoML от Sber AI Lab в облако, что мы и сделали. Идея состоит в том, что клиенты могут работать с инструментом с открытым исходным кодом так, как им нравится, и, если они будут удовлетворены, они могут начать решать свои бизнес-задачи на облачной платформе. Там всесторонне обсуждается автоматизация создания моделей, от интеграции с источниками данных до управления моделями. <рисунок>.

 
Автоматическое машинное обучение - как оно работает, при чём здесь ламы и где учиться его использовать

В ML Space все задачи собраны в одном месте: легко отслеживать эксперименты и результаты

Эксперименты в Sber показали, что простое — даже радикальное — ускорение создания модели (с нескольких рабочих дней до часов или минут) сокращает время двух рыночных бизнес-задач с использованием машинного обучения в среднем на 20%. Поэтому мы сосредоточились на комплексной автоматизации всех наиболее важных этапов и, прежде всего, на быстрой реализации — бесшовной интеграции с логическим выводом в пространстве ML. По нашим расчетам, это сокращает time2market на 50%.

Мы и мои коллеги из SberCloud пытались создать удобный интерфейс, добавляли и настраивали популярные фреймворки и библиотеки. Конечно, мы также позаботились о сотрудничестве и защите данных: «Cristofari находится в дата-центре Сколково (дата-центр), который имеет сертификат Tier III. Tier Standard от Uptime Institute — признанный центр обработки данных, а наш Cristofari — защищен от сбоев, вторжений, перегрева и пожаров.

Платформа уже используется клиентами. Например, рынок бронирования поездок GetTransfer использует преимущества ML Space.и доступная там технология позволила получить модель, которая прогнозирует вероятность заключения контракта между изменяющимся клиентом и перевозчиком, который вызвался обработать его заказ. Еще один клиент — клининговая компания «Домовёнок». Его программисты, используя нашу LAMA, создали систему, которая генерирует список наиболее важных подрядчиков для каждого заказа. В 57% случаев в пятерку рекомендованных подрядчиков входили люди, которых фактически отправили для выполнения заказа. Отзывы коллег были следующие: «Отличный результат, учитывая небольшой объем данных, которые мы использовали для обучения модели».

Сбер использует LAMA несколько лет, и наши аналитики и ученые привыкли к этому инструменту. Но когда мы увидели интерес к разработке со стороны компаний и независимых разработчиков, мы решили рассказать им об этом подробнее. Поэтому мы сначала создали рамочный учебный курс, а затем присоединились к летней школе, организованной российским сообществом ОРВ.

От курса к летней школе: как мы учим пользоваться LAMA (и одновременно улучшаем фреймворк)

Сначала мы запустили. Он состоит из девяти веб-семинаров, на которых студенты могут узнать, как работает наш фреймворк, и попытаться решить ряд проблем. с его помощью. Кстати, в сентябре мы возобновили курс — вы можете принять в нем участие уже сейчас: А чтобы не пропустить другие интересные новости, подписывайтесь на.

Курс с самого начала был разработан для профессионалов любого уровня подготовки и подготовки. Мы ожидали, что новички-аналитики или программисты поймут, как создать рабочую модель с помощью нескольких строк кода, а профессионалы смогут настроить LAMA для создания лучших и быстрых решений. Ведь, как и ожидалось, на курсах присутствовали люди от опытных специалистов по данным из крупных компаний до студентов. <рисунок>

Это был семинар по устранению неполадок

Мы сосредоточились на практике: разработали задачи с текстом, картинками и табличными данными для регрессии и классификации. Кстати, участники не только их решали, но и соревновались. В ходе курса 68 команд предложили более 900 решений — очень хороший результат для мероприятия такого формата. Всего в первом туре курса приняли участие 1495 человек.

Нас поддержали коллеги из СберУниверситета и Академии технологий и науки о данных, и мы благодарны им за помощь и всестороннюю поддержку. <рисунок> <цитата>.

Кто участвовал в курсе

Сотрудники Сбера составили 33,6%

23,5% студентов и стажеров

42,9 % сотрудников сторонних компаний

Среди слушателей курса было более 30% участников. . .

Курс был отличным, поэтому мы занялись еще одним образовательным проектом — летней школой ODS. Знаменитый ежегодник был передан в Интернет, и сообщество проводит множество различных образовательных мероприятий.

У LAMA была летняя школа — мы провели три хакатона. Все три были с открытым исходным кодом с целью улучшения технологий. Участники могли провести исследование и реализовать новую функциональность для LAMA в области дистилляции, выбора функций или реализовать любую задачу по своему выбору. В итоге я получил два полных запроса пула к библиотеке — отличный результат впервые. У участников была возможность реализовать функциональные возможности LAMA в двух категориях: «Дистилляция» и «Произвольная задача». Мы собираемся включить их работы в новую редакцию, а соавторы получили от нас гаджеты. Недавно мы создали страницу, где будем собирать новости о новых событиях и соревнованиях. Одно из них происходит прямо сейчас.

В качестве примечания, ссылка на наш репозиторийявляется . Напоминаем, что это фреймворк с открытым исходным кодом, и мы хотели бы видеть звезды в нашем git. Больше лайков — больше ресурсов для разработки с открытым исходным кодом. Для Sber, кстати, это наш первый опыт проведения академической лицензии на разработку ИИ и, в некотором смысле, управленческий эксперимент, поэтому нам важно поделиться этой историей.

 

Оцените статью