Компания «Синимекс» среди призеров Aeroclub Challenge 2023
Команда компании «Синимекс» заняла второе призовое место в хакатоне компании Аэроклуб. Всего в двух этапах хакатона принимали участие 140 команд. После первого этапа 12 финалистов, прошедших отбор по лучшим технических метрикам, выступали с питч-презентацией перед экспертным жюри. Команде компании «Синимекс» удалось взять серебро в гонке решений.
Целью Aeroclub Challenge 2023 стало развитие сервиса из сегмента B2B – подбор авиабилетов для командировок с учетом пожеланий и ограничений заказчиков.
Процесс подбора авиабилетов для командировок исторически был построен с привлечением агентов по подбору, которые по заданным фильтрам и пожеланиям заказчика выбирали ТОП-5 предложений из примерно 200 вариантов. Задача хакатона – автоматизировать данный процесс, при этом не просто подобрать наилучшие опции перелета по мнению участников, а смоделировать поведение агента.
Участникам хакатона необходимо было учесть, что сервис должен ранжировать наборы рейсов с различными характеристиками от наиболее релевантных к наименее подходящим; и данная модель должна быть расширяемой для учета новых данных и действий агентов.
В качестве отправной точки участникам была передана история выбора ТОП-5 предложений среди всех подходящих по фильтрам. Исторические данные включали в себя информацию о маршруте, условиях перелета и уровне путешественника.
Команда компании «Синимекс» погрузилась в доменную область и обогатила исходную информацию данными об аэропортах, а также значительным количеством расчетных показателей, таких как время в пути, наличие джетлага при смене часовых поясов и многих других. После обогащения данных возник новый вызов при моделировании, а именно - как наилучшим образом разбить историческую информацию на подмножества для обучения, тестирования и валидации результатов моделирования.
Команда компании «Синимекс» выбрала подход Stratified Group Split, который позволил распределить группы таким образом, чтобы обучающая и валидационная выборка соответствовала распределению значениям исходных маршрутов. Кроме того, специалисты провели исследование по наиболее релевантным подходам и моделям для решения, в результате которого выбор остановился на библиотеке CatBoost от Яндекса. В целях оптимизации набора гипер-параметров команда использовала фреймворк Optuna.
Наиболее важными признаками оказались: время в пути, количество пересадок и стоимость перелета, а наличие багажа и авиакомпания заняли лишь 5-е и 12-е места в рейтинге важности признаков. А результатом работы команды стала модель, которая правильно ранжирует варианты, и в выдаче из 5-ти вариантов около 2-х являются релевантными для агента.
Основной ценностью предложенного решения является модульность процесса обогащения внешними данными для целевого домена, а также возможность интеграции решения в существующие системы. Решение может применяться в различных сферах: агрегаторы авиабилетов, гостиниц, жилого фонда и аренды транспорта; авиаперевозки и гостиничный бизнес, колл-центры и маркетплейсы.