Сэмплирование
Метод используется, когда классы несбалансированы(элементов, принадлежащих одному классу, значительно больше, чем элементов другого класса). Sampling
сделает эти классы более сбалансированными.
Синтаксис команды
apply sampling <labels>
[fraction=<fraction>]
[with_replacement=<with_replacement>]
[method=<method>]
Обязательные параметры:
- labels - поле, по которому будет производиться сэмплирование (должно содержать всего 2 класса значений).
Опциональные параметры:
- method - метод, которым будут сбалансированы классы.
oversampling
- количество записей меньшего класса будет увеличено за счёт дублирования случайно выбранных записей.downsampling
- количество записей большего класса будет уменьшено за счёт отбрасывания случайно выбранных записей. Значение по умолчанию:downsampling
. - fraction - доля сэмплирования. Если
fraction
задана в диапазоне [0;1], то это доля от большего класса, которая будет взята при сэмплировании. Еслиfraction >1.0
, это коэффициент, на который будет умножено количество записей меньшего класса. - with_replacement - стратегия выбора записей для метода
downsampling
. Еслиwith_replacement=true
, то из датасета будут выбраны случайные записи с повторами. Еслиwith_replacement=false
, то записи будут выбраны без повторов. Значение по умолчанию:false
.
Пример использования
На демонстрационных данных, содержащих давления, создаваемые на нагнетательных нефтяных скважинах, рассчитаем абсолютно медианное отклонение для значений среднего давления на каждом кусте.
Текст запроса
| fsget path=demo_train
| where (pump_on_off=1 or pump_on_off=0.5)
| apply sampling pump_on_off
| top pump_on_off
Описание запроса
- Команда
fsget
загружает данные из хранилища признаков. - Команда
where
оставляет оставляет только те строки, где значение поляpump_on_off
равно 1 или 0.5. - Команда
apply
применяет алгоритм к указанныму полю. - Команда
top
выводит наиболее часто встречающиеся значения указанных полей(в нашем случае всего 2 значения), количество таких значений и их процент среди общего количества значений
Результат запроса
После выполнения запроса будут созданы дополнительные колонки с масштабируемыми величинами, в которых будут записаны результаты работы алгоритма. В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.