Перейти к содержанию

Сэмплирование

Метод используется, когда классы несбалансированы(элементов, принадлежащих одному классу, значительно больше, чем элементов другого класса). Sampling сделает эти классы более сбалансированными.

Синтаксис команды

apply sampling <labels> 
      [fraction=<fraction>] 
      [with_replacement=<with_replacement>] 
      [method=<method>]

Обязательные параметры:

  • labels - поле, по которому будет производиться сэмплирование (должно содержать всего 2 класса значений).

Опциональные параметры:

  • method - метод, которым будут сбалансированы классы. oversampling - количество записей меньшего класса будет увеличено за счёт дублирования случайно выбранных записей. downsampling - количество записей большего класса будет уменьшено за счёт отбрасывания случайно выбранных записей. Значение по умолчанию: downsampling.
  • fraction - доля сэмплирования. Если fraction задана в диапазоне [0;1], то это доля от большего класса, которая будет взята при сэмплировании. Если fraction >1.0, это коэффициент, на который будет умножено количество записей меньшего класса.
  • with_replacement - стратегия выбора записей для метода downsampling. Если with_replacement=true, то из датасета будут выбраны случайные записи с повторами. Если with_replacement=false, то записи будут выбраны без повторов. Значение по умолчанию: false.

Пример использования

На демонстрационных данных, содержащих давления, создаваемые на нагнетательных нефтяных скважинах, рассчитаем абсолютно медианное отклонение для значений среднего давления на каждом кусте.

Текст запроса

| fsget path=demo_train
| where (pump_on_off=1 or pump_on_off=0.5)
| apply sampling pump_on_off
| top pump_on_off

Описание запроса

  • Команда fsget загружает данные из хранилища признаков.
  • Команда where оставляет оставляет только те строки, где значение поля pump_on_off равно 1 или 0.5.
  • Команда apply применяет алгоритм к указанныму полю.
  • Команда top выводит наиболее часто встречающиеся значения указанных полей(в нашем случае всего 2 значения), количество таких значений и их процент среди общего количества значений

Результат запроса

После выполнения запроса будут созданы дополнительные колонки с масштабируемыми величинами, в которых будут записаны результаты работы алгоритма. В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.

sampling

К началу