Перейти к содержанию

Масштабирование (scaling)

Метод используется для изменения соотношения между количеством экземпляров двух классов в датасете. Возможно сократить количество примеров из большего класса или дублировать примеры из меньшего по размеру класса.

Синтаксис команды

fit scaling <labels> 
    [scaler=<scaler>] 
    [with_mean=<with_mean>] 
    [with_std=<with_std>] 
    [min=<min>] 
    [max=<max>]

Обязательные параметры:

  • features — список полей, которые требуется масштабировать. Список задается перечислением, например: from field1 field2.

Опциональные параметры:

  • scaler - метод масштабирования данных: standard (z-score нормализация, z = (x - u) / s, где u - это среднее, s - это стандартное отклонение) или minmax (нормализация относительно заданного диапазона значений). Значение по умолчанию: standard.
  • with_mean - если true, при z-score нормализации вычитается среднее, если false, среднее не вычитается. Значение по умолчанию: true.
  • with_std - если true, при z-score нормализации значение делится на стандартное отклонение, если false, значение не делится. Значение по умолчанию: true.
  • min - минимальное значение диапазона, относительно которого производится масштабирование методом minmax. Значение по умолчанию: 0.0.
  • max - максимальное значение диапазона, относительно которого производится масштабирование методом minmax. Значение по умолчанию: 1.0.

Пример использования

На демонстрационных данных, содержащих давления, создаваемые на нагнетательных нефтяных скважинах, произведем масштабирование двух признаков.

Текст запроса

| fsget path=demo_train
| fit scaling scaler=minmax from p_buffer, p_plast
| head 100

Описание запроса

  • Команда fsget загружает данные из хранилища признаков.
  • Команда sample 0.1 оставляет 10% от всех загруженных строк. Это сделано для ускорения обучения (всего в обучающей выборке более 40 000 строк).
  • Команда fit выполняет обучение модели масштабирования.

Результат запроса

После выполнения запроса будут созданы дополнительные колонки с масштабируемыми величинами, в которых будут записаны результаты работы алгоритма. В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.

scaling

К началу