Масштабирование (scaling)
Метод используется для изменения соотношения между количеством экземпляров двух классов в датасете. Возможно сократить количество примеров из большего класса или дублировать примеры из меньшего по размеру класса.
Синтаксис команды
fit scaling <labels>
[scaler=<scaler>]
[with_mean=<with_mean>]
[with_std=<with_std>]
[min=<min>]
[max=<max>]
Обязательные параметры:
- features — список полей, которые требуется масштабировать. Список
задается перечислением, например:
from field1 field2
.
Опциональные параметры:
- scaler - метод масштабирования данных:
standard
(z-score нормализация,z = (x - u) / s
, гдеu
- это среднее,s
- это стандартное отклонение) илиminmax
(нормализация относительно заданного диапазона значений). Значение по умолчанию:standard
. - with_mean - если
true
, при z-score нормализации вычитается среднее, еслиfalse
, среднее не вычитается. Значение по умолчанию:true
. - with_std - если
true
, при z-score нормализации значение делится на стандартное отклонение, еслиfalse
, значение не делится. Значение по умолчанию:true
. - min - минимальное значение диапазона, относительно которого производится масштабирование методом
minmax
. Значение по умолчанию: 0.0. - max - максимальное значение диапазона, относительно которого производится масштабирование методом
minmax
. Значение по умолчанию: 1.0.
Пример использования
На демонстрационных данных, содержащих давления, создаваемые на нагнетательных нефтяных скважинах, произведем масштабирование двух признаков.
Текст запроса
| fsget path=demo_train
| fit scaling scaler=minmax from p_buffer, p_plast
| head 100
Описание запроса
- Команда
fsget
загружает данные из хранилища признаков. - Команда
sample 0.1
оставляет 10% от всех загруженных строк. Это сделано для ускорения обучения (всего в обучающей выборке более 40 000 строк). - Команда
fit
выполняет обучение модели масштабирования.
Результат запроса
После выполнения запроса будут созданы дополнительные колонки с масштабируемыми величинами, в которых будут записаны результаты работы алгоритма. В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.