Перейти к содержанию

Imputer

Заполнение пропусков командой imputer позволяет заполнить пропуски средним или медианным значением поля и сохранить эти значения для заполнения других датасетов. Метод работает только с числовыми данными.

Синтаксис команды

fit imputer 
    [missing_value=<missing_value>] 
    [strategy=<strategy>] 
    [new_columns=<new_columns>] 
from <features>

Обязательные параметры:

  • features — список полей, в которых требуется заполнить пропуски. Список задается перечислением, например: from field1 field2.

Опциональные параметры:

  • missing_value - значение, которым заполнены поля с пропусками. Все записи, содержащие это значение, будут заполнены. Записи, содержащие null всегда считаются записями с пропусками и всегда заполняются. Значение по умолчанию: Double.NaN
  • strategy - стратегия заполнения пропусков. Доступные значения: mean (заполнить средним значением колонки) и median (заполнить медианным значением). Значение по умолчанию: mean.
  • new_columns - признак добавления новых полей. Если new_columns=true, то для всех стратегий, кроме drop, добавляются новые поля с суффиксом "_imputed", старые поля с пропусками сохраняются. Если new_columns=false, то новые поля не добавляются, пропуски заполняются в старых полях. Значение по умолчанию: false.

Примеры использования

На демонстрационных данных, содержащих давления, создаваемые на нагнетательных нефтяных скважинах, рассчитаем абсолютно медианное отклонение для значений среднего давления на каждом кусте.

Текст запроса

| fsget path=demo_press
| fit imputer strategy=median missing_value=0 new_columns=true from avg_value_h
| where __pad_num=96
| fields - imputer

Описание запроса

  • Команда fsget загружает данные из хранилища признаков.
  • Команда fit выполняет алгоритм, который заполняет пропуски в указанном столбце.
  • Команда where оставляет данные только для куста 96.
  • Команда head 100 выводит первые 100 строк таблицы после обучения.

Результат запроса

После выполнения запроса будет создано новое поле, где нулевые значения будут заполнены медианными. В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.

Imputer

К началу