Перейти к содержанию

Fill NA

Заполнение пропусков командой fillna позволяет исключить записи с пропусками, заполнить пропуски предыдущим известным или следующим известным значение, заполнить пропуски заданным числом или строкой. Метод работает с числовыми и строковыми данными.

Синтаксис команды

apply fillna 
      [missing_value=<missing_value>] 
      [strategy=<strategy>] 
      [drop_strategy=<drop_strategy>] 
      [fill_value=<fill_value>] 
      [new_columns=<new_columns>] 
from <features>

Обязательные параметры:

  • features — список полей, в которых требуется заполнить пропуски. Список задается перечислением, например: from field1 field2.

Опциональные параметры:

  • missing_value - значение, которым заполнены поля с пропусками. Все записи, содержащие это значение, будут заполнены. Записи, содержащие null всегда считаются записями с пропусками и всегда заполняются. Значение по умолчанию: Double.NaN
  • fill_value - когда стратегия заполнения = "const", то пропущенные значения заполняются заданным fill_value. Значение по умолчанию: 0.0 для пропусков числового типа и "missing" для пропусков строкового типа.
  • strategy - стратегия заполнения пропусков. Доступные значения: ffill, pad или filldown (заполнить предыдущим известным значением), bfill или backfill (заполнить следующим известным значением), const (заполнить fill_value), drop (исключить записи из датасета). Значение по умолчанию: ffill.
  • drop_strategy - методика исключения записей с пропусками из датасета. Если drop_strategy=all, то исключаются только строки, в которых все значения с пропусками. Если drop_strategy=any, то исключаются все строки, в которых есть хотя бы одно пропущенное значение. Значение по умолчанию: any.
  • new_columns - признак добавления новых полей. Если new_columns=true, то для всех стратегий, кроме drop, добавляются новые поля с суффиксом “_imputed”, старые поля с пропусками сохраняются. Если new_columns=false, то новые поля не добавляются, пропуски заполняются в старых полях. Значение по умолчанию: false.

Примеры использования

На демонстрационных данных, содержащих давления, создаваемые на нагнетательных нефтяных скважинах, рассчитаем абсолютно медианное отклонение для значений среднего давления на каждом кусте.

Текст запроса

| fsget path=demo_null
| apply fillna from avg_value_h
| fields - fillna, _c0

Описание запроса

  • Команда fsget загружает данные из хранилища признаков.
  • Команда apply применяет алгоритм к указанным полям: заполняет пропуски в поле avg_value_h.

Результат запроса

Т.к. по умолчанию drop_strategy=any, то после выполнения запроса строки с пустыми значениями будут удалены. В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.

fillna

К началу