Fill NA
Заполнение пропусков командой fillna
позволяет исключить записи с пропусками, заполнить пропуски предыдущим известным или следующим известным значение, заполнить пропуски заданным числом или строкой. Метод работает с числовыми и строковыми данными.
Синтаксис команды
apply fillna
[missing_value=<missing_value>]
[strategy=<strategy>]
[drop_strategy=<drop_strategy>]
[fill_value=<fill_value>]
[new_columns=<new_columns>]
from <features>
Обязательные параметры:
- features — список полей, в которых требуется заполнить пропуски.
Список задается перечислением, например:
from field1 field2
.
Опциональные параметры:
- missing_value - значение, которым заполнены поля с пропусками. Все записи, содержащие это значение, будут заполнены. Записи, содержащие null всегда считаются записями с пропусками и всегда заполняются. Значение по умолчанию:
Double.NaN
- fill_value - когда стратегия заполнения = "const", то пропущенные значения заполняются заданным
fill_value
. Значение по умолчанию: 0.0 для пропусков числового типа и "missing" для пропусков строкового типа. - strategy - стратегия заполнения пропусков. Доступные значения:
ffill
,pad
илиfilldown
(заполнить предыдущим известным значением),bfill
илиbackfill
(заполнить следующим известным значением),const
(заполнитьfill_value
), drop (исключить записи из датасета). Значение по умолчанию:ffill
. - drop_strategy - методика исключения записей с пропусками из датасета. Если
drop_strategy=all
, то исключаются только строки, в которых все значения с пропусками. Еслиdrop_strategy=any
, то исключаются все строки, в которых есть хотя бы одно пропущенное значение. Значение по умолчанию:any
. - new_columns - признак добавления новых полей. Если
new_columns=true
, то для всех стратегий, кроме drop, добавляются новые поля с суффиксом “_imputed”, старые поля с пропусками сохраняются. Еслиnew_columns=false
, то новые поля не добавляются, пропуски заполняются в старых полях. Значение по умолчанию:false
.
Примеры использования
На демонстрационных данных, содержащих давления, создаваемые на нагнетательных нефтяных скважинах, рассчитаем абсолютно медианное отклонение для значений среднего давления на каждом кусте.
Текст запроса
| fsget path=demo_null
| apply fillna from avg_value_h
| fields - fillna, _c0
Описание запроса
- Команда
fsget
загружает данные из хранилища признаков. - Команда
apply
применяет алгоритм к указанным полям: заполняет пропуски в полеavg_value_h
.
Результат запроса
Т.к. по умолчанию drop_strategy=any
, то после выполнения запроса строки с пустыми значениями будут удалены. В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.