MAD
Алгоритм используется для определения аномалий в данных.
MAD
- это медианное отклонение всех точек от их общей медианы.
Оценка может рассчитываться как для всего массива данных, так и в указанном окне. Также MAD
может рассчитываться для отдельных групп данных, ключом для групп будет одно или несколько полей в датасете.
Синтаксис команды
apply [median_absolute_deviation | mad]
[by=<by>]
[window_before=<window_before>]
[window_after=<window_after>]
[window=<window>]
[median=<median>]
from <features>
Обязательные параметры:
- features — список полей, для которых требуется подсчитать MAD. Список задается перечислением, например: from field1 field2
Опциональные параметры:
- by - название поля или нескольких полей, по которым будут группироваться объекты в датасете, задается строкой. По умолчанию объекты не группируются.
- median - параметр, который определяет должна ли медиана быть рассчитана точно или примерно. Примерное значение медианы вычисляется быстрее. Допустимые значения:
approx
(примерно),exact
(точно). Значение по умолчанию:approx
. - window_before - количество строк перед записью, которое будет учитываться при расчёте MAD, задается целым положительным числом. По умолчанию расчет в окне не применяется.
- window_after - количество строк после записи, которое будет учитываться при расчёте MAD, задается целым положительным числом. По умолчанию расчет в окне не применяется.
- window - количество строк до и после записи (симметричное окно), которое будет учитываться при расчёте MAD, задается целым положительным числом. По умолчанию расчет в окне не применяется.
Пример использования
На демонстрационных данных, содержащих давления, создаваемые на нагнетательных нефтяных скважинах, рассчитаем абсолютно медианное отклонение для значений среднего давления на каждом кусте.
Текст запроса
| fsget path=demo_press
| apply mad by=__pad_num from avg_value_h
| fields - mad
Описание запроса
- Команда
fsget
загружает данные из хранилища признаков. - Команда
sample 0.1
оставляет 10% от всех загруженных строк. Это сделано для ускорения обучения (всего в обучающей выборке более 40 000 строк). - Команда
apply
применяет алгоритм к указанным полям: считает mad для среднего давления и группирует по номеру куста.
Результат запроса
После выполнения запроса будет создана дополнительная колонка avg_value_h_mad
, в которой будет записан результат работы алгоритма.
В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.