Перейти к содержанию

MAD

Алгоритм используется для определения аномалий в данных.

MAD - это медианное отклонение всех точек от их общей медианы. Оценка может рассчитываться как для всего массива данных, так и в указанном окне. Также MAD может рассчитываться для отдельных групп данных, ключом для групп будет одно или несколько полей в датасете.

Синтаксис команды

apply [median_absolute_deviation | mad] 
      [by=<by>] 
      [window_before=<window_before>] 
      [window_after=<window_after>] 
      [window=<window>] 
      [median=<median>] 
from <features>

Обязательные параметры:

  • features — список полей, для которых требуется подсчитать MAD. Список задается перечислением, например: from field1 field2

Опциональные параметры:

  • by - название поля или нескольких полей, по которым будут группироваться объекты в датасете, задается строкой. По умолчанию объекты не группируются.
  • median - параметр, который определяет должна ли медиана быть рассчитана точно или примерно. Примерное значение медианы вычисляется быстрее. Допустимые значения: approx (примерно), exact (точно). Значение по умолчанию: approx.
  • window_before - количество строк перед записью, которое будет учитываться при расчёте MAD, задается целым положительным числом. По умолчанию расчет в окне не применяется.
  • window_after - количество строк после записи, которое будет учитываться при расчёте MAD, задается целым положительным числом. По умолчанию расчет в окне не применяется.
  • window - количество строк до и после записи (симметричное окно), которое будет учитываться при расчёте MAD, задается целым положительным числом. По умолчанию расчет в окне не применяется.

Пример использования

На демонстрационных данных, содержащих давления, создаваемые на нагнетательных нефтяных скважинах, рассчитаем абсолютно медианное отклонение для значений среднего давления на каждом кусте.

Текст запроса

| fsget path=demo_press 
| apply mad by=__pad_num from avg_value_h
| fields - mad

Описание запроса

  • Команда fsget загружает данные из хранилища признаков.
  • Команда sample 0.1 оставляет 10% от всех загруженных строк. Это сделано для ускорения обучения (всего в обучающей выборке более 40 000 строк).
  • Команда apply применяет алгоритм к указанным полям: считает mad для среднего давления и группирует по номеру куста.

Результат запроса

После выполнения запроса будет создана дополнительная колонка avg_value_h_mad, в которой будет записан результат работы алгоритма. В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.

MAD

К началу