Перейти к содержанию

Z-score

Алгоритм используется для определения аномалий в данных.

Z-Score - это мера относительного разброса исследуемых значений, которая показывает, сколько стандартных отклонений составляет разброс относительных средних значений. Это безразмерный статистический показатель. Z-Score используется для сравнения значений разной размерности. Оценка может рассчитываться как для всего массива данных, так и в указанном окне. Также z-score может рассчитываться для отдельных групп данных, ключом для групп будет одно или несколько полей в датасете.

Синтаксис команды

apply zscore 
      [by=<by>] 
      [window_before=<window_before>] 
      [window_after=<window_after>] 
      [window=<window>] 
      [with_mean=<with_mean>] 
      [with_std=<with_std>] 
from <features>

Обязательные параметры:

  • features — список полей, для которых требуется подсчитать Z-оценку. Список задается перечислением, например: from field1 field2

Опциональные параметры:

  • by - название поля или нескольких полей, по которым будут группироваться объекты в датасете, задается строкой. По умолчанию объекты не группируются.
  • with_mean - флаг для добавления поля со средними значениями в итоговый датасет, задается строкой “true” / ”false”. Значение по умолчанию with_mean=false.
  • with_std - флаг для добавления поля со среднеквадратичным отклонением в итоговый датасет, задается строкой “true” / ”false”. Значение по умолчанию with_std=false.
  • window_before - количество строк перед записью, которое будет учитываться при расчёте z-score, задается целым положительным числом. По умолчанию расчёт в окне не применяется.
  • window_after - количество строк после записи, которое будет учитываться при расчёте z-score, задается целым положительным числом. По умолчанию расчет в окне не применяется.
  • window - количество строк до и после записи (симметричное окно), которое будет учитываться при расчёте z-score, задается целым положительным числом. По умолчанию расчет в окне не применяется.

Пример использования

На демонстрационных данных, содержащих давления, создаваемые на нагнетательных нефтяных скважинах, определим относительный разброс значений среднего давления на ВРБ куста.

Текст запроса

| fsget path=demo_press 
| apply zscore from avg_value_h
| fields - zscore

Описание запроса - Команда fsget загружает данные из хранилища признаков. - Команда apply применяет алгоритм к указанным полям.

Результат запроса

После выполнения запроса будет создана дополнительная колонка zscore_avg_value_h, в которой будет записан результат расчета алгоритма. В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.

Z_score

К началу