Z-score
Алгоритм используется для определения аномалий в данных.
Z-Score
- это мера относительного разброса исследуемых значений, которая показывает, сколько стандартных отклонений составляет разброс относительных средних значений. Это безразмерный статистический показатель. Z-Score
используется для сравнения значений разной размерности.
Оценка может рассчитываться как для всего массива данных, так и в указанном окне. Также z-score может рассчитываться для отдельных групп данных, ключом для групп будет одно или несколько полей в датасете.
Синтаксис команды
apply zscore
[by=<by>]
[window_before=<window_before>]
[window_after=<window_after>]
[window=<window>]
[with_mean=<with_mean>]
[with_std=<with_std>]
from <features>
Обязательные параметры:
- features — список полей, для которых требуется подсчитать Z-оценку. Список задается перечислением, например: from field1 field2
Опциональные параметры:
- by - название поля или нескольких полей, по которым будут группироваться объекты в датасете, задается строкой. По умолчанию объекты не группируются.
- with_mean - флаг для добавления поля со средними значениями в итоговый датасет, задается строкой “true” / ”false”. Значение по умолчанию
with_mean=false
. - with_std - флаг для добавления поля со среднеквадратичным отклонением в итоговый датасет, задается строкой “true” / ”false”. Значение по умолчанию
with_std=false
. - window_before - количество строк перед записью, которое будет учитываться при расчёте z-score, задается целым положительным числом. По умолчанию расчёт в окне не применяется.
- window_after - количество строк после записи, которое будет учитываться при расчёте z-score, задается целым положительным числом. По умолчанию расчет в окне не применяется.
- window - количество строк до и после записи (симметричное окно), которое будет учитываться при расчёте z-score, задается целым положительным числом. По умолчанию расчет в окне не применяется.
Пример использования
На демонстрационных данных, содержащих давления, создаваемые на нагнетательных нефтяных скважинах, определим относительный разброс значений среднего давления на ВРБ куста.
Текст запроса
| fsget path=demo_press
| apply zscore from avg_value_h
| fields - zscore
Описание запроса
- Команда fsget
загружает данные из хранилища признаков.
- Команда apply
применяет алгоритм к указанным полям.
Результат запроса
После выполнения запроса будет создана дополнительная колонка zscore_avg_value_h
, в которой будет записан результат расчета алгоритма.
В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.