Local Outlier Factor
Алгоритм используется для определения выбросов в данных.
Оценка для каждого объекта называется Local Outlier Factor (LOF)
. Оценка зависит от того, насколько изолировано располагается объект относительно своих k ближайших соседей.
- LOF ≈1 ⇒ не является выбросом
- LOF ≫1 ⇒ выброс
Этот алгоритм подходит, если расстояние между значениями в признаках равнозначны либо нормированы. Рекомендуется перед использованием нормировать датасет.
Синтаксис команды
apply [lof | local_outlier_factor]
[min_pts=<min_pts>] from <features>
Обязательные параметры:
- features — список полей, для которых требуется подсчитать
LOF
оценку. Список задается перечислением, например:from field1 field2
.
Опциональные параметры:
- min_pts - минимальное кол-во точек-соседей, по которым определяется LOF исследуемого объекта, задается положительным целым числом. Значение по умолчанию
min_pts=5
.
Пример использования
На демонстрационных данных, содержащих давления, создаваемые на нагнетательных нефтяных скважинах, определим выбросы в значениях среднего давления на ВРБ куста.
Текст запроса
| fsget path=demo_press
| apply lof min_pts=3 from avg_value_h
Описание запроса
- Команда
fsget
загружает данные из хранилища признаков. - Команда
apply
применяет алгоритм к указанным полям.
Результат запроса
После выполнения запроса будет создана дополнительная колонка lof_result
, в которой будет записан результат расчета алгоритма.
В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.