Перейти к содержанию

Local Outlier Factor

Алгоритм используется для определения выбросов в данных.

Оценка для каждого объекта называется Local Outlier Factor (LOF). Оценка зависит от того, насколько изолировано располагается объект относительно своих k ближайших соседей.

  • LOF ≈1 ⇒ не является выбросом
  • LOF ≫1 ⇒ выброс

Этот алгоритм подходит, если расстояние между значениями в признаках равнозначны либо нормированы. Рекомендуется перед использованием нормировать датасет.

Синтаксис команды

apply [lof | local_outlier_factor] 
      [min_pts=<min_pts>] from <features> 

Обязательные параметры:

  • features — список полей, для которых требуется подсчитать LOF оценку. Список задается перечислением, например: from field1 field2.

Опциональные параметры:

  • min_pts - минимальное кол-во точек-соседей, по которым определяется LOF исследуемого объекта, задается положительным целым числом. Значение по умолчанию min_pts=5.

Пример использования

На демонстрационных данных, содержащих давления, создаваемые на нагнетательных нефтяных скважинах, определим выбросы в значениях среднего давления на ВРБ куста.

Текст запроса

| fsget path=demo_press 
| apply lof min_pts=3 from avg_value_h

Описание запроса

  • Команда fsget загружает данные из хранилища признаков.
  • Команда apply применяет алгоритм к указанным полям.

Результат запроса

После выполнения запроса будет создана дополнительная колонка lof_result, в которой будет записан результат расчета алгоритма. В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.

LOF

К началу