Решающее дерево
Расширение Decision Tree
команды fit
выполняет обучение алгоритма
дерева решений для задачи классификации. Decision Tree
- то алгоритм принятия решений, основанный на структуре "листьев" и "веток". На ветках дерева записаны признаки (features
), от которых зависит целевая функция (targetname
), а в листьях дерева записаны значения целевой функции при прохождении некоторого набора признаков (веток).
Синтаксис команды
fit dtc | decision_tree_classifier
[max_depth=<max_depth>]
[handle_na=<handle_na>]
<targetname> from <features> [into <modelname>]
Параметры
Обязательные параметры:
- targetname — имя поля, содержащее название параметра, который требуется спрогнозировать.
- features — список полей, на основе которых требуется выполнить прогноз.
Список задается через запятую, например:
from field1, field2
Опциональные параметры:
- max_depth — максимальная глубина деревьев. Значение по умолчанию - 5
- handle_na - параметр, определяющий действия с пропусками. Возможные значения -
drop
иkeep
. Значение по умолчанию -drop
(удалить пропуски) - modelname — название модели, с которым она будет сохранена в кэше. Чтобы сохранить модель в постоянное хранилище моделей для дальнейшего использования, используйте команду save.
Примеры использования
На демонстрационных данных с параметрами работы электрической сети спрогнозируем ее стабильность в зависимости от параметров работы сети(потребляемой и производимой мощности, коэффициента стабильности сети и длительности переходного процесса в сети, отражающего характер нагрузки).
Текст запроса
| fsget path=demo_electrical_grid
| fit dtc stabf from tau1, tau2, tau3, tau4, p1, p2, p3, p4, stab into dtc_model
| head 100
Описание запроса
- Команда
fsget
загружает данные из хранилища признаков. - Команда
fit
выполняет обучение моделиDecision Tree
и временно сохраняет модель под названиемdtc_model
. - Команда
head 100
выводит первые 100 строк таблицы после обучения.
Результат запроса
После выполнения запроса будут созданы дополнительные колонки
dtc_model_prediction
и probability
, в которых будет записан результат прогноза модели и вероятность на
обучающей выборке.
В результате выполнения запроса могут быть созданы дополнительные служебные поля с информацией об обученной модели или другими показателями.