Skip To Content

Классификация на основе леса и регрессия

Инструмент Классификация на основе леса и регрессия создает модели и строящий прогнозы при помощи адаптации метода контролируемого машинного обучения произвольного леса Лео Бреймана. Прогнозы могут быть выполнены для обеих категориальных перемененных (классификация) и непрерывных переменных (регрессия). Описательные переменные могут иметь вид полей в атрибутивной таблице обучающих объектов. В дополнение к проверке производительности модели на основании обучающих данных, по объектам можно выполнять прогнозы.

Схема рабочего процесса

Схема рабочего процесса инструмента Классификация на основе леса и регрессия

Анализ с помощью Инструменты геоаналитики

Анализ, использующий Инструменты геоаналитики, выполняется с помощью технологии распределенной обработки на нескольких компьютерах и ядрах ArcGIS GeoAnalytics Server. Инструменты геоаналитики и стандартные инструменты анализа объектов в ArcGIS Enterprise имеют разные параметры и возможности. Более подробно об этих различиях см. в разделе Различия между инструментами анализа объектов.

Примеры

  • Имеются данные данные о наличии морских водорослей, а также ряд экологических независимых переменных, в дополнение к расстояниям до заводов вверх по течению и крупных портов. Появление морских водорослей в будущем может быть предсказано на основе прогнозов для тех же экологических независимых переменных.
  • Стоимость жилья можно спрогнозировать на основе цен домов, которые были проданы в текущем году. Цена домов при продаже, а также информация о числе спален, расстоянии до школ, близости автомагистралей, среднем доходе и числе преступлений могут быть использованы для прогноза продажной стоимости аналогичных домов.
  • Имеется информация об уровне свинца в крови детей и ID налогового участка их домов в сочетании с атрибутами уровня участка, такими как возраст дома, атрибутами уровня переписи населения, такими как доход и уровень образования, и национальный набор данных, отражающий выброс токсичных веществ свинца и его соединений. Можно спрогнозировать риск воздействия свинца для участков без данных об уровне свинца в крови. Эти прогнозы риска могут стимулировать политические и образовательные программы в области.

Примечания по использованию

Данный инструмент создает сотни деревьев, называемых множеством деревьев решений, чтобы построить модель, которую можно будет использовать для прогнозирования. Каждое из деревьев решений создается при помощи произвольно получаемых частей исходных (обучающих) данных. Каждое дерево строит собственный прогноз и становится предложением для итогового результата. Алгоритм модели леса рассматривает предложения от всех деревьев решений, чтобы спрогнозировать или классифицировать результат неизвестной выборки. Это важно, поскольку отдельные деревья могут иметь проблемы с чрезмерно близкой подгонкой модели; но объединение нескольких деревьев в лес для прогнозирования решает проблему чрезмерно близкой подгонки, связанную с одним деревом.

Этот инструмент можно использовать в двух режимах. Опцию Обучение модели для повышения производительности можно использовать для оценки производительности разных моделей при изучении различных независимых переменных и настроек инструментов. Как только найдена хорошая модель, можно использовать опцию Подгонка модели и прогнозирование значений. Он является инструментом, управляемым данными, и наилучшим образом работает с большими наборами данных. Для наилучшего результата обучение инструмента должно происходить хотя бы на нескольких сотнях объектов. Инструмент не подходит для очень маленьких наборов данных.

Входными обучающими объектами могут быть точечные, линейные или полигональные объекты. Инструмент не работает с составными объектами.

Пространственные объекты, имеющие одно или более значений null или пустые строковые значения в полях прогноза или в описательных полях, будут исключены из результатов. Если необходимо, вы можете изменить значения, используя инструмент Вычислить поле.

Инструмент создает множество выходных данных. Выходные данные зависят от режима работы:

  • Обучение модели для повышения производительности создает два типа выходных данных:
    • Выходные обучающие объекты - содержит все Входные обучающие оъекты, использованные в создаваемой модели, а также все описательные переменные модели. Также они содержат прогнозы для всех объектов, использованных для обучения модели, что может быть полезно при оценке эффективности созданной модели.
    • Итоговые сообщения инструмента - сообщения, которые помогают понять производительность созданной модели. В сообщения входит информация о характеристиках модели, не вошедших в набор ошибках, значимости переменных и диагностика проверки. Чтобы получить доступ к сводке результатов, щелкните Показать результаты Показать результаты под полученным слоем в Map Viewer. Сводная информация также добавляется на страницу информации об элементе.
  • Подгонка модели и прогнозирование значений создает три типа выходных данных:
    • Выходные обучающие объекты - содержит все Входные обучающие объекты, использованные в создаваемой модели, а также все описательные переменные модели. Также они содержат прогнозы для всех объектов, использованных для обучения модели, что может быть полезно при оценке эффективности созданной
    • Выходные прогнозируемые объекты - слой результатов прогноза. Прогнозы применяются к слою (Выберите слой для применения прогнозируемых значений), используя модель, сгенерированную из обучающего слоя.
    • Итоговые сообщения инструмента - сообщения, которые помогают понять производительность созданной модели. В сообщения входит информация о характеристиках модели, не вошедших в набор ошибках, значимости переменных и диагностика проверки. Чтобы получить доступ к сводке результатов, щелкните Показать результаты Показать результаты под полученным слоем в Map Viewer. Сводная информация также добавляется на страницу информации об элементе.

Можно использовать параметр Выходная таблица значимости переменных, чтобы создать таблицу для отображения диаграммы значимости переменных для оценки. Верхние 20 значений значимости переменных также показываются в окне сообщений. Диаграмма будет доступна ниже строки слоя в панели Содержание.

Описательные переменные могут поступать из полей и должны содержать разнообразные значения. Если независимая переменная является категориальной, следует включить опцию Категориальная (переменные строкового типа будут отмечены автоматически). Категориальные независимые переменные ограничены 60 уникальными значениями, хотя меньшее количество категорий улучшит производительность модели. Для данного размера данных, чем больше категорий содержит переменная, тем больше вероятность того, что она будет доминировать в модели и приведет к менее эффективным результатам прогнозирования.

При сопоставлении описательных переменных, Поле обучения и Поле прогноза должны быть одного типа (поле типа double в Поле обучения должно сопоставляться с полем типа double в Поле прогноза, например).

Модели на основе леса не выполняют экстраполяцию, они могут только классифицировать или прогнозировать значения, на которых обучалась модель. Обучение модели с помощью обучающих объектов и описательных переменных, которые находятся в пределах диапазона целевых объектов и переменных. Инструмент не сработает, если в независимых переменных прогнозирования, не представленных в обучающих объектах, существуют категории.

По умолчанию значение параметра Число деревьев равно 100. Увеличение числа деревьев в модели леса приведет к более точному прогнозированию модели, но модель будет дольше вычисляться.

Более подробно о работе этого инструмента и инструмента геообработки ArcGIS Pro, на котором он основан, см. в разделе Как работает инструмент Классификация на основе леса и регрессия.

Ограничения

Классификация на основе леса и регрессия в GeoAnalytics имеет следующие ограничения:

Пример ArcGIS API for Python

Инструмент Классификация на основе леса и регрессия доступен в ArcGIS API for Python.

В этом примере выполняется построение модели и прогнозируются продажи мороженого.


# Import the required ArcGIS API for Python modules import arcgis from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and check that GeoAnalytics is supported portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False) if not portal.geoanalytics.is_supported():
    print("Quitting, GeoAnalytics is not supported")    exit(1)   
# Find the big data file share dataset you're interested in using for analysis search_result = portal.content.search("", "Big Data File Share")
# Look through search results for a big data file share with the matching name bd_file = next(x for x in search_result if x.title == "bigDataFileShares_IceCreamSales")
# Run the tool Forest-based Classification and Regression to predict forest_model = arcgis.geoanalytics.analyze_patterns.forest(prediction_type = "train",	input_layer = bd_file, 	var_prediction = {"fieldName":"Amount", "categorical":true},
	var_explanatory = [{"fieldName":"Weekend", "categorical":true},{"fieldName":"Temperature", "categorical":false}, {"fieldName":"Holiday", "categorical":true}, {"fieldName":"DistanceToBeach", "categorical":false}],	sample_size = 50,	output_name = "ice_cream_prediction")

Похожие инструменты

Используйте инструмент ArcGIS GeoAnalytics Server Классификация на основе леса и регрессия для создания моделей и прогнозов при помощи адаптации метода контролируемого машинного обучения произвольного леса Лео Бреймана. Другие инструменты могут оказаться полезными для решения похожих, но немного отличающихся задач.

Инструменты анализа Map Viewer

Создайте модели и прогнозы с помощью инструмента ArcGIS GeoAnalytics Server Обобщенная линейная регрессия.

Инструменты анализа ArcGIS Desktop

Для запуска этого инструмента из ArcGIS Pro, вашим активным порталом должен быть Enterprise 10.7 или более поздний. Вход необходимо выполнить под учетной записью, имеющей права доступа для выполнения Анализа объектов GeoAnalytics.

Выполните схожие операции регрессии в ArcGIS Pro с помощью инструмента геообработки Классификация на основе леса и регрессия из набора Пространственная статистика.

Выполните Обобщенную линейную регрессию (ОЛР) для вычисления прогнозов или моделирования взаимосвязи между независимыми переменными и зависимой переменной в ArcGIS Pro с помощью инструмента геообработки Обобщенная линейная регрессия из набора Пространственная статистика.

Выполните Географически взвешенную регрессию (ГВР) в ArcGIS Pro с помощью инструмента геообработки Географически взвешенная регрессия из набора Пространственная статистика.