A ferramenta Classificação e Regressão baseada em Floresta cria modelos e gera previsões utilizando uma adaptação do algoritmo de floresta aleatório de Leo Breiman, o qual é um método de aprendizagem de máquina supervisionada. As previsões podem ser realizadas para variáveis categóricas (classificação) e contínuas (regressão). As variáveis explanatórias podem tomar a forma de campos na tabela de atributos das feições de treinamento. Além da validação da performance do modelo baseado nos dados de treinamento, as previsões podem ser feitas para as feições.
Diagrama do fluxo de trabalho
Análise utilizando GeoAnalytics Tools
A análise usando GeoAnalytics Tools é executada usando processamento distribuído através de múltiplas máquinas e núcleos do ArcGIS GeoAnalytics Server . GeoAnalytics Tools e ferramentas de análise da feição padrão no ArcGIS Enterprise têm diferentes parâmetros e recursos. Para aprender mais sobre estas diferenças, consulte Diferenças da ferramenta da análise de feição.
Exemplos
- Considerando os dados sobre a ocorrência de ervas marinhas, como também, um número de variáveis ambientais explanatórias, além da distancie para fábricas a montante e principais portos, futura ocorrência de ervas marinhas pode ser prevista com base em projeções futuras para estas mesmas variáveis explanatórias ambientais.
- Os valores da habitação podem ser previstos com base nos preços das casas que foram vendidas no ano em curso. O preço de venda das casas vendidas, juntamente com informações sobre o número de quartos, a distância das escolas, a proximidade das principais rodovias, a renda média e a contagem de crimes podem ser utilizados para prever preços de venda de casas semelhantes.
- As informações fornecidas sobre os níveis de sangue de crianças e o ID de lotes de imposto de suas casas, combinou com atributos de nível de lotes, como idade da casa, dados de nível de censo, tais como, renda e níveis de educação, e conjunto de dados nacionais refletindo lançamento tóxico de combinações principais, o risco de exposição principal dos lotes sem dados de nível de sangue principais podem ser previstos. Estas previsões de risco podem informar políticas e programas de educação na área.
Anotações de uso
Esta ferramenta cria centenas de árvores, chamadas de um conjunto de árvores de decisão, para criar um modelo que pode então ser utilizado para previsão. Cada árvore de decisão é criada utilizando porções geradas dos dados originais (treinamento) aleatoriamente. Cada árvore gera sua própria previsão e vota em um resultado. O modelo de floresta considera votos de todas árvores de decisão para prever ou classificar os resultados de uma amostra desconhecida. Isto é importante, como árvores individuais podem ter problemas com ajuste de um modelo; entretanto, combinar árvores múltiplas em uma floresta para endereços de previsão do problema de ajuste associado com uma árvore única.
Esta ferramenta pode ser utilizada em dois modos de operação. A opção Treinar um modelo para avaliar o desempenho do modelo pode ser utilizado para avaliar o desempenho de modelos diferentes ao explorar variáveis explicativas diferentes e configurações de ferramenta. Após um bom modelo ter sido localizado, você pode utilizar a opção Ajustar um modelo e prever valores . Esta é uma ferramenta de dados dinâmicos e executa melhor em conjunto de dados grandes. A ferramenta deve ser treinada em pelo menos cem feições para melhores resultados. Não é uma ferramenta apropriada para conjunto de dados muito pequeno.
As Feições de Treinamento de Entrada podem ser feições de tabelas, pontos, linha ou de área. Esta ferramenta não funciona com dados de partes múltiplas.
Recursos com um ou mais valores nulos ou valores de string vazios em campos de previsão ou explanatórios serão excluídos da saída. Se necessário, você pode modificar os valores utilizando Calcular Campo.
Esta ferramenta produz uma variedade de saídas. As saídas produzidas variam dependendo do modo de operação como seguem:
- Treinar um modelo para avaliar o desempenho do modelo produz as duas saídas seguintes:
- Feições de treinamento de saída—Contém todas as Feições de Treinamento de Entrada utilizado no modelo criado como também todas as variáveis explicativas no modelo. Também contém previsões para todas as feições para treinar o modelo, que pode ser útil ao avaliar o desempenho do modelo criado.
- Mensagens de resumo da ferramenta—Mensagens para ajudar você a entender o desempenho do modelo criado. As mensagens incluem informações sobre as características do modelo, erros, importância de variável e diagnósticos de validação. Para acessar o resumo de seus resultados, clique em Mostrar Resultados na camada resultante no Map Viewer. As informações sumárias também estão adicionadas à página de detalhes do item.
- Ajustar um modelo e prever valores produz as três saídas seguintes:
- Feições de treinamento de saída—Contém todas as Feições de Treinamento de Entrada utilizado no modelo criado como também todas as variáveis explicativas no modelo. Também contém previsões para todas as feições para treinar o modelo, que pode ser útil ao avaliar o desempenho do modelo criado.
- Feições previstas de saída—Uma camada de resultados previstos. As previsões são aplicadas à camada para prever (Escolher a camada para prever valores) utilizando o modelo gerado a partir da camada de treinamento.
- Mensagens de resumo da ferramenta—Mensagens para ajudar você a entender o desempenho do modelo criado. As mensagens incluem informações sobre as características do modelo, erros, importância de variável e diagnósticos de validação. Para acessar o resumo de seus resultados, clique em Mostrar Resultados na camada resultante no Map Viewer. As informações sumárias também estão adicionadas à página de detalhes do item.
Você pode utilizar o parâmetro Tabela de Importância de Variável de Saída para criar uma tabela para exibir um gráfico de importância de variável para avaliação. Os 20 valores de importância de variável superiores também são reportados na janela de mensagens. O gráfico pode ser diretamente acessado abaixo da camada no painel Conteúdo .
As variáveis explicativas podem ser provenientes de campos e devem conter uma variedade de valores. Se a variável explicativa for categórica, a caixa de seleção Categórica deve ser marcada (variáveis de tipo string serão marcadas automaticamente). As variáveis explicativas categóricas são limitadas a 60 valores únicos, entretanto, um número menor de categorias melhorará o desempenho do modelo. Para um tamanho de dados fornecido, quanto mais categorias uma variável contiver, mais ela irá dominar o modelo e levar a resultados de previsão menos efetivos.
Ao combinar variáveis explicativas, o Campo de Treinamento e Campo de Previsão deve ter campos que sejam do mesmo tipo (um campo duplo no Campo de Treinamento deve ser combinado com um campo duplo no Campo de Previsão por exemplo).
Os modelos baseados em floresta não extrapolam; eles podem somente classificar ou prever um valor em que o modelo foi treinado. Treine o modelo com feições de treinamento e variáveis explicativas que estão dentro da faixa de suas feições de alvo e variáveis. A ferramenta falhará se houver categorias nas variáveis explicativas de previsão que não foram apresentas nas feições de treinamento.
O valor padrão deste parâmetro Número de Árvores é 100. O aumento do número de árvores no modelo de floresta resultará em um previsão do modelo mais precisa, mas o modelo demorará mais para calcular.
Para saber mais sobre como esta ferramenta funciona e a ArcGIS Pro ferramenta de geoprocessamento na qual esta implementação é baseada, consulte Como funciona a ferramenta Classificação e Regressão baseada em Floresta.
Limitações
A implementação de GeoAnalytics da Classificação e Regressão baseada em Floresta tem as seguintes limitações:
- O conjunto de dados de feição (pontos, linhas, polígonos e tabelas) são suportados como entrada. Rasters não são suportados.
- Uma camada única para treinamento e uma camada única para previsão são suportadas. Para combinar conjuntos de dados múltiplos em um, utilize as ferramentas Construir Grade de Múltiplas Variáveis e Enriquecer de Grade de Múltiplas Variáveis para gerar os dados de entrada.
Exemplo de ArcGIS API for Python
A ferramenta Classificação e Regressão baseada em Florestas está disponível no ArcGIS API for Python.
Este exemplo constrói um modelo e prevê vendas de sorvete.
# Import the required ArcGIS API for Python modules
import arcgis
from arcgis.gis import GIS
# Connect to your ArcGIS Enterprise portal and confirm that GeoAnalytics is supported
portal = GIS("https://myportal.domain.com/portal", "gis_publisher", "my_password", verify_cert=False)
if not portal.geoanalytics.is_supported():
print("Quitting, GeoAnalytics is not supported")
exit(1)
# Find the big data file share dataset you'll use for analysis
search_result = portal.content.search("", "Big Data File Share")
# Look through the search results for a big data file share with the matching name
bdfs_search = next(x for x in search_result if x.title == "bigDataFileShares_SaleData")
# Look through the big data file share for ice cream sales data
icecream_sales = next(x for x in bdfs_search.layers if x.properties.name == "IceCreamSales")
# Run the Forest-based Classification and Regression tool
forest_model = arcgis.geoanalytics.analyze_patterns.forest(prediction_type = "train",
input_layer = icecream_sales,
var_prediction = {"fieldName":"Amount", "categorical":true},
var_explanatory = [{"fieldName":"Weekend", "categorical":true},
{"fieldName":"Temperature", "categorical":false},
{"fieldName":"Holiday", "categorical":true},
{"fieldName":"DistanceToBeach", "categorical":false}],
sample_size = 50,
output_name = "ice_cream_prediction")
Ferramentas semelhantes
Utilize a ferramenta Classificação e Regressão baseada em floresta do ArcGIS GeoAnalytics Server para gerar previsões ou modelar utilizando uma adaptação do algoritmo de floresta aleatório de Leo Breiman. Outras ferramentas podem ser úteis para solucionar problemas semelhantes, mas ligeiramente diferentes.
Ferramentas de análise do Map Viewer
Crie modelos e previsões utilizando a ferramenta ArcGIS GeoAnalytics Server Regressão Linear Generalizada .
Ferramenta de análise do ArcGIS Desktop
Para executar a ferramenta do ArcGIS Pro, o portal ativo deve ser Enterprise 10.7 ou posterior. Você deve registrar no portal utilizando uma conta que tenha privilégios para executar GeoAnalytics Análise de Feição.
Execute as operações de regressão semelhantes no ArcGIS Pro com a ferramenta de geoprocessamento Classificação e Regressão baseada em floresta como parte da caixa de ferramentas Estatística Espacial.
Execute Regressão Linear Generalizada (GLR) para gerar previsões ou modela uma variável dependente em termos de sua relação com um conjunto de variáveis explanatórias no ArcGIS Pro com a ferramenta de geoprocessamento Regressão Linear Generalizada na caixa de ferramentas Estatística Espacial.
Execute Regressão Geograficamente Ponderada (GWR) no ArcGIS Pro com a ferramenta de geoprocessamento Regressão Geograficamente Ponderada na caixa de ferramentas Estatística Espacial.