例: エンドツーエンドのディープラーニングワークフロー—ArcGIS Notebook Server

通常、ディープラーニングモデルは大規模で、膨大な計算能力を必要とします。 TensorFlow Lite モデルのトレーニングと ArcGIS API for Python を統合することで、コンパクトでモバイルデプロイメントに適したディープラーニングモデルを作成できます。

このノートブックワークフローの例では、TensorFlow Lite フレームワークを使用してモバイルアプリケーション向けのディープラーニングモデルをトレーニングします。植物種を分類し、対応するファイルを作成して直接推論用にデプロイできるよう、ワークフローをトレーニングします。

要件

このワークフローを実行するには、次の要件を満たしている必要があります。

トレーニングデータセット - ラベル付けされた多様な植物種の画像で構成されます。
注意:
データセットのサイズは約 440 MB ですが、この例では、そのうちの 200 MB のみを使用します。トレーニングデータセットにアクセスできない場合、必要な形式で適切なトレーニングデータを生成するにはラスターサーバーが必要です。
このワークフローを実行するには、ノートブック環境の最大メモリーの上限を 15 GB に設定する必要があります。 Standard および Advanced のノートブック環境のメモリー上限は、デフォルトでそれぞれ 4 GB と 6 GB に設定されています。この上限を変更するには、管理者アクセス権限で ArcGIS Notebook Server Manager にサインインし、[設定] > [ランタイム] の順にクリックします。
注意:
このワークフローに必要なメモリー上限は、トレーニングデータのサイズによって異なります。
ディープラーニングは計算上の負荷が大きいため、大規模なデータセットを処理するには高性能 GPU を使用することをおすすめします。

Python ライブラリーのインポート

次の Python ライブラリーをインポートします。

#To enable TensorFlow as backend
%env ARCGIS_ENABLE_TF_BACKEND=1
 
import os
from pathlib import Path
 
from arcgis.gis import GIS
from arcgis.learn import prepare_data, FeatureClassifier
 
gis = GIS("home")

ワークスペースへのデータのアップロード

データセットを、images という名前のフォルダー内にラベル付けされた画像チップを含む .zip ファイルとして、ノートブックワークスペースの Files にアップロードします。

#Adding zipped file from workspace
#Use export_training_data() to get the training data
filepath = "/arcgis/home/train_200MB_a_tensorflow-lite_model_for_identifying_plant_species.zip"
 
#Extract zip
import zipfile
with zipfile.ZipFile(filepath, "r") as zip_ref:
   zip_ref.extractall(Path(filepath).parent)
 
#Get the data path
data_path = Path(os.path.join(os.path.splitext(filepath)[0]))
 
#Filter non-RGB images
from glob import glob
from PIL import Image
 
for image_filepath in glob(os.path.join(data_path, "images", "**","*.jpg")):
   if Image.open(image_filepath).mode != "RGB":
       os.remove(image_filepath)

データの準備

ArcGIS API for Python の prepare_data() 関数は、ディープラーニングワークフロー用のデータを準備します。この関数は、トレーニングサンプルを読み取り、トレーニングデータにさまざまな変換と拡張を適用することで、データ準備プロセスを自動化します。これらの拡張は、限られたデータでモデルをトレーニングできるようにし、モデルの過剰適合を防ぎます。

data = prepare_data(
    path=data_path,
    dataset_type="Imagenet",
    batch_size=64,
    chip_size=224
)

prepare_data() 関数のパラメーターの詳細については、arcgis.learn API リファレンスをご参照ください。

データの視覚化

データの準備が完了したら、show_batch() 関数を使用してそのサンプルを視覚化できます。

data.show_batch(rows=2)

モデルアーキテクチャの読み込み

arcgis.learn のフィーチャ分類器モデルは、各フィーチャのクラスを判定します。フィーチャ分類器には、次のパラメーターが必要です。

backbone - オプションの文字列。フィーチャ抽出に使用されるバックボーンの畳み込みニューラルネットワークモデルで、デフォルトは resnet34 です。サポートされるバックボーンには、ResNet ファミリーと backbones() から指定された Timm モデル (実験的なサポート) が含まれます。
backend - オプションの文字列。
このパラメーターは、このモデルで使用するバックエンドフレームワークを制御し、デフォルトは pytorch です。

model = FeatureClassifier(data, backbone="MobileNetV2", backend="tensorflow")

学習率の計算

ArcGIS API for Python は fast.ai の Learning Rate Finder を使用して、モデルのトレーニングに最適な学習率を見つけます。 lr_find() メソッドを使用して、堅牢なモデルをトレーニングするための最適な学習率を見つけます。モデルの最初の実行で学習率を決定した後、その後の実行で再トレーニング時に固定値として渡すことができます。

lr = model.lr_find()
#lr =  0.000691831 #from the first run

モデルの適合

fit() メソッドを使用してモデルをトレーニングします。このメソッドには、エポックパラメーターの入力が必要です。エポックは、モデルがトレーニングデータセット全体に公開される回数を定義します。各エポックで、モデルはデータに基づいて重みを学習および調整します。次の例では、テストの目的でモデルを 3 エポック実行しています。

正確なモデルを取得してデプロイメントするには、25 エポックから始めることをおすすめします。

model.fit(3, lr=lr)

結果の視覚化

ノートブックでモデルの結果を検証するには、show_results() メソッドを使用して、モデルの予測とランダムなグランドトゥルース画像を比較できます。

model.show_results(rows=4, thresh=0.2)

モデルの保存

トレーニング済みのモデルの精度を確認したら、将来のデプロイメント用に保存します。デフォルトでは、モデルはトレーニングデータフォルダー内の models サブフォルダーに .dlpk ファイルとして保存されます。

model.save("Plant-identification-25-tflite", framework="tflite")

モデルのデプロイ

これで、保存した .dlpk ファイルを他のデータセットとともに配置し、組織内で共有できるようになりました。 .dlpk ファイルの使用方法については、ディープラーニングを使用した航空写真での車両数のカウントをご参照ください。

このトピックへのフィードバック

要件

注意:

注意: