フローチャート 知識

決定木分析(ディシジョンツリー)とは?

初心者向け| 決定木作成ソフトEdrawMax

決定木、ビジネスの場とは意思決定の連続です。具体的に多数派の顧客ニーズを掘り下げて次の行動に繋げることもそうですし、概念として方向性を見定め損失をいかに起こさないようにするかも意思決定です。いずれにせよ、モデル構造を特定の理論的側面から導出するのではなく、実証的な観測結果から決定木で基準を定め行動に繋げようとすることが適切な意思決定といえます。そこで今回は判断基準を定めるのに適している決定木分析をご紹介いたしましょう。そして、この高次元なアルゴリズムを含めながらも多くの人に可視化し質の良いコミュニケーションを提供するEdrawMaxで描く決定木をご紹介いたします。

Part 1: 決定木分析とは

AI 識別

① 定義

今回ご紹介する決定木分析をビジネスの場に適応させるまでどのような経緯をたどるかをまずは大枠をご説明いたしましょう。決定木分析は「すべての諸問題に対してほかの識別器より識別性能がよい識別器は存在しない」というノーフリーランチ定理を前提に、問題を対処しようとするパターン認識の識別器として存在しています。この定理は問題領域が規定されても一つの識別器ではよい性能が得られない場合を示し、またそのような場合に対処する方法の一つとして複数の識別器を組み合わせる方法を提示しています。その中でも簡単な識別器を組み合わせることをアンサンブル学習というのですが、複雑な識別境界を構成する分析手法として決定木があり、識別性能を強化するアルゴリズムとしてバギング、ブースティング、ランダムフォレストなどがあげられます。

決定木例

上図ABは機械学習のランダムフォレストのアルゴリズムを用いた決定木分析具体例で頻出の「アヤメ分類」をPythonで実装した図になります。簡潔に言えば散布図にどの識別器を用いれば分類できるのかを決めることができるのが分析木です。がく片の長さと幅を組み合わせて分類したAあるいは花びらの長さと幅を組み合わせて分類したBかどちらが正確に分類できているでしょうか。この例でいえばBです。つまりこの基準を決め可視化させるのが決定木なのです。

ツリーの視覚化

基準を決める決定木は、データの説明変数を用いたルールで木を逆さにしたようなデータ構造をもち、分岐を作り、特徴空間を分割することを通じて判別や回帰を行うモデルのことを指します。モデルの種類はエントロピーと呼ばれる分割指標を用いて決定木を構築していくアルゴリズムがC4.5(5.0)そして、ジニ係数を用いるのがCARTと呼ばれています。(モデルの種類については利用シーンと例にてご説明いたします)

決定木分析は統計学の検定関連分野においてノンパトメリックで教師あり学習に分類されます。ノンパトメリックとは母数(パラメーター)によらないことを意味し解析の対象データに一切の分布を仮定しないことを表し、これは統計量の求め方で差異として現れます。パラメタリック検定が母集団の分布がある特定の分布に従うことがわかっているデータに対して行われる検定法であるのに対し、ノンパラメタリック検定はその前提を仮定しない代わりに全データまたは各水準等における各データの大小の順位、つまり順序尺度を利用しています。

今回は上図、機械学習のランダムフォレストのアルゴリズムを用いた決定木分析具体例で頻出の「アヤメ分類」をPythonで実装し、高次元判別が具体的にビジネスにどのように使われるかを例示しながら、最終的にビジネスをわかりやすく視覚的に誰にでも伝えられるErdawMaxをご紹介していきます。

モデル構築

プライバシー保護 | マルウェアなし | 広告なし

② メリット

  • 機械学習や深層学習の中でもブラックボックス化しやすく可視化しづらい分析手法とは違い基準と過程がわかりやすく可視化できることがあげられます。

  • 決定木は説明変数を情報利得が最大化するように分類します。情報利得とは親ノードから子ノードへグループを分けたときに得られる情報量という意味を表すのですが(情報量と不純度は同じ概念として考えられることができるのでこのように呼ばれています。) この利得が最大化するように分類することで、その要素から脱線せず、高い分散値つまり青写真を追うのではなく、未来図を明確に分類することができるように行うことができるのです。つまり、決定木とは可読性が高いモデルであるというのが最大のメリットになります。

  • また、決定木はニューラルネットワークの他手法とは違い情報を正規化する必要がなく、数値をそのまま使えるというのも使用しやすくメリットといえます。


プライバシー保護 | マルウェアなし | 広告なし

③ 構成要素(記号)

決定木は情報利得が最大化するように分類されるのがメリットであったように、構成する要素も少ないので容易に使えるようになれます。
主な構成要素はノードと呼ばれ正方形や丸で示されます。正方形は決定を表し丸は結果の不確かさを表します。これを分岐(線)でつなぎ、結果を導きます。

決定木記号

ノードからは少なくとも2本の分岐が伸びています。これらの線のそれぞれに考えうる解決策を加え次のノードへつなぎます。可能性がこれ以上なくなるという点までこの作業を続けて結果を表す三角形を付け加えます。

決定木テンプレート

プライバシー保護 | マルウェアなし | 広告なし

④ 利用シーンと例

決定木分析を用いた機械学習導入具体例として「アヤメ分類」があります。このアヤメ分類とはアヤメのがく片や花びら幅や長さの数値を用いてアヤメ属の種類を分類するという目的のもと決定木を利用して視覚的に相手に伝わりやすいよう可視化する技法の一つです。

マインドマップ英単語マインドマップ英単語

決定木は機械学習の分野においては予測モデルにあたりある事項に対する観察結果からその事項の目標値に関する結論を導くモデルを指します。内部の節点は変数に対応し子である節点への枝はその変数の取りうる閾値を示します。決定木に対し、ランダムフォレストと呼ばれる機械学習のアルゴリズムがあります。この所以は、ランダムサンプリングされたトレーニングデータによって学習した多数の決定木を使用することによります。
また今回のアヤメ分類では分割指数ジニ係数を用いてCARTというアルゴリズムを使用していますがここで決定木で使われる分割指数とアルゴリズムをご紹介しておきましょう。

分析指標交差エントロピー(逸脱度)とアルゴリズムC4.5(5)

エントロピーとは物事の乱雑さを測る指標のことを指します。決定木分析は情報利得が最大化するように分類されるのがメリットであるごとをご紹介しました。ノードの不純度が低ければ乱雑さを測るエントロピーの値は0になり不純度が高くなればエントロピーの値が大きくなります。つまりここから、エントロピーを使うことでノードの不純度を数値化でき分析指標として用いられアルゴリズムとして作用する所以をつかんで頂けるのではないでしょうか。

不純度を表す関数
不純度を表す関数

分析指標ジニ係数とアルゴリズムCART

ジニ不純度とは計量経済学の分野で社会における所得分配の均衡と不均衡を表す指標として使用例があるものです。エントロピー同様ノードの不純度が最も低ければジニ不純度の値は0になり、高くなるほどジニ係数の値は1に漸近します。この分析指標を用いて決定木を構築するアルゴリズムがCARTというわけです。このCARTを用いた分析で気を付けたいことは構築された木の深さが深いほど複雑なデータを扱うことが可能になりますが、過学習の可能性がありメリットである情報利得の最大化に悪影響ができ管理しづらい状況になりえます。そのため、事前に木の深さを制限したり、木を生成した後に枝を選定するようにしましょう。

不純度を表す関数
不純度を表す関数

では本題に戻りましょう。この高次元判別からわかった「アヤメ分類」から何がわかるのでしょうか。

アヤメ分類

つまり説明変数から目的変数を予測したわけです。これは実際のビジネスではこのデータをもとに正解のないデータから予習をし予測した正解を付与して出力するわけですが、機械学習のランダムフォレストアルゴリズムがこの予測した正解に当てはまり、それから取り出したデータを分析木としてわかりやすくかつ説得させるモデルとして可視化することで提示するのですから、この決定木がビジネスの場日おいていかに重要な分析でかつ理解しやすくビジネスの場において有効であるのは一目瞭然でしょう。

プライバシー保護 | マルウェアなし | 広告なし


Part 2: 決定木分析の基本やり方の概要

これまでにご説明してきた決定木分析を具体的なビジネスシーンを用いてご紹介いたしましょう。どの業種にも共通ですが決定木分析は説明変数を用いて目的変数を予測するものです。ビジネスの場においてはこれを分析対象に対して適用し、得られる効果を予測すると言い換えることができます。これに従い、どのような業種・業態が何を分析対象にしどのような効果が得られるのかをご紹介いたします。

GMS・CVS・流通小売業全般

分析対象:CRMデータ、購買履歴・ダイレクトメールへの応答ログ

効果:

  • サービス購入動機の把握
  • サービス離脱原因の把握
  • 来客数予測と供給量の調整
  • 顧客の嗜好、選択基準の把握
  • 顧客セグメンテーションによるマーケティングの最適化


外食産業

分析対象:来店者属性別購買履歴

効果:

  • サービス購入動機の把握
  • サービス離脱原因の把握
  • 来客数予測と供給量の調整
  • 顧客の嗜好、選択基準の把握
  • 顧客セグメンテーションによるマーケティングの最適化

金融サービス

分析対象:定期預金加入者属性
       金融商品購買履歴

効果:

  • サービス購入動機の把握
  • サービス離脱原因の把握
  • 来客数予測と供給量の調整
  • 顧客の嗜好、選択基準の把握
  • 顧客セグメンテーションによるマーケティングの最適化

通信サービス・工業製品

分析対象:機器故障デ-タ
       不良品データ
       生産管理システムデータ

効果:

  • 通信障害や機器故障原因の把握
  • 不良品を生む要因の把握
  • 不良品率の予測と生産計画の精度向上

業種別に分析対象と効果を並べてみました。いずれにせよビジネスの場で決定木は他の分析と組み合わせて使われる例が多いのではないでしょうか。例えば、SOMという教師なしニューラルネットワークアルゴリズムで高次元データを二次元平面上へ非線形写像するデータ解析方法があるのですが、それには方向性がなく軸の解釈がされません。それに基準を設ける時に決定木が使われるのです。
以上はビジネスの場で有効な分析木の適応例をご紹介しました。このようなアルゴリズムを含んだ例をご紹介した上で情報を共有し意見を求める際に利用できるより身近で視覚的な分析木の一例をご紹介いたしましょう。

決定木テンプレート

こちらの図は体の不調を訴える患者Aに対してどのような処置を行い、どの薬を処方すればいいのかを分析木分析で可視化したものになります。視覚的に非常にわかりやすいです。それに加え、この誰にでも伝わるわかりやすい決定着分析の裏付けにはどれほどの高次元がなされているでしょう。この高次元アルゴリズムを可視化した決定木分析によって、処置は患者Aに対して2通りの準備がなされどちらが適した処置であるかを表示し、独りよがりにならず意見交換ができ本当に適した処置が選択されるでしょう。

プライバシー保護 | マルウェアなし | 広告なし


まとめ

ランダムフォレストを用いて実際にPythonで実装した上で、決定木が高次元分析を裏付けにして基準を示す重要な分析であることをご紹介できたのではないでしょうか。EdrawMaxでは誰にでも視覚的で扱いやすく、自分の考えを相手に伝えるのに最適なツールといえます。誰にでも簡潔に目的を示し、意見を交換する場において複雑なデータは出番ではないのです。より質の良いコミュニケーションをEdrawMaxはお約束いたします。

フローチャートを無料で書くならEdrawMax(エドラマックス)
プライバシー保護 | マルウェアなし | 広告なし


関連記事