
2019年11月に日本アイ・ビー・エム本社でIBM SPSS Modelerユーザーイベントが開催されました。短期かつ限定的な告知にも関わらず300名のユーザーに参加いただきました。
これまで日本で発売を開始して20年目の節目を迎えたSPSS Modeler(旧名称Clementine)。AI/機械学習の流行もあって今も存在感を放っています。一体なぜここまで長く愛されているのでしょうか。ユーザーはいったいSPSS Modelerの何を気にっているのか、その本質に迫りたい気持ちから参加者に当日アンケート調査を行いました。
あなたの推しノード?

この質問によって、データ分析のどの箇所に力点を起き、SPSSのどこに価値を感じているかを知ることができます。そもそもノードとは、SPSSで構築するストリームと呼ばれる分析プロセスの部品(アイコン)を意味します。以下のようにノードは目的によって3種類に分類できます。
1 入力ノード(形状:丸)
分析工程の始まりで、必ずどこかに矢印(リンク)を繋げます。
2 プロセスノード(形状:六角形かダイヤモンド)
行や列の加工やスコアリングなどデータを受け取って次の工程へと進めます。
3 ターミナルノード(形状:三角形・四角形・五角形)
可視化・表示・モデリング・出力・エクスポートを行う矢印の終点です。

ノードには何をする?
ノードはそれぞれ役割を持っているので、その設定だけをGUIで迷わず与えてゆきます。例えば分析対象となるテキストデータを読み込みたい場合には、入力タブにある「可変長ノード」を選び、編集します。

テキストがカンマ区切りであれば読み込むデータのファイルを選択するのみで設定は完了。ノードは出来るだけ少ないアクションで実行できるように工夫されています。
最初はシンプルな設定を利用しても、手が慣れてくるとエキスパート設定に目が行きます。そのうちに意外な便利機能や裏ワザを見つけてしまい愛着が湧きます。最終的にはどのユーザーにも少なても2つか3つのお気に入りの「推しノード」が現れます。
ノード総選挙の結果は!?
結果は以下の通りでした。
1位は決定木アルゴリズムの古株のCHAIDですが、上位にはデータ加工が多数ランクインしています。

よく、データ分析の工数の9割はデータ加工で、モデリングは1割ほどであると言われますが、この総選挙で前処理のノードが多数選ばれたのはそういった事情を反映してだと思います。データ加工をいかに効率的に行うか、SPSS Modelerの本当の価値はそこにあると確信しました。
今回の結果を受けて、勝手に読み解けることとして、まずデータを集めて(レコード結合)読み込んだら(レコード集計)で度数を確認し(データ検査)で分布を眺め、必要な変数を作り(フィールド設定、再構成)、手早く暫定モデルを作り(自動分類)、改めて重要な変数を観察したり、グループ化をするために多分岐Treeモデルを作成(CHAID)するという、まさに王道!をイメージすることができました。
リレー連載に向けて
推しノード総選挙アンケートには、ノード名だけの欄を用意していましたが、回答者の数名が、その理由を欄外に熱いメッセージを込めて記入していました。本当はこのノードには知られざう凄ワザができる、、やSQLだとこれだけの工数が必要なステップをたった1つで実現できる、などです。それを受けて、もしユーザーに推しノードの推薦理由を読み物として公開したら、別のユーザーの参考になるのでは?と思い
まず連載最初の「推しノード」をIBMでSPSSのテクニカルセールスをしている西牧から、紹介させてゆきたいと思います。我こそは!というユーザー様がいらっしゃいましたら、ぜひ私どもまでご連絡ください。
SPSSは従来からユーザーの皆様に支えられ、いただいたご意見を元にバージョンアップをしてきました。この連載で利用者の工夫やエピソードを知ることで刺激を受けたり、ご自身の取り組みに何らかのヒントを得ていただければ幸いです。

日本アイ・ビー・エム株式会社
クラウド& コグニティブ・ソフトウェア事業本部Data and AI事業部
Data Science & AI テクニカルセールス部長
岸代 憲一