MUFGデータサイエンスコンペとは
Python機械学習モデルの予測精度を競う
データサイエンスコンペとは、与えられたビジネス課題に対し、Python(※1)を用いて機械学習モデルを開発し、その精度を競うMUFG横断型のコンペティションだ。本コンペでは基礎的な理論を解説したe-ラーニングが提供されるほか、Slackを使った講師とのQ&Aや中間段階でのセミナーなどもあり、データ分析の経験がない者でも取り組める環境が用意されている。MUFGグループ各社から、日頃データ分析業務を担当している社員だけでなく、営業店を含めた幅広い部署から多くの参加者が集まった。
第3回のテーマは、Basicが「ホテルの予約キャンセル予測」、Advancedが「次回注文商品の予測」であった。参加者同士が切磋琢磨しながら、機械学習モデルをブラッシュアップしていくことで、熾烈な戦いとなった。
※1…Python(パイソン):数値計算からWebアプリ開発、AI開発などの幅広い用途で利用できる高水準汎用プログラミング言語のこと。
Basic1位:水谷 浩路 三菱UFJインフォメーションテクノロジー MUIT GCMS部
機械学習やAIを、MUFG内での当たり前の技術に
Q.本コンペに参加した理由を教えてください。
水谷氏
私は現在、グローバルに事業展開するお客様にトランザクションバンキング(※2)サービスを提供するシステムの開発を担当しています。この分野では欧米を中心に機械学習やAIの技術を使ったサービスが当たり前になりつつある中、当行のシステムはまだそのレベルに達していないと感じています。サービスの質を向上させていく上では、これらの先進技術の習得が不可欠です。
また、所属部署で担当している「開発近代化」という施策では、データ分析の高度化をテーマに掲げ、システムで保管している膨大なログデータを分析し、サービス向上の可能性を検討しています。これまでは機械学習やAIの技術を使わない範囲で進めてきましたが、ステップアップするには機械学習を使った予測、クラスタリング(※3)などが必要不可欠だと考えました。そのため、同施策の若手メンバーにも声をかけ、本コンペに参加しました。
※2…金融仲介機関が、財務諸表などのハード情報を用いて金融サービスを提供すること
※3…機械学習の一種で、データ間の類似度に基づきデータをグループ分けしていく手法のこと。
Q.どのように学習を進めましたか?また、精度をあげるために実施したことはありますか?
水谷氏
今回が初参加だったため、e-ラーニングを活用して一から勉強しました。eラーニングはコンペが始まってからも何度も見直し、理解を深めました。そのほかにもUdemyやコンペ期間中のフォローアップ会での講義内容、Slack上でやり取りされる情報などを利用して必要な知識を習得しました。
3ヵ月のコンペ期間のうち、最初の半月と最後の1ヵ月はとにかくデータを見て特徴を見つける期間としました。また、学習・予測するデータの分析だけでなく、作ったモデルの予測結果を分析することにも注力しました。日々の業務でログデータを分析したり、セキュリティインシデントを見つけたりすることには慣れていたため、この点は比較的進めやすかったと思います。
コンペ期間中は、せっかくさまざまなことを学べる機会なので、1つの分野にのめり込まないように意識しました。行き詰まったら早めに諦めて他のことに着手していたことが、結果的に精度を上げる有効な方法を見つけるきっかけとなり、今回の成果に繋がったと思います。
Q.コンペを通じて得られた成果や学びを教えてください。
実用に耐え得る一定水準の機械学習モデルであれば誰でも構築できる、ということが大きな発見でした。機械学習やAIは新しく難しい技術だというイメージが先行しがちですが、想像よりも簡単に習得できます。
また、私がコンペに打ち込んでいる様子を見て、高校生の子どもが「将来データサイエンティストになりたい」と言ってくれたのは、個人的にとても嬉しい収穫でしたね。
(三菱UFJインフォメーションテクノロジー MUIT GCMS部 水谷 浩路)
Q.本コンペの経験を今後どのように活かしていきたいですか?
機械学習の技術を活用した業務改善や、新たなサービスの提案に活かしていきたいです。例えば、お客様のシステム利用状況に応じたレコメンデーションの実現はこれまで二の足を踏んでいましたが、本コンペを通じて壁が高くないことがわかりました。早速、実現に向けて取り組んでいきたいと思います。
また、若手メンバーに実装経験を積んでもらう題材として、機械学習を採用するのも面白いと感じました。実装方法、活用事例を社内外にも広げ、誰もが利用できる当たり前の技術にしていきたいですね。
Q.今後コンペへの参加を検討している方に向けて、メッセージをお願いします。
プログラミング言語は特定のスペシャリストに求められる力ではなく、より気軽に利用できる技術になりつつあると感じています。例えば、普段の業務でExcelを使って効率的にデータを整理することと同様に、プログラミング言語の学習にも気軽に取り組んでほしいと思います。
データサイエンスコンペでは、機械学習やデータ分析、プログラミング等を基礎から学習できる環境が整っています。特に初学者の方には、デジタル関連スキルを増やす手段として、本コンペを活用することをおすすめします。
Advanced1位:葛西 均 三菱UFJ信託銀行 人事部
Advanced2位:星井 宏之 三菱UFJモルガン・スタンレー証券 内部監査部
可能性を秘めた膨大なデータを、自由に使える環境をめざして
Q.本コンペに参加した理由を教えてください。
葛西氏
私は大学院で応用物理学の研究をしていた経験があり、データ分析や数理的解析を用いて問題を解決する仕事に携わりたいと考え、三菱UFJ信託銀行に入社しました。しかし、これまでに経験してきた業務ではそのような機会があまりなく、いつかは本格的なデータ分析に挑戦してみたいと日々感じていました。本コンペに参加したのは、自分の実力を定量的に把握する好機であり、また結果を出すことで今後のキャリア形成にもプラスになると思ったためです。
星井氏
私は以前、銀行系システム開発会社での勤務経験があり、転職後、現在の三菱UFJモルガン・スタンレー証券のエクイティ部でIT部門を担当していました。仕事柄、IT分野の中でも特にデータサイエンスやAIには非常に興味があり、4年ほど前から「Kaggle(カグル)」という機械学習やデータサイエンスのプラットフォームで、データサイエンスコンペに時折挑戦しています。しかしKaggleは非常に高度で敷居が高く、他に良い機会がないか探していたところに今回の募集があり、参加を決めました。
(三菱UFJモルガン・スタンレー証券 内部監査部 星井 宏之)
Q.本コンペで苦労した点はありますか?
星井氏
今回のコンペでは、オリジナルでも700万件、自分で学習用に加工していくと7,000万件ほどの膨大なデータを取り扱っており、そのデータの多さには非常に苦労しました。コンペには個人PCで臨んだのですが、1回予測を実行するのに何時間もかかってしまいました。朝に予測を仕掛け、終業後に結果を確認し、その結果を踏まえて夜にもう1度仕掛け、翌朝に確認する、という作業を地道に繰り返していました。
葛西氏
機械学習モデルに入力するデータの設計と加工に苦労しました。機械学習で将来の予測を行う場合、モデルに学習させるための「学習用データ」と、学習が完了したモデルに入力して予測をするための「予測用データ」を準備する必要があります。Basicでは両方のデータが事前に整えられていました。一方Advancedでは未加工の注文履歴データのみが与えられ、「学習用データ」と「予測用データ」の設計と加工を自分で行う必要があり、難しかったです。今回の目的は、アイオワ州にある酒類の取扱店舗が向こう1ヵ月以内に注文する商品を予測するための「レコメンド」機能を持ったモデルを作成することでしたので、レコメンド関連の理論や技術を把握するのに時間と労力を使いました。具体的には、実際のECサイトやWebサイトでどのようなレコメンドエンジンが使用されているのかを調べる、Kaggleのレコメンド系コンペで上位者が採用していた解法を参考とする、レコメンドのロジックをPythonで実装する際に役に立ちそうなプログラムについての論文を読むなどです。さまざまなアプローチで周辺知識を深めながら進めて、なんとか形にすることができました。
また、私は昨年も本コンペに参加しており、その際はBasicで5位に入賞できました。BasicとAdvancedの両方に参加したうえで振り返ると、Advancedはだいぶ難易度が上がっており、最初は戸惑いました。しかしその分自由度が増えて、色々な工夫をする余地があったので面白かったですね。
Q.コンペ参加中に、モチベーションになっていたことを教えてください。
星井氏
自身のスコアを励みに進めていきました。コンペ期間中に暫定的なスコアや順位が確認できるのですが、一度上位に入ってからは「ここから順位を落としたくない、もっと上がりたい」と自分を鼓舞していました。
葛西氏
私も同じです。最初の頃は自分との闘いで、他の参加者のことは気にせず進めていましたが。しかし暫定的な順位で10位以内に入った辺りから、「他の参加者に負けたくない」という気持ちが出てきました。上位の参加者は予測結果の提出回数が増えるペースが速く、画面越しでも熱量が伝わってきました。コンペ終盤では、星井さんのお名前を見て良き競争相手として意識していました。
星井氏
抜きつ抜かれつの部分がありましたね。
Q.精度をあげるために実施したことはありますか?
星井氏
Udemyで学習して、コンペを進めていく中で必要だとわかったスキルをその都度補っていました。テーマ自体は割と身近なものだったので進めやすかったです。
葛西氏
常に心がけていたことは、データを「よく見る」ことです。コンペ期間は3ヵ月ありましたが、最初の1ヵ月ぐらいはモデルの構築を行わず、ただひたすらにデータの観察だけに集中していました。データ量が約700万件と膨大なので、さまざまなグラフにより可視化したうえで全体の傾向をとらえることはもちろん重要です。しかし一つ一つのデータを細かく、丁寧に見ることで気づけたことも多くあります。
例えば、同一の製品であるにも関わらず「製造会社名」が異なる行が散見されることに疑問を抱きました。その製品のホームページで過去の経緯を調べてみると、買収により製造会社が途中で変わっていることが分かりました。
また、数値の項目間で整合が取れていない行が多いことも気になりました。例えば「注文した酒類の総リットル数」は、「酒瓶の容量」と「注文本数」を掛け算した数値と一致するはずですが、何故か不一致となるケースなどです。更に細かく観察してみると、「酒瓶の容量」に全く別の項目の数値が入力されていることが分かりました。これについては、アイオワ州のデータ入力者が酒類の注文情報を誤入力したことが原因と推測しています。今回はコンペなのでそれ以上の事実確認はできませんでしたが、実務であればデータの入力者にヒアリングして原因をはっきりさせたいですね。
このように得られたさまざまな気づきを手掛かりとして、データの前処理や、特徴量の作成を地道に行った結果、精度が向上したと考えています。
(三菱UFJ信託銀行 人事部 葛西 均)
Q.コンペを通じて得られた成果や学びを教えてください。
葛西氏
難易度が高いAdvancedの課題に取り組んだことで、昨年度のコンペ終了時点よりも、飛躍的にプログラミング技術が向上し、機械学習の知識が深まったと実感しています。一見、クールでスマートなイメージに見られがちなAIやデータサイエンスの世界ですが、実際はかなり地道で泥臭い作業が非常に多いことを身をもって体験できました。そして、その地道さこそが大事だとわかったことが収穫だと思います。
星井氏
大量データの取り扱いは非常に勉強になりました。また、これは今回のコンペに限った話ではないのですが、テクニカルな面だけでなく、対象データに関する勉強という面でもさまざまな発見があり、とても興味深く感じました。
Q.本コンペでの経験をどのように活かしていきたいですか?
星井氏
私は内部監査で、データ分析やデータアナリティクスを推進する業務をしています。そのため、データサイエンスに関する考え方や取り組み方を内部監査におけるデータ分析業務に活かしたいと考えています。 本コンペを通じて内部監査の名前が出るだけでも、内部監査の内外の部署の人に興味を持ってもらえる機会だと思うので、これをきっかけにデータサイエンスを強く進めていきたいと思います。
葛西氏
次のステージに上がっていくためには、実務経験を積んでいくことが必要だと感じています。MUFGには、熱意と能力がある人にはどんどん挑戦させてくれる風土があります。そのため本コンペで得られた技術や自信を足掛かりとし、今後はAIやDXを推進する領域にも積極的に関わっていきたいですね。
Q.データ的な目線から見たMUFGの強みや課題はどういったところだと思われますか?
星井氏
課題としては、まずは「データを揃えること」だと思います。データは各社によって差異がありますが、証券に関してはまだ一貫したデータベースがないため、各所から自分たちで集めてこなければいけません。それが第一のハードルになっています。
もう一つは「環境」です。今回のデータサイエンスコンペで使ったような環境を、すぐに社内で作るのは難しいと考えています。私はシステム監査を担当しており、セキュリティを担保することを推奨する側なのですが、現状ではデータサイエンティストが満足して仕事ができる環境にあるとは言えません。セキュリティの確立と大量のデータを自由に扱える環境の構築をどのようにして両立させるか、今後工夫していく必要があると感じています。
葛西氏
MUFGには、預金、与信、証券、カード決済、年金、不動産、相続などの伝統的なものから、最新技術を用いたデジタルアセットに関するものまで、ビッグデータが国内最大規模で蓄積されています。それらのデータはさまざまな可能性を秘めており、大きな強みと言えるのではないでしょうか。
また、金融機関においては信頼がとりわけ重要な意味を持っています。そのため、データを利活用していくにあたり、データ保護やプライバシーへの配慮の方法をしっかりと整備していく必要があります。なかなか難しい課題ではありますが、大切なことだと思います。
Profile
※所属・肩書は取材当時のものです。
三菱UFJインフォメーションテクノロジー MUIT GCMS部
水谷 浩路
SIerを経て2013年に三菱UFJ銀行に入行後、三菱UFJインフォメーションテクノロジーに出向。トランザクションバンキングビジネスを支えるシステムを開発するラインのマネージャーを担当。
三菱UFJ信託銀行 人事部
葛西 均
大学院修士課程修了後、2008年に三菱UFJ信託銀行へ入社。その後、三菱UFJトラストシステムに出向。外国証券管理システムの開発を担当。2016年に三菱UFJ信託銀行へ帰任し、人事企画業務を担当。
三菱UFJモルガン・スタンレー証券 内部監査部
星井 宏之
銀行系システム開発会社に勤務後、1999年 に東京三菱証券(当時)へ入社。以降、主としてエクティ部門においてIT関連業務を担当。2012年より内部監査部所属、現在の職務はシステム監査及びデータ分析。