LINE株式会社では現在、データマイニングエンジニアの採用に注力しております。今回はデータ分析システムの開発・運用の担当者にデータエンジニアリング業務について聞いてみました。




――まずは、簡単に経歴から教えていただけますか?
10年間ほど東工大で教員をしており、2014年にLINEへ入社しました。専門は自然言語処理・情報検索・テキストマイニングです。現在は、データ分析システムの開発・運用を担当している分析プラットフォームチームでマネージャーをしています。


――分析プラットフォームチームではどのような仕事をしていますか?
どのようなサービスでもそうだと思いますが、運用するときには必ずデータをとっています。アクティブユーザーの推移だったり、売上の変化だったり、KPIだったりと様々です。分析プラットフォームチームではLINEに関わるあらゆる各種ログデータを、サーバーやクライアントから集めデータの収集と分析を行い、サービスの開発担当者やビジネスプロダクト担当へフィードバックをするという業務を行っています。現在は9名のチームなので規模としてはまだそんなに大きくないのですが扱っているデータ量は膨大です。

サービスが大きくなったりプラットフォーム化していったりすると、ログの集計をサービス担当エンジニアがやるのは負担になってきます。自分のところだけだと比較的容易な場合もありますが、他のサービスとの連携が必要となる数値の算出となると難しくなりますし、複数のデータのやり取りや数字のやりとりが連動してくるので一層負担が増えます。そういったデータのやりとりの一本化や整理をするのが我々のチームの仕事です。今まではサービスごとにそれぞれログ解析などをしていたのですが、それらを一本化してのデータ連携・効率化をしています。


――どのようなメンバーがいるのでしょうか?どのような役割を果たしているのか教えてください
大きな役割でいうと、ログのデータを集めたり分析できるシステムを作るエンジニア、各データの結合などの整形する役割、実際のデータを使って俯瞰的に分析をしたりサービス担当やビジネスプロダクト担当へフィードバックする役割、となっています。

やっている内容からわかる部分もあると思いますが、データを集めて集計したものをそのまま手渡しするということはしていないんですね。最初にデータを集めてくる部分については一度もらって終わりというわけではありません。サービスの改修や開発というのがサービス担当エンジニアの最優先業務なので、状況が変わったりDBのデータ構造が変わったりということがあった場合も変更をいち早く追えるようにしています。

サービス側からもらってきたデータはローデータなのでクリーニングや接合をしないといけません。データの構造や各種サービスでのデータの取得方法を把握して、データサイエンティストが欲しいデータの要望を聞き、分析に使えるデータにするための精度をあげていくといったことをします。より正確なデータがとれるように準備する段階です。

その次に分析をしていくのですが、単なる御用聞きでやるわけではないので「なんのためにそのデータが欲しいのか」「どういったアクションをしたいためにその数字を見るのか」と担当者と打ち合わせをしながら進めています。必要なら「その数字を見たいならこっちのデータを見たほうが正確ですよね」と提案もします。

この対話をする時に必ず気をつけてるのは「数字がほしい」という要望に単純にこたえるのではなく、どういうアクションをしたいのかヒアリングして最もよい形のデータ提供をするようにしています。サービスに対してのアクションがないと分析のための分析になってしまいますし、データをみて何かアクションするための下支えであると考えているからです。




――データマイニングという仕事は社内でどのような役割なのでしょうか
LINEでは「事業を推進するためのデータの見える化」が一番適切で、先ほどもありましたが分析のための分析はしていません。全体的なサービスのパフォーマンスは見える化しないといけませんし、分析したデータをいかにサービスの改善に役立てることが出来るかが最も重要だからです。

既存のサービスや新しくどんどん立ち上がっていくサービスのログデータに関する処理コストをエンジニアリングでどうしていけるか。サービス側のエンジニア、サービス全体のこと、使っていただくユーザーのことまでをトータルで考えながら効率的に改善していけるようにしています。

システムからデータを取ってきてエクセルで綺麗にして毎週の定例会議のレポートに使う、といったことはどこの部署でもやっていると思いますが、色々なサービスにまたがった数値の計測をしたりする場合はデータのフォーマットも違いますしレポートを作るだけでも大きな負担になります。そういった作業の負担を減らし定常的に出力できるように、といったサポートもやっていきたいと思っています。


――課題だと考えている部分などはありますか?
分析プラットフォームチーム自体が出来て間もないということもあり、まず社内にそういうチームがあることをもっと知ってもらわなければいけないなと思っています。レポートの作成もそうですし、データのやり取りをする場合に「こういうデータが欲しい」となった場合に真っ先に相談してもらいたいですね。

現時点ではまだ請け負ってないサービスも多いのですが大きなくくりでいうとLINE本体とLINE GAMEがあり、それぞれがサービスに注力する必要があるなかで「事業を推進するためのデータ作成」を担い、LINEの様々なサービスを横断的にデータ解析していこうと思っています。データ量がとても多く、そこに対するエンジニアリングがホットトピックだということを強く認識しているので、チームメンバーも増員できればと考えています。


――どういった人材を求めているのでしょうか
直近でいうと、Hadoopが出来る人です。データ量が多いので基本的にはデータウェアハウス、データを使える状態にしていく部分はHadoopをベースにしており、最初にそこをエンジニアリング出来る人がほしいのですが経験者が少ないというのが現状です。世の中の多くのサービスはそこまで大きく成長しないのでそういったスキルが必要ないんですね。

データサイエンティストが注目をあびた時期があって、数字より上のところが出来る人や「統計やってました」という人は募集をかければそれなりに出てきますが、データに対してエンジニアリングしているという人は多くないんです。そういった意味でも、ログまわりのところで活躍したい若者、分析のためのエンジニアリングをやりたい人にとってはいい環境なので是非一緒に働きましょう、と常々思っています。


――データマイニングエンジニアにとってLINEはどういった環境でしょうか
数ヶ月前に立ち上げたばかりなので今は環境を揃えているところではありますが、今後大きくなるにつれてデータマイニングエンジニアというのはニーズが高まっていく業種です。ビジネスに繋がっている分野なので非常にエンジニアとしてはトライする価値のある分野だと思います。

LINEは環境も整いつつありますし、サービスの勢いがありデータ量が多く、日本のみならずグローバルのデータも扱います。修行を積むにはいい環境だと思います。また、いい意味でまとまっていないのでデータまわりでやらなきゃいけないことはまだまだ多く、サービスが立ち上がっていくスピードが早く量も多いので面白いですね。ゲームも次々と出ますし、やるべきことは沢山あります。


――ありがとうございました
LINE株式会社ではデータマイニングエンジニアを募集しております
https://linecorp.com/career/position/199