Yappli Tech Blog

株式会社ヤプリの開発メンバーによるブログです。最新の技術情報からチーム・働き方に関するテーマまで、日々の熱い想いを持って発信していきます。

#みん強 に『プロダクト観点で考えるデータ基盤の育成戦略』という題で登壇しました!

こんにちは!データサイエンス室(以下、DS室)の山本です(@__Y4M4MOTO__)です。

先日1/30(木)に開催された「みんなの考えた最強のデータアーキテクチャ〜2025もやってきましょうSP!」に表題のタイトルで登壇させていただきました!

datatech-jp.connpass.com

この記事では、登壇してみてのレポートを記していきます。

各種資料

私の登壇資料

speakerdeck.com

配信アーカイブ

www.youtube.com

Xポストまとめ

posfie.com

みん強に応募しようと思ったきっかけ

2023年に弊社のテックカンファレンス「Yappli Tech Conference 2023」に「次の10年を戦える分析用データ基盤構築の第一歩 - dbtによる基盤刷新とクエリ費用90%削減への取り組み -」という題で登壇しました。発表内容の中で、個人的に「あえてDWH層(データウェアハウス層)を作らず、1テーブル1クエリで集計するようにした」という部分に面白さを感じたのが発端です。

面白さを感じた理由は以下の通りです。

  • 「DWH層を作らないメリット」というのを初めて知った
  • 「社内でちょっとデータ活用進んでいてーー」という規模感ではなく、「プロダクトとしてしっかり取り組む必要があり、さらに扱うデータもアプリの操作ログという膨大なもの」という大きな規模感で実施している

これまでデータエンジニアリング系のイベントに参加してきて、このような事例に出会ったことがなかったので、どこかで喋ってみたいなと思っていました。

その後、昨年11月にこちらの投稿を見かけました。みん強は過去に試聴参加したことがあり、参加者の多さと内容の濃さに驚いたことがあったので、「これはチャンスでは…?」と思い、応募しました(と、言いつつ応募するにあたって色々な方に「このネタで面白いかな…?」という相談はさせていただいてました。相談に乗っていただいた方々、本当にありがとうございました…!🙇)。

なお、最終的に14件の応募があり2倍以上の倍率となっていたので、その中から今回選んでいただけたのは本当に光栄でした…!

資料を作成してみての感想

「どういう結論で発表を締めるか?」で非常に悩みました…。

「弊社のデータ基盤の成長過程を述べて、最後に総括する」という流れ自体はすぐに決まったのですが、総括してみたところ、下記のような結論になってしまいました。

  • データ利用者を軸にSmall start, Quick winでデータ基盤を育成する
  • 早すぎる共通化・最適化を避ける

これらは過去に多くの方が何度も言及してきた、いわば「当たり前のこと」です。ただそれを述べるだけでは、聞き手が「それはもう分かっていて…」と感じ、学びの薄い発表になってしまうかもしれないと思いました。

そこで、これら「当たり前のこと」を実践するために何が重要かを自分なりに言語化することで、学びのある発表にしようと考えました。言語化作業難しかったですが、その甲斐あってか共感の声をたくさんいただけてとても嬉しかったです!

特に「早すぎる共通化・最適化を避けよう(誘惑に耐える)」の部分が共感されていたように思います。ここの部分は、自分が今絶賛、共通化・最適化の部分で苦しんでいて、自戒も込めて言語化した部分でもあります。「後から共通化・最適化した方が楽」と言っていますが、実際はやっぱり言うほど楽ではないです…。ですので、作業をしていて「なんでこここんなことになってるんだ…?最初から良い感じにしておけば良かったのに…」と思うこともあります。ただ、今自分が触れているデータ基盤は共通化・最適化に工数を割く価値があると判断されるほど使われているものです。そもそも、そのフェーズに到達できなければ先を見据えた共通化・最適化はすべて無駄になってしまいます。このスライドは「そこを履き違えてはいけない」という自戒を込めたスライドでした。

共感の声の中に「とはいえ大まかにロードマップは作っておいた方が良い」という意見もありました。この点、発表内ではあまり触れられませんでしたが、実はDS室内で今回の登壇資料をレビューした際に議論となった部分でした。今回、我々がロードマップ無しでもなんとかなったのは、「内製基盤:立ち上げ期」に入社した弊社一人目のデータ人材である阿部(@abe_masatoshi)が、過去に複数社のデータ基盤構築を経験し、豊富な知識を持っていたことが大きかったと思います。

資料作成にあたって既存の文献や資料を色々読んだのですが、その中でも特に次の資料が参考になったので紹介させていただきます(ありがとうございました…!🙏)

登壇してみての感想

登壇自体も非常に良い経験になったのですが、パネルディスカッションの面白さが個人的に一番良かったです。各々が持っている経験則や哲学を語り合うことでより深い言語化・抽象化が行われていく感じが非常に面白かったです。

各お題で個人的に面白かったところを下記にまとめます。

お題①「データ基盤を開発する上で避けていること」

  • サイロ化を恐れすぎること。サイロ化を恐れて何でも共通化してしまうとかえって誰も使わないデータ基盤になってしまうかもしれないため。

  • サイロはあるのが普通。繋げるとメリットがあるのに繋げられてないところがサイロとして認識される。
  • 「サイロ化を恐れすぎない」というのは「これはサイロではない(=今やることではない)ということを確認する」こと。

お題②「ツールや技術選定において『ずっと使い続けるつもり』と『将来的に変えうる』の線引きをどう考えるか」

  • 将来的に全部変わるという前提で、導入時から別ツールへの移行のしやすさを意識しておくことが大事。
  • 「ずっと使い続ける」=ロックインのリスクがある。

お題③「規模(基盤、組織、事業)が5倍に増える見込みがあると仮定したら、あなたはこれから1年何をする?」

  • ボトルネックを探す。1→10→100とスケールしていくとボトルネックは移動し続けるので、それを探し続ける。探し方はエンドユーザから上流へ辿っていくと見つけやすい。

お題(視聴者投稿)「RevOps進めるためには結論いろんな部署メンバーの協力がないとなかなか進まないと思うのですが、どう立ち回るとうまくいくのでしょう」

  • ただ困りごとを見つけて解消していくだけだと局所最適になってしまうかもなので、「ここを良くするとここも良くなるはず」という全体感も意識することが大事。

アフタートーク①「データの民主化ってどうなの?」

  • 「データを民主化すること」は「データをフルオープンにすること」ではない
  • データ利用者のリテラシーに合わせて提供するBIツールの自由度を変えるのが良さそう(原理的にはどれでも同じデータが出せる。違うのは自由度だけ)

アフタートーク②「AI活用」

  • 正解が分かってる問題じゃないとまだ今のAIでは解けないので、そういった問題をどう見つけて落とし込むかが重要
  • 人間に「良い感じにして」と頼む場合でも「良い感じってどういう感じ?」といった情報を与えないとうまくいかないので、AIに対しても同じように情報を与える必要がある
  • なので、与える情報が揃っていることが大事(意思決定の際に議事録を残しているか?など)

おまけ: 地味な個人的WIN

私の発表で言った「Small start, Quick win」というフレーズがMCのゲンシュンさんに刺さったようで、その後何回も使っていただいていたのが個人的に嬉しかったです…!

また、司会のお二人が使っていたZoom背景は、私がサクッと作ってお渡ししたものだったりします。司会・登壇者での事前打ち合わせの際に「作りたいね」という話が出ていたので作りました。すごく喜んで使っていただけて、こちらも嬉しかったです…!

その時のやり取り

まとめ

この記事では「#みん強」の登壇レポートを記しました。非常に面白く学びの多いイベントでしたので、登壇しようか迷っている方がおられたらぜひチャレンジしてみることをお勧めします!

ここまでお読みいただきありがとうございました🙇