■Data & ML team 構成と人数
- Machine Learning (9)
- Data & ML Platform (5)
- Data Management (4)
下記ポジションで採用を行っております。
ーーーーーーーーーー
■ML Ops (Engineer)
ーーーーーーーーーー
配属先のML Platformチームでは、信用スコアリング、不正検知、レコメンドエンジンなどの機械学習を用いたシステムの開発・運用・生産性向上・信頼性向上を行っています。主にビジネス課題を特定し、モデルを構築 / 実装していくMachine Learningチームと協力し、モデルのプロダクションでの稼働を支える仕組みづくりや、速く安全に機械学習のサイクルを回すための基盤づくりを行うエンジニア組織です。具体的な業務内容や環境は以下の通りです。
※職務内容
・機械学習に関連する以下の業務
・データパイプラインの設計・開発
・ワークフローの自動化
・CI / CDの構築
・データ処理の環境構築・パフォーマンスチューニング
・APIやツールの開発
・運用効率化のための改善
・システムの信頼性 / 品質の向上
・モデリングを効率化するためのプラットフォームの構築
・利用しているツール / 開発環境
開発言語:Python3, Java, Go
機械学習・統計モデリング ライブラリ:scikit-learn, TensorFlow etc.
インフラ: Google Cloud Platform (Cloud Composer, Cloud PubSub, Cloud Dataflow, AI Platform etc.)
構成管理ツール:Terraform
分析基盤:BigQuery
その他:Docker, Kubernetes, Circle CI, GitHub, Slack, JIRA, Spinnaker, DataDog, PagerDuty
開発手法 : Agile (Scrum, Kanban, etc.)
ーーーーーーーーーーーー
■Data Platform (Engineer)
ーーーーーーーーーーーー
メルカリグループでは事業推進上の意思決定をはじめ、マーケティング、機械学習、R&Dなど多様な領域においてデータが活用されています。メルペイのデータプラットフォームチームでは、現在メルペイだけではなくフリマアプリ「メルカリ」も含めたメルカリグループ全体におけるデータ活用を支えるデータインフラストラクチャ・データパイプラインを設計・開発ならびに運用し、グループのデータ活用を推進しています。また、データプラットフォームチームはデータ活用において必要とされるデータ収集、Data Lake、DWH、収集されたデータを活用するためのエコシステム開発など、データにまつわる幅広い領域において必要なシステムを構築するエンジニアリング組織です。具体的な業務内容や環境は以下の通りです。
※職務内容
マイクロサービスからのデータ収集
・バッチベースのデータパイプライン開発
・ストリーミングベースのデータパイプライン開発
・マイクロサービスにおけるロギングのためのSDK開発
Data Lake、DWH
・収集したデータを保存するData Lake 構築
・DWH上の一部権限、リソース管理
データ活用
・Data Lake / DWH上のデータの利用支援ツール開発
・ストリームデータプロセッシング機能を提供するプラットフォーム開発
全体共通
・アプリケーションやミドルウェアの開発と運用、要件に応じた低レイテンシー/高スループットを目指したパフォーマンスの改善
・運用を自動化あるいは低コストにするためのツールの開発
・エンジニアリングによるシステムの技術的な問題の発見、解決
※利用しているツール / 開発環境
開発言語:Python, Java, Scala
インフラ:Google Cloud Platform(Compute Engine, Kubernetes Engine, Dataflow, Pub/Sub, Cloud Storage, BigQuery, Spanner, Cloud SQL, Cloud Logging etc.)
分散処理:Apache Flink / Apache Spark
ワークフロー:Apache Airflow
BIツール: Looker / Data Studio
構成管理ツール: Terraform
モニタリング:Stackdriver Monitoring / Datadog / PagerDuty
CI/CD:Circle CI / Spinnaker
Knowledge Tool:Crowi / Confluence
その他:GitHub / Slack
開発手法: Agile (Scrum, Kanban, etc.)
ーーーーーーーーーーーーーー
■Data Management (Engineer)
ーーーーーーーーーーーーーー
プロダクト開発におけるデータモデリング
・業務要件や分析要件に必要なテーブル、ログの定義
・プロダクトデータの活用ニーズに対するコンサルティング
データの性質に応じたデータセキュリティ
・データ取得元とデータ送信先の特性を把握し、リスク・コンプライアンス、セキュリティチームと協業してデータの取り扱い方針を決定
・データセキュリティを確保しつつ活用をスケールさせるための標準化、業務フロー設計
データ品質の定義と計測
・データ活用サイドの要求を汲み取り、データ品質として定義
・データ品質KPIの策定と計測
データを説明するメタデータの管理
・メタデータの収集、活用プラットフォームの開発と普及施策の実行
・メタデータの品質定義
データ活用状況のモニタリング
・データ活用を推進するための計測、および活用サポート
・データ分析基盤の負荷軽減施策の実行
データ統合とETLの運用
・データ分析基盤統合すべきデータの判断
・効率的なデータ活用を推進するための中間テーブル設計およびそのワークフロー設計
これら全ての計画とルールを制定するデータガバナンス
・領域ごと、または領域を横断したボトルネックの特定と課題解決に向けた計画立案
・データを活用するステークホルダーへの啓蒙活動、トレーニング、広報
※利用しているツール / 開発環境
インフラ:Google Cloud Platform(Compute Engine, Kubernetes Engine, Dataflow, Pub/Sub, Cloud Storage, BigQuery, Spanner, Cloud SQL, Cloud Logging etc.)
分析基盤: BigQuery
ワークフロー:Apache Airflow, dbt
BIツール: Looker / Data Studio
メタデータ管理: dbt
構成管理ツール: Terraform
その他:GitHub / Slack / JIRA
■休日:完全週休二日制, 土, 日, 祝日, 夏季休暇, 年末年始