Bonfire Backend #4で社内GPUクラスタとは別にEKSクラスターを運用してる話をした

Bonfire Backend #4にて、 PFNにある2つのKubernetesという題名で、Web ApplicationのためにEKSクラスターを運用している話をしました。

スライドはこちらになります。

質問への回答

当日はsli.doでチャットが行われており、私の発表宛てと思われる質問がいくつかあったので回答していきます。

  • Q. (下の質問とマージします)
  • Q. PFNのバックエンドチームの規模って十分大きいと思いますか?研究者が多いし、インフラが使いづらいと苦情多そう。
    • 使い方のレクチャーだったり、使いやすいようなツールみたいなのは整備されています
    • 社内向けにわかりやすいドキュメントとかが用意されています
    • ただ、人は全然足りてない感じですね…
    • 積極募集中ですので是非!
  • Q. お客様ごとだとnamespace数がとても多くなると思いますが、それで大変なことって何かありますか?
    • これに関しては、まだそこまで規模が大きくなっていないので現状そこまで起きていないです
    • ネームスペース毎に独立な世界になっているので、クラスターを別にするといった選択肢も取りやすいので、問題になったとしても解決しやすいと考えています。
    • 複雑なマイクロサービスのように相互に通信することが多い構成だとそうはいかないので大変そう…
  • Q. 機械学習モデルとWeb Applicationとの連携はどのように?コンテナの中にモデル情報が入っている、、?
    • 推論用のサーバが立っており、そこにリクエストを投げる形です
    • モデルは別に置いておき、S3から取ってくるようにしています。暗号ととかもできるので
  • Q. クラスタを分けずにマルチテナント運用しているのはなぜなのでしょうか?
    • ここに関してはお客様次第でクラスタ分離、VPC分離も行っています
    • 開発・検証環境では1個の運用にしていますね
  • Q. calicoはkubeにデプロイして使うのでしょうか?大阪より
  • Q. 推論はGPU使ってないのか (懇親会質問)
    • 現状では使ってないです
    • 将来的に必要になったらGPUノードを追加するか、一時的にGPUノードた立ててJob実行するサービスがAWSにあるのでそれを使おうと考えてます
    • Facebookの論文によると推論にはCPUを使っているので、チューニングのコストと相談ですがCPUで頑張る可能性があります。
  • 前世しょーもな
    • てへぺろ(・ω<)