Site Reliability Engineer

  • Tokyo
  • Partial Remote
  • Full-time
  • February 10, 2026
Conditions
yen-icon
¥7M ~ ¥10M /yr
location-icon
Apply from Anywhere 👍
visa-icon
Relocation to Japan 👍
(Overseas visa sponsorship supported)
Requirements
language-icon
Language Requirements
Japanese: Business Level
English: Business Level

Company overview / 会社概要

We are a company that strives to achieve a happy society through solving social issues using AI. As a solution for improving labor productivity in an aging society with a declining birthrate, we are dedicated to creating a variety of services using our unique AI technology and AI platforms.

私たちは「AIを用いた社会課題解決を通じて幸せな社会を実現する」というミッションを掲げ、少子高齢化社会における労働生産性向上の解決策として、独自のAI技術やAIプラットフォームを活用した多種多様なサービスの創出に取り組んでいます。

 

Business content / 業務内容

To ensure the high-impact, secure, and reliable operation and evolution of ExaWizards' enterprise-scale cloud infrastructure, centered on the EKS deployment platform, AWS Organization, and critical networking and security components (Transit Gateway, Network Firewall, Identity Center), while driving the adoption of Infrastructure as Code (Terraform) and best practices across teams. You will also provide support for development teams with cloud technologies, and participate in incident response and resolution.

EKS デプロイメントプラットフォーム、AWS Organization、ならびに重要なネットワーク/セキュリティコンポーネント(Transit Gateway、Network Firewall、Identity Center)を中心に、ExaWizards のエンタープライズ規模のクラウドインフラを高い影響力・安全性・信頼性をもって運用・進化させることを担当いただきます。あわせて、Infrastructure as Code(Terraform)およびベストプラクティスの各チームへの導入も推進いただきます。 また、クラウド技術に関する開発チームの支援や、インシデント対応および解決にも関与していただきます。

 

Detailed job content / 詳細な業務内容

  • Design, develop, and maintain internal data visualization tools, including the company-wide billing dashboard and tools that help the product team visualize and analyze their data.
  • Handle day-to-day operations on the cloud platform, ensuring smooth deployment and performance of company services.
  • Analyze and streamline operational tasks, identifying opportunities for automation and reducing manual intervention.
  • Collaborate with the product team to design and review cloud architecture, offering guidance and recommendations for improvements.
  • Provide technical cloud infrastructure support to project teams, ensuring they have the resources they need to develop and deploy efficiently.
  • Continuously monitor the performance of cloud infrastructure and services, making adjustments as needed to optimize efficiency and scalability.

  • 社内のデータ可視化ツールの設計・開発・保守を担当します。これには、全社向けのビリングダッシュボードや、プロダクトチームがデータの可視化・分析を行うためのツールが含まれます
  • クラウドプラットフォームの日常運用を担当し、サービスの円滑なデプロイとパフォーマンスを確保します
  • 運用タスクを分析・効率化し、自動化の機会を特定して手動作業を削減します
  • プロダクトチームと連携し、クラウドアーキテクチャの設計・レビューを行い、改善に向けたアドバイスと提案を提供します
  • プロジェクトチームに対してクラウドインフラの技術サポートを行い、効率的な開発・デプロイに必要なリソースを確保します
  • クラウドインフラとサービスのパフォーマンスを継続的に監視し、必要に応じて効率性とスケーラビリティの最適化に向けた調整を行います

 

Tech Stack / 技術スタック

  • Cloud Platform & Infrastructure: AWS (Primary), Azure, Google Cloud
  • Containerization & Orchestration: Kubernetes (EKS), Docker, Helm
  • Infrastructure as Code (IaC): Terraform
  • CI/CD & GitOps: ArgoCD, GitHub Actions
  • Monitoring & Logging: Datadog, Cloudwatch
  • Operating System & Scripting: Linux OS, Bash, Python

 

Key Attractions of This Position / 本ポジションの魅力的なポイント

This is a high-impact role at ExaWizards, where you will be integral to the operation of our EKS deployment platform for products. You will gain significant, hands-on experience by taking responsibility for our entire AWS Organization, including critical cloud networking and security components. Specifically, you will work with advanced technologies such as AWS Transit Gateway, AWS Network Firewall, and AWS Identity Center, making this an exceptional opportunity to rapidly develop expertise in enterprise-scale, secure, and modern cloud infrastructure management. The fast-paced environment offers exciting challenges, allowing for continuous growth and the opportunity to advance in your career, while being part of a supportive, innovative team culture focused on excellence and knowledge sharing.

本ポジションは ExaWizards において影響力の高い役割であり、プロダクト向け EKS デプロイメントプラットフォームの運用に深く関わります。AWS Organization 全体(重要なクラウドネットワークおよびセキュリティコンポーネントを含む)に責任を持つことで、実践的で幅広い経験を積むことができます。具体的には、AWS Transit Gateway、AWS Network Firewall、AWS Identity Center などの高度な技術を扱い、エンタープライズ規模で安全かつモダンなクラウドインフラ管理の専門性を短期間で高めることができます。スピード感のある環境の中で継続的に成長し、キャリアを発展させる機会があり、知識共有と品質を重視するチーム文化の中で働くことができます。

 

応募資格(必須)

  • Business-level proficiency in English and N2 level proficiency in Japanese.
  • At least 2 years of experience in Site Reliability Engineering (SRE) or a similar role, with hands-on experience in cloud infrastructure management and observability. Practical experience with Terraform
  • Solid understanding of AWS cloud services and experience operating and building in AWS environments, including working with an AWS Organizations, and policy management.
  • At least 2 years of experience designing, deploying, and managing Kubernetes (EKS) clusters
  • Operational experience with Continuous Delivery tools (e.g., ArgoCD) and service meshes (e.g., Istio)
  • Experience with application packaging and deployment using Helm charts
  • Experience in incident response, with the ability to quickly analyze and resolve production issues while minimizing impact on business operations.
  • Experience with one or more scripting languages (e.g., Bash, Python)
  • A proactive approach to problem-solving and excellent collaboration skills, with the ability to work effectively in a diverse, fast-paced environment.
  • ビジネスレベルの英語力とN2レベルの日本語力
  • SRE もしくは類似職種における 2 年以上の経験(クラウドインフラ運用および可観測性の実務経験を含む) Terraform の実務経験
  • AWS クラウドサービスに関する十分な理解、および AWS Organizations やポリシー管理を含む AWS 環境の構築・運用経験
  • Kubernetes(EKS)クラスタの設計・構築・運用に関する 2 年以上の経験
  • Continuous Delivery ツール(例:ArgoCD)およびサービスメッシュ(例:Istio)の運用経験
  • Helm チャートを用いたアプリケーションのパッケージングおよびデプロイ経験
  • 本番環境のインシデント対応経験(影響を最小限に抑えつつ、迅速に原因分析・解決ができること)
  • スクリプト言語(例:Bash、Python)の使用経験
  • 主体的な課題解決姿勢と高い協調性を持ち、多様でスピード感のある環境で効果的に働けること

 

応募資格(歓迎)

  • AWS certification (e.g., AWS Certified Solutions Architect – Associate/Professional, AWS Certified Developer – Associate) or Kubernetes certification (e.g., CKA: Certified Kubernetes Administrator, CKAD: Certified Kubernetes Application Developer)
  • Strong knowledge and troubleshooting experience with Linux OS
  • Experience using and optimizing Docker container technology
  • Foundational knowledge of networking (TCP/IP, routing, firewalls, etc.)
  • Experience with Datadog or Prometheus/Grafana
  • Basic knowledge of Azure web services
  • Experience in collaborating with development teams, business stakeholders, and cross-functional teams.
  • Security knowledge and understanding of security best practices in cloud environments.
  • AWS 認定資格(例:AWS Certified Solutions Architect Associate/Professional、AWS Certified Developer Associate)または Kubernetes 認定資格(CKA、CKAD など)
  • Linux OS に関する深い知識およびトラブルシューティング経験
  • Docker コンテナ技術の利用および最適化経験
  • ネットワークの基礎知識(TCP/IP、ルーティング、ファイアウォール等)
  • Datadog または Prometheus/Grafana の利用経験
  • Azure Web サービスの基礎知識
  • 開発チーム、ビジネス部門、他部門との協業経験
  • クラウド環境におけるセキュリティ知識およびセキュリティベストプラクティスの理解

 

求める人物像

We are looking for a skilled and collaborative individual who possesses a friendly and open demeanor, encouraging both active listening and the clear articulation of their own viewpoints. This person should be capable of leading and influencing other teams, while expertly and clearly communicating best practices in a supportive and constructive manner.

高いスキルと協調性を持ち、オープンで親しみやすい姿勢で、相手の話をよく聞きつつ自分の考えを明確に伝えられる方を求めています。 他チームをリード・影響しながら、ベストプラクティスを分かりやすく、支援的かつ建設的に伝えられることが期待されます。

「AIを用いた社会課題解決を通じて、幸せな社会を実現する」をミッションに、介護、人材、金融、医療、製造、流通など複数領域に横断して、複合的に社会課題の本質的解決を目指すAIスタートアップです。ビジネスモデルとしては主にプロジェクト型とプロダクト型に分かれ、プロジェクト型では機械学習エンジニアとコンサルタントがビジネス課題の発見から学習モデルによる解決まで、プロダクト型では発見した課題とそれを解決する学習モデルを用いたより普遍的で広範なソリューション提供のためのSaaSプロダクトを開発しています。

View Exawizards's company page

↑ Back to top ↑

Site Reliability Engineer at Exawizards
APPLY NOW  ➜Japanese Required ⚠️