Senior AI Lead, Multimodal Systems

  • Tokyo
  • Partial Remote
  • Full-time
  • June 23, 2026
Conditions
location-icon
Apply from Anywhere 👍
visa-icon
Relocation to Japan 👍
(Overseas visa sponsorship supported)
Requirements
language-icon
Language Requirements
Japanese: Business Level
English: Business Level
career-icon
Minimum Experience
Mid-level or above

About Gazai

Gazai is an applied AI startup developing Anini — a next-generation AI companion application disrupting the rapidly growing AI chatbot market. We combine advanced generative AI with an interactive anime-style sandbox visual novel format to create highly immersive, visuallyconsistent companions.

Our proprietary models are fine-tuned for specific art styles, enabling dynamic, on-demand visual storytelling alongside conversation. For 2026 and beyond, we are evolving Anini characters from reactive chatbots into agent-native autonomous companions — proactive, emotionally coherent presences that integrate directly into users' daily lives through social media, smart home, and IoT.

Gazai has engineering presence across Taiwan and Japan, with a team spanning AI/ML, full-stack, and mobile development.

 

About the Role

We are hiring a Senior AI Lead — a technically exceptional generalist who can architect and orchestrate the full spectrum of AI modalities needed to bring a living, breathing companion game to life. This is not a narrow specialist role: you will own the strategy and execution across language, vision, audio, motion, and agent behavior, making them work as a seamless, immersive whole.

This is one of the most senior and consequential roles at Gazai. You will define the AI architecture of Anini, lead a growing AI team, and sit on the technology leadership team with a clear path toward Chief AI Officer. You will shape not just what we build, but how we think about AI at Gazai.

 

Responsibilities

Your responsibilities will include:

  • Architect and lead the multimodal AI system powering Anini — integrating LLM dialogue, image generation, video synthesis, sound and voice, and autonomous agents into a cohesive, real-time companion experience
  • Define and own the long-term AI roadmap across all modalities; translate product vision into concrete AI research and engineering priorities
  • Lead model selection, fine-tuning, and post-training across domains — including character-consistent image generation, expressive TTS, story-aware LLMs, and behavioral agents
  • Design and oversee agent architectures enabling proactive, autonomous companion behavior: planning, memory, tool use, and real-world integrations (social media, smart home, IoT)
  • Establish evaluation frameworks and quality standards across all AI outputs — latency, coherence, visual consistency, emotional expressiveness, and safety 
  • Build and manage scalable AI infrastructure: model serving, data pipelines, training compute, and cost optimization
  • Grow and mentor the AI team; set engineering culture and best practices across the function
  • Collaborate across product, engineering, and leadership to deliver AI innovations to customers
  • Track the frontier of AI research across all relevant modalities and rapidly prototype what matters

 

Qualifications

  • 7+ years of ML/AI engineering experience, including leadership of AI systems or teams
  • Hands-on depth in at least two AI modalities (e.g. LLMs + image gen, or agents + video synthesis)
  • Strong conceptual and practical understanding of modern deep learning — transformers, diffusion models, autoregressive generation
  • Experience fine-tuning or post-training large models (RLHF, DPO, LoRA, etc.)
  • Experience designing and shipping agentic systems using frameworks such as LangGraph, AutoGen, CrewAI, or custom-built architectures
  • Proficiency in Python; comfort with model serving infrastructure (e.g. vLLM, Triton, Ray Serve)
  • Strong instinct for system design: latency, reliability, and cost tradeoffs at scale
  • Ability to lead cross-functional AI projects and communicate clearly across research, engineering, and product
  • Japanese required (business level); business-level proficiency in English or Mandarin also required
  • Eagerness to stay at the frontier — fast learner with strong research literacyBonus — You Will Stand Out If...
  • You have experience with character-consistent image or video generation, style LoRAs, or anime/illustration-specific fine-tuning
  • You have shipped real-time or low-latency multimodal pipelines in a consumer product context
  • You have experience with voice synthesis, expressive TTS, or sound generation AI
  • You have research publications or open-source contributions in generative AI, agents, or multimodal systems
  • You have built evaluation infrastructure for generative AI (human evals, automated evals, red-teaming)
  • You have experience with vector databases (Pinecone, Qdrant, Chroma) and retrieval- augmented systems
  • You have prior experience in the game, entertainment, or interactive media AI space

 

------------------------------

 

Gazaiについて

Gazaiは、次世代のAIコンパニオンアプリ「Anini」を開発する、AIの実用化に特化したスタートアップです。私たちは先進的な生成AIと、インタラクティブな「アニメ風サンドボックス・ビジュアルノベル」という形式を組み合わせ、高い没入感とビジュアルの一貫性を備えたコンパニオンを生み出すことで、急成長するAIチャットボット市場に変革をもたらしています。

私たちの独自モデルは特定のアートスタイル向けにファインチューニングされており、会話と並行して、状況に応じた映像による物語をその場で生成します。2026年以降は、Aniniのキャラクターを「反応するだけのチャットボット」から「自ら考えて動く自律型コンパニオン」へと進化させていきます。SNS・スマートホーム・IoTを通じてユーザーの日常に直接溶け込む、自発的で、感情の一貫した存在を目指しています。

Gazaiは台湾と日本に開発拠点を構えており、チームはAI/ML、フルスタック、モバイル開発にまたがっています。

 

ポジションについて

私たちは、Senior AI Lead(シニアAIリード)を募集しています。これは、生きて呼吸するかのようなコンパニオンゲームを実現するために必要な、あらゆるAIモダリティを設計し、束ねることができる、技術的に卓越したゼネラリストを求めるポジションです。狭い領域の専門家向けの役割ではありません。言語・映像・音声・モーション・エージェントの振る舞いといった領域全体にわたる戦略と実行を担い、それらをシームレスで没入感のある一つの体験として機能させていただきます。

これは、Gazaiにおいて最も上位かつ重要な役割の一つです。AniniのAIアーキテクチャを定義し、成長を続けるAIチームを率い、技術リーダーシップチームの一員として、Chief AI Officer(最高AI責任者)への明確なキャリアパスが用意されています。私たちが「何を作るか」だけでなく、「Gazaiとして AIをどう捉えるか」そのものを形づくっていただきます。

 

担当業務

主な業務内容は以下のとおりです

  • Aniniを支えるマルチモーダルAIシステムの設計とリードを担う LLMによる対話、画像生成、動画合成、サウンドと音声、自律型エージェントを統合し、一貫性のあるリアルタイムなコンパニオン体験へと仕上げ
  • 全モダリティにわたる長期的なAIロードマップを定義・統括し、プロダクトのビジョンを具体的なAI研究・エンジニアリングの優先事項へと落とし込む
  • キャラクターの一貫性を保った画像生成、表現力豊かなTTS、ストーリーを理解するLLM、行動エージェントなど、各領域でのモデル選定・ファインチューニング・事後学習をリードする
  • 自発的で自律的なコンパニオンの振る舞いを実現するエージェントアーキテクチャを設計・統括する(計画立案、記憶、ツール利用、現実世界との連携:SNS・スマートホーム・IoT)
  • レイテンシ・一貫性・ビジュアルの整合性・感情表現・安全性など、あらゆるAI出力にわたる評価フレームワークと品質基準を確立する
  • モデルのサービング、データパイプライン、学習用コンピューティング、コスト最適化など、スケーラブルなAIインフラを構築・運用する
  • AIチームを育成・マネジメントし、職能全体にわたるエンジニアリング文化とベストプラクティスを確立する
  • プロダクト・エンジニアリング・経営の各チームと連携し、AIの技術革新をお客様へ届ける
  • あらゆる関連モダリティにおけるAI研究の最前線を追い、重要なものを素早くプロトタイプ化する

 

応募要件

  • ML/AIエンジニアリングの実務経験7年以上(AIシステムまたはチームのリード経験を含む)
  • 少なくとも2つのAIモダリティにおける実践的な深い経験(例:LLM+画像生成、エージェント+動画合成など)
  • 現代のディープラーニングに関する概念的・実践的な深い理解(Transformer、拡散モデル、自己回帰生成)
  • 大規模モデルのファインチューニングまたは事後学習の経験(RLHF、DPO、LoRAなど)
  • LangGraph、AutoGen、CrewAI、または自作のアーキテクチャを用いたエージェントシステムの設計・リリース経験
  • Pythonの習熟、およびモデルのサービング基盤(vLLM、Triton、Ray Serveなど)への精通
  • システム設計に対する優れた感覚(大規模環境におけるレイテンシ・信頼性・コストのトレードオフ)
  • 部門横断的なAIプロジェクトをリードし、研究・エンジニアリング・プロダクトの各領域にわたって明確にコミュニケーションできる力
  • 日本語(ビジネスレベル)必須。加えて、英語または中国語のビジネスレベルの運用能力も必須
  • 最前線に居続けようとする意欲(習得が速く、研究内容を読み解くリテラシーが高いこと)

 

歓迎要件 ― こんな方は特に活躍いただけます

  • キャラクターの一貫性を保った画像・動画生成、スタイルLoRA、アニメ/イラスト特化のファインチューニングの経験
  • コンシューマー向けプロダクトにおける、リアルタイムまたは低レイテンシのマルチモーダルパイプラインのリリース経験
  • 音声合成、表現力豊かなTTS、サウンド生成AIの経験
  • 生成AI・エージェント・マルチモーダルシステムに関する研究論文の発表、またはオープンソースへの貢献
  • 生成AI向けの評価基盤(人手による評価、自動評価、レッドチーミング)の構築経験
  • ベクトルデータベース(Pinecone、Qdrant、Chroma)および検索拡張(RAG)システムの経
  • ゲーム・エンターテインメント・インタラクティブメディアにおけるAI領域での経験

Gazai creates fun and engaging entertainment through smartphone apps, games, and emerging technologies such as generative AI.

The company uses technology to bring new entertainment experiences to life, focusing on emotionally engaging user experiences that resonate with people. By combining innovative ideas with advanced technology, Gazai aims to shape "slightly futuristic entertainment." The company also develops and operates "anini," an AI character chat app available on iOS and Android.

View GAZAI's company page

↑ Back to top ↑

Senior AI Lead, Multimodal Systems at GAZAI
APPLY NOW  ➜Japanese Required ⚠️