Tokyo

Senior AI Lead, Multimodal Systems

Tokyo
Partial Remote
Full-time
July 14, 2026

About Gazai

Gazai is an applied AI startup developing Anini — a next-generation AI companion application disrupting the rapidly growing AI chatbot market. We combine advanced generative AI with an interactive anime-style sandbox visual novel format to create highly immersive, visuallyconsistent companions.

Our proprietary models are fine-tuned for specific art styles, enabling dynamic, on-demand visual storytelling alongside conversation. For 2026 and beyond, we are evolving Anini characters from reactive chatbots into agent-native autonomous companions — proactive, emotionally coherent presences that integrate directly into users' daily lives through social media, smart home, and IoT.

Gazai has engineering presence across Taiwan and Japan, with a team spanning AI/ML, full-stack, and mobile development.

About the Role

We are hiring a Senior AI Lead — a technically exceptional generalist who can architect and orchestrate the full spectrum of AI modalities needed to bring a living, breathing companion game to life. This is not a narrow specialist role: you will own the strategy and execution across language, vision, audio, motion, and agent behavior, making them work as a seamless, immersive whole.

This is one of the most senior and consequential roles at Gazai. You will define the AI architecture of Anini, lead a growing AI team, and sit on the technology leadership team with a clear path toward Chief AI Officer. You will shape not just what we build, but how we think about AI at Gazai.

Responsibilities

Your responsibilities will include:

Architect and lead the multimodal AI system powering Anini — integrating LLM dialogue, image generation, video synthesis, sound and voice, and autonomous agents into a cohesive, real-time companion experience
Define and own the long-term AI roadmap across all modalities; translate product vision into concrete AI research and engineering priorities
Lead model selection, fine-tuning, and post-training across domains — including character-consistent image generation, expressive TTS, story-aware LLMs, and behavioral agents
Design and oversee agent architectures enabling proactive, autonomous companion behavior: planning, memory, tool use, and real-world integrations (social media, smart home, IoT)
Establish evaluation frameworks and quality standards across all AI outputs — latency, coherence, visual consistency, emotional expressiveness, and safety
Build and manage scalable AI infrastructure: model serving, data pipelines, training compute, and cost optimization
Grow and mentor the AI team; set engineering culture and best practices across the function
Collaborate across product, engineering, and leadership to deliver AI innovations to customers
Track the frontier of AI research across all relevant modalities and rapidly prototype what matters

Qualifications

7+ years of ML/AI engineering experience, including leadership of AI systems or teams
Hands-on depth in at least two AI modalities (e.g. LLMs + image gen, or agents + video synthesis)
Strong conceptual and practical understanding of modern deep learning — transformers, diffusion models, autoregressive generation
Experience fine-tuning or post-training large models (RLHF, DPO, LoRA, etc.)
Experience designing and shipping agentic systems using frameworks such as LangGraph, AutoGen, CrewAI, or custom-built architectures
Proficiency in Python; comfort with model serving infrastructure (e.g. vLLM, Triton, Ray Serve)
Strong instinct for system design: latency, reliability, and cost tradeoffs at scale
Ability to lead cross-functional AI projects and communicate clearly across research, engineering, and product
Japanese required (business level); business-level proficiency in English or Mandarin also required
Eagerness to stay at the frontier — fast learner with strong research literacyBonus — You Will Stand Out If...
You have experience with character-consistent image or video generation, style LoRAs, or anime/illustration-specific fine-tuning
You have shipped real-time or low-latency multimodal pipelines in a consumer product context
You have experience with voice synthesis, expressive TTS, or sound generation AI
You have research publications or open-source contributions in generative AI, agents, or multimodal systems
You have built evaluation infrastructure for generative AI (human evals, automated evals, red-teaming)
You have experience with vector databases (Pinecone, Qdrant, Chroma) and retrieval- augmented systems
You have prior experience in the game, entertainment, or interactive media AI space

------------------------------

Gazaiについて

Gazaiは、次世代のAIコンパニオンアプリ「Anini」を開発する、AIの実用化に特化したスタートアップです。私たちは先進的な生成AIと、インタラクティブな「アニメ風サンドボックス・ビジュアルノベル」という形式を組み合わせ、高い没入感とビジュアルの一貫性を備えたコンパニオンを生み出すことで、急成長するAIチャットボット市場に変革をもたらしています。

私たちの独自モデルは特定のアートスタイル向けにファインチューニングされており、会話と並行して、状況に応じた映像による物語をその場で生成します。2026年以降は、Aniniのキャラクターを「反応するだけのチャットボット」から「自ら考えて動く自律型コンパニオン」へと進化させていきます。SNS・スマートホーム・IoTを通じてユーザーの日常に直接溶け込む、自発的で、感情の一貫した存在を目指しています。

Gazaiは台湾と日本に開発拠点を構えており、チームはAI/ML、フルスタック、モバイル開発にまたがっています。

ポジションについて

私たちは、Senior AI Lead（シニアAIリード）を募集しています。これは、生きて呼吸するかのようなコンパニオンゲームを実現するために必要な、あらゆるAIモダリティを設計し、束ねることができる、技術的に卓越したゼネラリストを求めるポジションです。狭い領域の専門家向けの役割ではありません。言語・映像・音声・モーション・エージェントの振る舞いといった領域全体にわたる戦略と実行を担い、それらをシームレスで没入感のある一つの体験として機能させていただきます。

これは、Gazaiにおいて最も上位かつ重要な役割の一つです。AniniのAIアーキテクチャを定義し、成長を続けるAIチームを率い、技術リーダーシップチームの一員として、Chief AI Officer（最高AI責任者）への明確なキャリアパスが用意されています。私たちが「何を作るか」だけでなく、「Gazaiとして AIをどう捉えるか」そのものを形づくっていただきます。

担当業務

主な業務内容は以下のとおりです。

Aniniを支えるマルチモーダルAIシステムの設計とリードを担う ― LLMによる対話、画像生成、動画合成、サウンドと音声、自律型エージェントを統合し、一貫性のあるリアルタイムなコンパニオン体験へと仕上げる
全モダリティにわたる長期的なAIロードマップを定義・統括し、プロダクトのビジョンを具体的なAI研究・エンジニアリングの優先事項へと落とし込む
キャラクターの一貫性を保った画像生成、表現力豊かなTTS、ストーリーを理解するLLM、行動エージェントなど、各領域でのモデル選定・ファインチューニング・事後学習をリードする
自発的で自律的なコンパニオンの振る舞いを実現するエージェントアーキテクチャを設計・統括する（計画立案、記憶、ツール利用、現実世界との連携：SNS・スマートホーム・IoT）
レイテンシ・一貫性・ビジュアルの整合性・感情表現・安全性など、あらゆるAI出力にわたる評価フレームワークと品質基準を確立する
モデルのサービング、データパイプライン、学習用コンピューティング、コスト最適化など、スケーラブルなAIインフラを構築・運用する
AIチームを育成・マネジメントし、職能全体にわたるエンジニアリング文化とベストプラクティスを確立する
プロダクト・エンジニアリング・経営の各チームと連携し、AIの技術革新をお客様へ届ける
あらゆる関連モダリティにおけるAI研究の最前線を追い、重要なものを素早くプロトタイプ化する

応募要件

ML/AIエンジニアリングの実務経験7年以上（AIシステムまたはチームのリード経験を含む）
少なくとも2つのAIモダリティにおける実践的な深い経験（例：LLM＋画像生成、エージェント＋動画合成など）
現代のディープラーニングに関する概念的・実践的な深い理解（Transformer、拡散モデル、自己回帰生成）
大規模モデルのファインチューニングまたは事後学習の経験（RLHF、DPO、LoRAなど）
LangGraph、AutoGen、CrewAI、または自作のアーキテクチャを用いたエージェントシステムの設計・リリース経験
Pythonの習熟、およびモデルのサービング基盤（vLLM、Triton、Ray Serveなど）への精通
システム設計に対する優れた感覚（大規模環境におけるレイテンシ・信頼性・コストのトレードオフ）
部門横断的なAIプロジェクトをリードし、研究・エンジニアリング・プロダクトの各領域にわたって明確にコミュニケーションできる力
日本語（ビジネスレベル）必須。加えて、英語または中国語のビジネスレベルの運用能力も必須
最前線に居続けようとする意欲（習得が速く、研究内容を読み解くリテラシーが高いこと）

歓迎要件 ― こんな方は特に活躍いただけます

キャラクターの一貫性を保った画像・動画生成、スタイルLoRA、アニメ／イラスト特化のファインチューニングの経験
コンシューマー向けプロダクトにおける、リアルタイムまたは低レイテンシのマルチモーダルパイプラインのリリース経験
音声合成、表現力豊かなTTS、サウンド生成AIの経験
生成AI・エージェント・マルチモーダルシステムに関する研究論文の発表、またはオープンソースへの貢献
生成AI向けの評価基盤（人手による評価、自動評価、レッドチーミング）の構築経験
ベクトルデータベース（Pinecone、Qdrant、Chroma）および検索拡張（RAG）システムの経験
ゲーム・エンターテインメント・インタラクティブメディアにおけるAI領域での経験

-------------------------------

關於 Gazai

Gazai 是一家應用人工智慧新創公司，致力於開發 Anini——一款顛覆快速成長的人工智慧聊天機器人市場的下一代人工智慧伴侶應用。我們將先進的生成式人工智慧與互動式動漫風格的沙盒視覺小說形式結合，打造出高度沉浸式、視覺風格一致的伴侶。

我們自主研發的模型針對特定藝術風格進行了精細調整，實現了動態的、按需的視覺敘事與對話的完美融合。展望 2026 年及以後，我們將把 Anini 的角色從被動式聊天機器人發展成為原生智能體——積極主動、情感連貫的伴侶，並透過社交媒體、智慧家庭和物聯網等平台直接融入用戶的日常生活。

Gazai 的工程團隊遍佈台灣和日本，涵蓋人工智慧/機器學習、全端開發和行動開發等領域。

職位概述

我們正在招募一位高階人工智慧主管——一位技術精湛的通才，能夠架構並統籌打造栩栩如生的陪伴遊戲所需的全部人工智慧模式。這並非專精於特定領域的職位：您將負責語言、視覺、音訊、動作和智能體行為等方面的策略制定和執行，使它們無縫銜接，形成沉浸式體驗。

這是 Gazai 公司最高級別、最具影響力的職位之一。您將定義 Anini 的人工智慧架構，領導不斷壯大的人工智慧團隊，並成為技術領導團隊的一員，擁有清晰的晉昇路徑，最終成為首席人工智慧長。您不僅將塑造我們建構的產品，還將影響 Gazai 對人工智慧的思考方式。

職責

您的職責包括：

架構並領導 Anini 的多模態人工智慧系統——將語言學習對話、圖像生成、視訊合成、聲音和語音以及自主智能體整合到一個連貫的即時陪伴體驗中；

制定並負責所有模態的長期人工智慧路線圖；將產品願景轉化為具體的AI研發和工程優先級

領導跨領域的模型選擇、微調和後訓練工作，包括角色一致性圖像生成、富有表現力的文本轉語音（TTS）、故事感知型語言學習模型（LLM）和行為智能體

設計並監督智能體架構，以實現主動、自主的陪伴行為：規劃、記憶、工具使用和現實世界整合（社交媒體、智慧家庭、物聯網）

建立所有AI輸出的評估框架和品質標準—延遲、一致性、視覺一致性、情緒表達和安全性

建構和管理可擴展的AI基礎設施：模型服務、資料管道、訓練計算和成本優化

發展和指導AI團隊；在整個職能部門建立工程文化和最佳實踐

與產品、工程和領導團隊合作，為客戶交付AI創新成果

追蹤所有相關模式下的AI研究前沿，並快速建立關鍵原型

資質要求

7年以上機器學習/人工智慧工程經驗，包括人工智慧系統或團隊的領導經驗

至少精通兩種人工智慧模型（例如，LLM + 影像生成，或智能體 + 視訊合成）

對現代深度學習（Transformer、擴散模型、自迴歸生成）有深刻的理論與實務理解

有大型模型（RLHF、DPO、LoRa 等）的微調或後訓練經驗

有使用 LangGraph、AutoGen、CrewAI 等框架或自訂架構設計和交付智能體系統的經驗

精通 Python；熟悉模型服務基礎架構（例如 vLLM、Triton、RayServe）

對系統設計有敏銳的洞察力：能夠權衡大規模應用中的延遲、可靠性和成本

能夠領導跨職能的人工智慧項目，並與研發、工程和產品團隊進行清晰有效的溝通

日文流利（商務程度）需具備商務程度的英語或國語能力

渴望走在技術前端－學習能力強，研究能力優異。加分項－如果您具備以下條件，您將脫穎而出：

您擁有角色一致性影像或影片生成、風格化LoRa（低解析度影像辨識）或動漫/插畫特定微調的經驗

您曾在消費性產品環境中交付過即時或低延遲的多模態流程

您擁有語音合成、富有表現力的文字轉語音（TTS）或聲音生成人工智慧的經驗

您曾在生成式人工智慧、智能體或多模態系統方面發表研究論文或做出過開源貢獻

您曾建置過生成式人工智慧的評估基礎設施（人工評估、自動化評估、紅隊演練）

您擁有向量資料庫（Pinecone、Qdrant、Chroma）和檢索增強系統的經驗

您擁有遊戲、娛樂或互動媒體人工智慧領域的經驗

------------------------------

APPLY NOW ➜Japanese Required ⚠️

About GAZAI

Gazai creates fun and engaging entertainment through smartphone apps, games, and emerging technologies such as generative AI.

The company uses technology to bring new entertainment experiences to life, focusing on emotionally engaging user experiences that resonate with people. By combining innovative ideas with advanced technology, Gazai aims to shape "slightly futuristic entertainment." The company also develops and operates "anini," an AI character chat app available on iOS and Android.