Vapi が $50M Series B・$500M 評価額——Amazon Ring が40社超を退けた「声のインフラ」の実像

何が起きたか

2026年5月12日、音声 AI インフラスタートアップ Vapi（バピ） が Series B ラウンドのクローズを発表した。

調達額:      $50M（約75億円）
評価額:      約 $500M（post-money）
リードVC:    Peak XV Partners（旧 Sequoia India/SEA）
参加投資家:  Microsoft M12、Kleiner Perkins、Bessemer Venture Partners
              Y Combinator、既存投資家
累計調達額:  $72M

発表日:      2026年5月12日

同時に公開されたマイルストーン：

累計通話数:  10億通話（1 billion calls）
開発者数:    100万人以上
作成エージェント数: 270万以上
日次通話数:  100万〜500万通話

Vapi とは何か

Vapi は「音声エージェントのインフラ層」を提供するスタートアップだ。

Vapi のポジション:
  ┌─────────────────────────────────────────┐
  │         アプリケーション層               │
  │  カスタマーサポートBot / 予約Bot など    │
  ├─────────────────────────────────────────┤
  │    ← Vapi が担う「インフラ層」 →         │
  │  音声認識（STT）・LLM・音声合成（TTS）  │
  │  のオーケストレーション                 │
  │  割り込み処理・レイテンシ管理           │
  │  ツール呼び出し・ガードレール            │
  ├─────────────────────────────────────────┤
  │         通信インフラ層                  │
  │  Twilio / PSTN / WebRTC                │
  └─────────────────────────────────────────┘

競合製品（Amazon Connect AI・Genesys AI・LivePerson）との違いは、事前パッケージ型アプリケーションではなくインフラ・オーケストレーション層に特化している点だ。企業は LLM・STT・TTS エンジンを選択しながら、Vapi をルーターとして使う。

Amazon Ring の事例：40社超を退けた理由

選定プロセス

Amazon Ring は昨年のホリデーシーズンにカスタマーサポートコールが急増し、AIによる自動対応の導入を決定した。

Ring の選定プロセス:
  評価候補数:  40社超（大手クラウドベンダー含む）
  評価期間:    数ヶ月
  最終選択:    Vapi
  移行範囲:    全受電（100%）をVapiに移行

Vapi が勝った技術的理由

Ring が決め手として挙げた要素：

1. sub-500ms レイテンシ
   - 「電話の間（ま）」= 400〜700ms 以内
   - これを超えると人間は「AIだ」と気付いて態度が変わる
   - Vapi はLLM呼び出し・STT・TTS を並列パイプラインで処理し
     総レイテンシを500ms以下に抑える

2. 自然な割り込み処理（Interruptability）
   - ユーザーが話し始めたら即座にAI の発話を止める
   - 既存システムでは「話し終わるまで待たせる」問題があった
   - Vapi はエンドポイント検出とバッファリングを独自実装

3. コンプライアンス・可観測性
   - 全通話のログ・録音・文字起こしが監査可能
   - ガードレール設定（特定トピックを拒否するルール）
   - Ring のような大企業が求めるエンタープライズSLAを満たす

4. モデル非依存のオーケストレーション
   - GPT-5.5、Claude 3.7、Gemini 2.5、Llama 4 など
     好みの LLM を切り替え可能
   - STTは Deepgram、ElevenLabs Turbo など複数対応
   - ベンダーロックインを避けた設計

Vapi の技術アーキテクチャ

コアパイプライン

通話フロー:
  電話着信（PSTN/WebRTC）
       ↓
  VAD（Voice Activity Detection）
  → 話し始めを検出
       ↓
  STT（Speech-to-Text）
  → Deepgram / Whisper などでストリーミング文字起こし
       ↓
  LLM（大規模言語モデル）
  → ストリーミング生成でトークンが出次第次ステージへ
       ↓
  TTS（Text-to-Speech）
  → ElevenLabs / OpenAI / Azure TTS でストリーミング合成
       ↓
  音声出力（通話相手へ）

同時進行:
  - ツール呼び出し（CRM参照・カレンダー予約等）
  - 割り込み検出（ユーザーが話し始めたら現在の発話を中断）
  - ガードレール評価（禁止トピックのリアルタイムフィルタリング）

API でのエージェント作成例

import vapi

client = vapi.Vapi(api_key="YOUR_API_KEY")

# 音声エージェントを定義
assistant = client.assistants.create(
    name="カスタマーサポートエージェント",
    model={
        "provider": "openai",
        "model": "gpt-5.5",
        "messages": [
            {
                "role": "system",
                "content": "あなたはAmazon Ringのサポートエージェントです。"
                           "製品の設定・トラブルシューティングを日本語でサポートしてください。"
            }
        ]
    },
    voice={
        "provider": "11labs",
        "voiceId": "ja-JP-female-1"
    },
    transcriber={
        "provider": "deepgram",
        "model": "nova-3",
        "language": "ja"
    },
    # ツール呼び出しの設定
    tools=[
        {
            "type": "function",
            "function": {
                "name": "check_order_status",
                "description": "注文番号を受け取り、配送状況を返す",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "order_id": {"type": "string"}
                    },
                    "required": ["order_id"]
                }
            }
        }
    ],
    # 500ms レイテンシ最適化設定
    background_sound="office",
    first_message_mode="assistant-speaks-first",
    silence_timeout_seconds=30
)

print(f"エージェント作成完了: {assistant.id}")

企業ユーザーのユースケース

Vapi の主要ユースケース:

インバウンド（受電）:
  - カスタマーサポート（Ring、Intuit等）
  - 予約・スケジューリング
  - FAQ対応・一次トリアージ
  - 本人確認（IVR置き換え）

アウトバウンド（発信）:
  - アポイントメントリマインダー
  - 支払い督促（ServiceTitan、New York Life）
  - アンケート・フォローアップ
  - 採用スクリーニング（Kavak）

その他:
  - 営業ロールプレイ（セールスコーチング）
  - 多言語対応（70言語以上のSTT）
  - 医療問診・症状チェック

資金の使途と今後の方向性

Series B 調達金の主な用途:
  1. プラットフォームガバナンスの強化
     → ガードレール・ポリシー管理の機能拡充

  2. エージェント信頼性の向上
     → Automatic failover・再試行ロジック
     → SLA: 99.95% 以上の稼働率へ

  3. インフラスケールアウト
     → 日次通話数 500万→5000万への準備
     → グローバルエッジへの分散

  4. コンプライアンス対応
     → HIPAA（医療）・PCI-DSS（決済）対応の強化

開発者が知っておくべきこと

Vapi の料金体系（参考）:
  無料枠:    月10分
  従量課金:  $0.05/分（STT/LLM/TTSはモデル別途）
  Enterprise: カスタム（SLAあり）

競合ポジション:
  Vapi     → インフラ・オーケストレーション特化
  Bland AI → シンプルさ重視、中小規模向け
  Retell   → 特定業界向け（医療・不動産）の特化
  OpenAI Realtime API → OpenAIエコシステム内でのDIY

使い始めるべきケース:
  ✅ 月1万通話以上のエンタープライズ用途
  ✅ マルチLLM・マルチSTTのA/Bテストが必要
  ✅ 既存電話システム（Twilio/PSTN）との統合
  ✅ コンプライアンス要件が厳格な業界

使わなくてよいケース:
  ❌ 月100通話以下のプロトタイプ
  ❌ 既にOpenAI Realtime API で十分な場合
  ❌ コストを最小化したいMVP段階

落とし穴・注意点

実際のレイテンシは環境依存: sub-500ms はVapiの主張値。実際は使用LLM・STTモデル・ネットワーク条件・エージェントの複雑さで変わる。本番化前に必ずベンチマーク測定を
LLMコストは別途: Vapi の $0.05/分に加えてLLM使用料がかかる。GPT-5.5を使う場合、トータルコストは $0.15〜0.30/分程度になる可能性がある
1億通話の内訳は非公開: 「高品質な完了通話」と「短時間でドロップした通話」を区別した数値は公開されていないため、実際のエンタープライズ対応品質は個別検証が必要

まとめ・参考リンク

Vapi の Series B は「音声エージェントが実験フェーズを終えた」ことを示すシグナルだ。Amazon Ring が40社超を評価した末にVapiを選び、受電の100%を移行したという事実は、エンタープライズが求める品質（レイテンシ・可観測性・コンプライアンス）を満たせるインフラが整いつつあることを意味する。GPT-Realtime-2のようなモデル APIとVapiのようなオーケストレーション層の両方が揃ったことで、開発者が音声エージェントを本番に持ち込むハードルが大きく下がった。

参考リンク:

注意事項: 料金体系・日次通話数は2026年5月時点の公開情報に基づく推定値。実際の料金は公式サイトで確認すること。「sub-500ms レイテンシ」はVapiの公称値であり、環境・モデルによって異なる。Amazon Ring の移行範囲（100%受電）はTechCrunchの報道に基づく。

S	公式ソース確認済み
A	成功実績多数・失敗例少数
B	賛否両論
C	動作未確認・セキュリティリスク高
Z	個人所感