SJ blog
ai
A

信頼度ランク

S 公式ソース確認済み
A 成功実績多数・失敗例少数
B 賛否両論
C 動作未確認・セキュリティリスク高
Z 個人所感

Vapi が $50M Series B・$500M 評価額——Amazon Ring が40社超を退けた「声のインフラ」の実像

音声AIインフラスタートアップ Vapi が2026/5/12に$50M Series B を調達。1億通話突破・Amazon Ring が全受電をVapiに移行。エンタープライズ音声エージェント市場の構造変化を解説。

一言結論

Vapiは音声エージェントの「インフラ層」として1億通話を超え、Amazon Ring が40社超を評価した末に100%の受電をVapiに移行した。$50M Series B・$500M評価額は、AIが電話サポートを置き換える市場の立ち上がりを示す。開発者にとっては音声エージェントを本番化するための最短経路のひとつになった。

何が起きたか

2026年5月12日、音声 AI インフラスタートアップ Vapi(バピ) が Series B ラウンドのクローズを発表した。

調達額:      $50M(約75億円)
評価額:      約 $500M(post-money)
リードVC:    Peak XV Partners(旧 Sequoia India/SEA)
参加投資家:  Microsoft M12、Kleiner Perkins、Bessemer Venture Partners
              Y Combinator、既存投資家
累計調達額:  $72M

発表日:      2026年5月12日

同時に公開されたマイルストーン:

累計通話数:  10億通話(1 billion calls)
開発者数:    100万人以上
作成エージェント数: 270万以上
日次通話数:  100万〜500万通話

Vapi とは何か

Vapi は「音声エージェントのインフラ層」を提供するスタートアップだ。

Vapi のポジション:
  ┌─────────────────────────────────────────┐
  │         アプリケーション層               │
  │  カスタマーサポートBot / 予約Bot など    │
  ├─────────────────────────────────────────┤
  │    ← Vapi が担う「インフラ層」 →         │
  │  音声認識(STT)・LLM・音声合成(TTS)  │
  │  のオーケストレーション                 │
  │  割り込み処理・レイテンシ管理           │
  │  ツール呼び出し・ガードレール            │
  ├─────────────────────────────────────────┤
  │         通信インフラ層                  │
  │  Twilio / PSTN / WebRTC                │
  └─────────────────────────────────────────┘

競合製品(Amazon Connect AI・Genesys AI・LivePerson)との違いは、事前パッケージ型アプリケーションではなくインフラ・オーケストレーション層に特化している点だ。企業は LLM・STT・TTS エンジンを選択しながら、Vapi をルーターとして使う。


Amazon Ring の事例:40社超を退けた理由

選定プロセス

Amazon Ring は昨年のホリデーシーズンにカスタマーサポートコールが急増し、AIによる自動対応の導入を決定した。

Ring の選定プロセス:
  評価候補数:  40社超(大手クラウドベンダー含む)
  評価期間:    数ヶ月
  最終選択:    Vapi
  移行範囲:    全受電(100%)をVapiに移行

Vapi が勝った技術的理由

Ring が決め手として挙げた要素:

1. sub-500ms レイテンシ
   - 「電話の間(ま)」= 400〜700ms 以内
   - これを超えると人間は「AIだ」と気付いて態度が変わる
   - Vapi はLLM呼び出し・STT・TTS を並列パイプラインで処理し
     総レイテンシを500ms以下に抑える

2. 自然な割り込み処理(Interruptability)
   - ユーザーが話し始めたら即座にAI の発話を止める
   - 既存システムでは「話し終わるまで待たせる」問題があった
   - Vapi はエンドポイント検出とバッファリングを独自実装

3. コンプライアンス・可観測性
   - 全通話のログ・録音・文字起こしが監査可能
   - ガードレール設定(特定トピックを拒否するルール)
   - Ring のような大企業が求めるエンタープライズSLAを満たす

4. モデル非依存のオーケストレーション
   - GPT-5.5、Claude 3.7、Gemini 2.5、Llama 4 など
     好みの LLM を切り替え可能
   - STTは Deepgram、ElevenLabs Turbo など複数対応
   - ベンダーロックインを避けた設計

Vapi の技術アーキテクチャ

コアパイプライン

通話フロー:
  電話着信(PSTN/WebRTC)

  VAD(Voice Activity Detection)
  → 話し始めを検出

  STT(Speech-to-Text)
  → Deepgram / Whisper などでストリーミング文字起こし

  LLM(大規模言語モデル)
  → ストリーミング生成でトークンが出次第次ステージへ

  TTS(Text-to-Speech)
  → ElevenLabs / OpenAI / Azure TTS でストリーミング合成

  音声出力(通話相手へ)

同時進行:
  - ツール呼び出し(CRM参照・カレンダー予約等)
  - 割り込み検出(ユーザーが話し始めたら現在の発話を中断)
  - ガードレール評価(禁止トピックのリアルタイムフィルタリング)

API でのエージェント作成例

import vapi

client = vapi.Vapi(api_key="YOUR_API_KEY")

# 音声エージェントを定義
assistant = client.assistants.create(
    name="カスタマーサポートエージェント",
    model={
        "provider": "openai",
        "model": "gpt-5.5",
        "messages": [
            {
                "role": "system",
                "content": "あなたはAmazon Ringのサポートエージェントです。"
                           "製品の設定・トラブルシューティングを日本語でサポートしてください。"
            }
        ]
    },
    voice={
        "provider": "11labs",
        "voiceId": "ja-JP-female-1"
    },
    transcriber={
        "provider": "deepgram",
        "model": "nova-3",
        "language": "ja"
    },
    # ツール呼び出しの設定
    tools=[
        {
            "type": "function",
            "function": {
                "name": "check_order_status",
                "description": "注文番号を受け取り、配送状況を返す",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "order_id": {"type": "string"}
                    },
                    "required": ["order_id"]
                }
            }
        }
    ],
    # 500ms レイテンシ最適化設定
    background_sound="office",
    first_message_mode="assistant-speaks-first",
    silence_timeout_seconds=30
)

print(f"エージェント作成完了: {assistant.id}")

企業ユーザーのユースケース

Vapi の主要ユースケース:

インバウンド(受電):
  - カスタマーサポート(Ring、Intuit等)
  - 予約・スケジューリング
  - FAQ対応・一次トリアージ
  - 本人確認(IVR置き換え)

アウトバウンド(発信):
  - アポイントメントリマインダー
  - 支払い督促(ServiceTitan、New York Life)
  - アンケート・フォローアップ
  - 採用スクリーニング(Kavak)

その他:
  - 営業ロールプレイ(セールスコーチング)
  - 多言語対応(70言語以上のSTT)
  - 医療問診・症状チェック

資金の使途と今後の方向性

Series B 調達金の主な用途:
  1. プラットフォームガバナンスの強化
     → ガードレール・ポリシー管理の機能拡充

  2. エージェント信頼性の向上
     → Automatic failover・再試行ロジック
     → SLA: 99.95% 以上の稼働率へ

  3. インフラスケールアウト
     → 日次通話数 500万→5000万への準備
     → グローバルエッジへの分散

  4. コンプライアンス対応
     → HIPAA(医療)・PCI-DSS(決済)対応の強化

開発者が知っておくべきこと

Vapi の料金体系(参考):
  無料枠:    月10分
  従量課金:  $0.05/分(STT/LLM/TTSはモデル別途)
  Enterprise: カスタム(SLAあり)

競合ポジション:
  Vapi     → インフラ・オーケストレーション特化
  Bland AI → シンプルさ重視、中小規模向け
  Retell   → 特定業界向け(医療・不動産)の特化
  OpenAI Realtime API → OpenAIエコシステム内でのDIY

使い始めるべきケース:
  ✅ 月1万通話以上のエンタープライズ用途
  ✅ マルチLLM・マルチSTTのA/Bテストが必要
  ✅ 既存電話システム(Twilio/PSTN)との統合
  ✅ コンプライアンス要件が厳格な業界

使わなくてよいケース:
  ❌ 月100通話以下のプロトタイプ
  ❌ 既にOpenAI Realtime API で十分な場合
  ❌ コストを最小化したいMVP段階

落とし穴・注意点

  • 実際のレイテンシは環境依存: sub-500ms はVapiの主張値。実際は使用LLM・STTモデル・ネットワーク条件・エージェントの複雑さで変わる。本番化前に必ずベンチマーク測定を
  • LLMコストは別途: Vapi の $0.05/分 に加えてLLM使用料がかかる。GPT-5.5を使う場合、トータルコストは $0.15〜0.30/分程度になる可能性がある
  • 1億通話の内訳は非公開: 「高品質な完了通話」と「短時間でドロップした通話」を区別した数値は公開されていないため、実際のエンタープライズ対応品質は個別検証が必要

まとめ・参考リンク

Vapi の Series B は「音声エージェントが実験フェーズを終えた」ことを示すシグナルだ。Amazon Ring が40社超を評価した末にVapiを選び、受電の100%を移行したという事実は、エンタープライズが求める品質(レイテンシ・可観測性・コンプライアンス)を満たせるインフラが整いつつあることを意味する。GPT-Realtime-2のようなモデル APIとVapiのようなオーケストレーション層の両方が揃ったことで、開発者が音声エージェントを本番に持ち込むハードルが大きく下がった。

参考リンク:

注意事項: 料金体系・日次通話数は2026年5月時点の公開情報に基づく推定値。実際の料金は公式サイトで確認すること。「sub-500ms レイテンシ」はVapiの公称値であり、環境・モデルによって異なる。Amazon Ring の移行範囲(100%受電)はTechCrunchの報道に基づく。