信頼度ランク
| S | 公式ソース確認済み |
| A | 成功実績多数・失敗例少数 |
| B | 賛否両論 |
| C | 動作未確認・セキュリティリスク高 |
| Z | 個人所感 |
Vapi が $50M Series B・$500M 評価額——Amazon Ring が40社超を退けた「声のインフラ」の実像
音声AIインフラスタートアップ Vapi が2026/5/12に$50M Series B を調達。1億通話突破・Amazon Ring が全受電をVapiに移行。エンタープライズ音声エージェント市場の構造変化を解説。
一言結論
Vapiは音声エージェントの「インフラ層」として1億通話を超え、Amazon Ring が40社超を評価した末に100%の受電をVapiに移行した。$50M Series B・$500M評価額は、AIが電話サポートを置き換える市場の立ち上がりを示す。開発者にとっては音声エージェントを本番化するための最短経路のひとつになった。
何が起きたか
2026年5月12日、音声 AI インフラスタートアップ Vapi(バピ) が Series B ラウンドのクローズを発表した。
調達額: $50M(約75億円)
評価額: 約 $500M(post-money)
リードVC: Peak XV Partners(旧 Sequoia India/SEA)
参加投資家: Microsoft M12、Kleiner Perkins、Bessemer Venture Partners
Y Combinator、既存投資家
累計調達額: $72M
発表日: 2026年5月12日
同時に公開されたマイルストーン:
累計通話数: 10億通話(1 billion calls)
開発者数: 100万人以上
作成エージェント数: 270万以上
日次通話数: 100万〜500万通話
Vapi とは何か
Vapi は「音声エージェントのインフラ層」を提供するスタートアップだ。
Vapi のポジション:
┌─────────────────────────────────────────┐
│ アプリケーション層 │
│ カスタマーサポートBot / 予約Bot など │
├─────────────────────────────────────────┤
│ ← Vapi が担う「インフラ層」 → │
│ 音声認識(STT)・LLM・音声合成(TTS) │
│ のオーケストレーション │
│ 割り込み処理・レイテンシ管理 │
│ ツール呼び出し・ガードレール │
├─────────────────────────────────────────┤
│ 通信インフラ層 │
│ Twilio / PSTN / WebRTC │
└─────────────────────────────────────────┘
競合製品(Amazon Connect AI・Genesys AI・LivePerson)との違いは、事前パッケージ型アプリケーションではなくインフラ・オーケストレーション層に特化している点だ。企業は LLM・STT・TTS エンジンを選択しながら、Vapi をルーターとして使う。
Amazon Ring の事例:40社超を退けた理由
選定プロセス
Amazon Ring は昨年のホリデーシーズンにカスタマーサポートコールが急増し、AIによる自動対応の導入を決定した。
Ring の選定プロセス:
評価候補数: 40社超(大手クラウドベンダー含む)
評価期間: 数ヶ月
最終選択: Vapi
移行範囲: 全受電(100%)をVapiに移行
Vapi が勝った技術的理由
Ring が決め手として挙げた要素:
1. sub-500ms レイテンシ
- 「電話の間(ま)」= 400〜700ms 以内
- これを超えると人間は「AIだ」と気付いて態度が変わる
- Vapi はLLM呼び出し・STT・TTS を並列パイプラインで処理し
総レイテンシを500ms以下に抑える
2. 自然な割り込み処理(Interruptability)
- ユーザーが話し始めたら即座にAI の発話を止める
- 既存システムでは「話し終わるまで待たせる」問題があった
- Vapi はエンドポイント検出とバッファリングを独自実装
3. コンプライアンス・可観測性
- 全通話のログ・録音・文字起こしが監査可能
- ガードレール設定(特定トピックを拒否するルール)
- Ring のような大企業が求めるエンタープライズSLAを満たす
4. モデル非依存のオーケストレーション
- GPT-5.5、Claude 3.7、Gemini 2.5、Llama 4 など
好みの LLM を切り替え可能
- STTは Deepgram、ElevenLabs Turbo など複数対応
- ベンダーロックインを避けた設計
Vapi の技術アーキテクチャ
コアパイプライン
通話フロー:
電話着信(PSTN/WebRTC)
↓
VAD(Voice Activity Detection)
→ 話し始めを検出
↓
STT(Speech-to-Text)
→ Deepgram / Whisper などでストリーミング文字起こし
↓
LLM(大規模言語モデル)
→ ストリーミング生成でトークンが出次第次ステージへ
↓
TTS(Text-to-Speech)
→ ElevenLabs / OpenAI / Azure TTS でストリーミング合成
↓
音声出力(通話相手へ)
同時進行:
- ツール呼び出し(CRM参照・カレンダー予約等)
- 割り込み検出(ユーザーが話し始めたら現在の発話を中断)
- ガードレール評価(禁止トピックのリアルタイムフィルタリング)
API でのエージェント作成例
import vapi
client = vapi.Vapi(api_key="YOUR_API_KEY")
# 音声エージェントを定義
assistant = client.assistants.create(
name="カスタマーサポートエージェント",
model={
"provider": "openai",
"model": "gpt-5.5",
"messages": [
{
"role": "system",
"content": "あなたはAmazon Ringのサポートエージェントです。"
"製品の設定・トラブルシューティングを日本語でサポートしてください。"
}
]
},
voice={
"provider": "11labs",
"voiceId": "ja-JP-female-1"
},
transcriber={
"provider": "deepgram",
"model": "nova-3",
"language": "ja"
},
# ツール呼び出しの設定
tools=[
{
"type": "function",
"function": {
"name": "check_order_status",
"description": "注文番号を受け取り、配送状況を返す",
"parameters": {
"type": "object",
"properties": {
"order_id": {"type": "string"}
},
"required": ["order_id"]
}
}
}
],
# 500ms レイテンシ最適化設定
background_sound="office",
first_message_mode="assistant-speaks-first",
silence_timeout_seconds=30
)
print(f"エージェント作成完了: {assistant.id}")
企業ユーザーのユースケース
Vapi の主要ユースケース:
インバウンド(受電):
- カスタマーサポート(Ring、Intuit等)
- 予約・スケジューリング
- FAQ対応・一次トリアージ
- 本人確認(IVR置き換え)
アウトバウンド(発信):
- アポイントメントリマインダー
- 支払い督促(ServiceTitan、New York Life)
- アンケート・フォローアップ
- 採用スクリーニング(Kavak)
その他:
- 営業ロールプレイ(セールスコーチング)
- 多言語対応(70言語以上のSTT)
- 医療問診・症状チェック
資金の使途と今後の方向性
Series B 調達金の主な用途:
1. プラットフォームガバナンスの強化
→ ガードレール・ポリシー管理の機能拡充
2. エージェント信頼性の向上
→ Automatic failover・再試行ロジック
→ SLA: 99.95% 以上の稼働率へ
3. インフラスケールアウト
→ 日次通話数 500万→5000万への準備
→ グローバルエッジへの分散
4. コンプライアンス対応
→ HIPAA(医療)・PCI-DSS(決済)対応の強化
開発者が知っておくべきこと
Vapi の料金体系(参考):
無料枠: 月10分
従量課金: $0.05/分(STT/LLM/TTSはモデル別途)
Enterprise: カスタム(SLAあり)
競合ポジション:
Vapi → インフラ・オーケストレーション特化
Bland AI → シンプルさ重視、中小規模向け
Retell → 特定業界向け(医療・不動産)の特化
OpenAI Realtime API → OpenAIエコシステム内でのDIY
使い始めるべきケース:
✅ 月1万通話以上のエンタープライズ用途
✅ マルチLLM・マルチSTTのA/Bテストが必要
✅ 既存電話システム(Twilio/PSTN)との統合
✅ コンプライアンス要件が厳格な業界
使わなくてよいケース:
❌ 月100通話以下のプロトタイプ
❌ 既にOpenAI Realtime API で十分な場合
❌ コストを最小化したいMVP段階
落とし穴・注意点
- 実際のレイテンシは環境依存: sub-500ms はVapiの主張値。実際は使用LLM・STTモデル・ネットワーク条件・エージェントの複雑さで変わる。本番化前に必ずベンチマーク測定を
- LLMコストは別途: Vapi の $0.05/分 に加えてLLM使用料がかかる。GPT-5.5を使う場合、トータルコストは $0.15〜0.30/分程度になる可能性がある
- 1億通話の内訳は非公開: 「高品質な完了通話」と「短時間でドロップした通話」を区別した数値は公開されていないため、実際のエンタープライズ対応品質は個別検証が必要
まとめ・参考リンク
Vapi の Series B は「音声エージェントが実験フェーズを終えた」ことを示すシグナルだ。Amazon Ring が40社超を評価した末にVapiを選び、受電の100%を移行したという事実は、エンタープライズが求める品質(レイテンシ・可観測性・コンプライアンス)を満たせるインフラが整いつつあることを意味する。GPT-Realtime-2のようなモデル APIとVapiのようなオーケストレーション層の両方が揃ったことで、開発者が音声エージェントを本番に持ち込むハードルが大きく下がった。
参考リンク:
- Vapi raises $50M Series B as it reaches 1 billion calls - GlobeNewswire
- AI voice startup Vapi hits $500M valuation after winning Amazon Ring over 40 rivals - TechCrunch
- Vapi nabs $50M to make voice AI more human - SiliconAngle
- Vapi Developer Documentation
- r/startups - Vapi discussion
- r/MachineLearning - voice AI discussion
注意事項: 料金体系・日次通話数は2026年5月時点の公開情報に基づく推定値。実際の料金は公式サイトで確認すること。「sub-500ms レイテンシ」はVapiの公称値であり、環境・モデルによって異なる。Amazon Ring の移行範囲(100%受電)はTechCrunchの報道に基づく。