Featherless.ai $20M調達——5秒ホットスワップで30,000以上のオープンモデルをサーバーレス化する仕組みと実際の使い方

何が起きたか

2026年4月30日、サーバーレスAI推論プラットフォームのFeatherless.aiが、AMD VenturesとAirbus Ventures共同主導で**$20M Series A**を調達したと発表した。BMW i Ventures・Kickstart Ventures・Panache Ventures・Wavemaker Venturesも参加している。

Featherless.aiは2023年にEugene Cheah・Harrison Vanderbyl・Wesley Georgeが共同創業（本社はシンガポール）。HuggingFaceに存在する30,000以上のオープン重みモデルをOpenAI互換APIで提供するサービスで、月額$10の定額制という独自のビジネスモデルを持つ。

技術の核心：ホットスワップとは何か

従来のAI推論サービスは、モデルごとに専用のGPUを割り当て続ける方式をとっていた。これがコスト高の原因だ。

従来方式（プロプライエタリサービス含む）:
GPU A → モデルX専用（アイドル時も課金）
GPU B → モデルY専用（アイドル時も課金）
GPU C → モデルZ専用（アイドル時も課金）

問題: ほとんどのモデルはほとんどの時間アイドル状態
コスト: リクエスト量に関係なく発生

Featherlessのホットスワップ方式:
共有GPUプール
├─ リクエストAが来る → モデルXを5秒以内にロード → 処理 → アンロード
├─ リクエストBが来る → モデルYを5秒以内にロード → 処理 → アンロード
└─ 同GPUが複数モデルを時分割で処理

メリット: アイドルコストゼロ・月額定額制が成立する

このホットスワップ技術により、30,000モデルの全カタログを単一の最適化されたGPUプールから提供できる。

提供モデルと料金体系

対応モデルカテゴリ（一例）:
├─ テキスト生成: Llama 3系・Qwen系・Mistral系・DeepSeek系・RWKV
├─ コーディング: DeepSeek Coder・CodeLlama・WizardCoder
├─ 多言語対応: 日本語特化モデル多数（Swallow・ELYZA等）
├─ 画像認識: LLaVA・InternVL系
└─ 音声: Whisper各種

料金（2026年5月時点）:
├─ 個人プラン: $10/月（固定容量）
├─ 法人プラン: カスタム（従量課金 or 固定容量）
└─ 無料枠: あり（詳細はfeatherless.aiで確認）

開発者が今すぐ使う方法

OpenAI互換APIで即日移行

Featherless.aiはOpenAI互換のエンドポイントを提供しているため、base_urlを差し替えるだけで使える。

from openai import OpenAI

# ❌ 現状（OpenAI直接）
client_openai = OpenAI(api_key="sk-...")

# ✅ Featherlessに移行（ほぼそのまま）
client = OpenAI(
    base_url="https://api.featherless.ai/v1",
    api_key="your-featherless-api-key"
)

# 日本語特化モデル（ELYZAなど）を指定
response = client.chat.completions.create(
    model="elyza/Llama-3-ELYZA-JP-8B",  # HuggingFaceのモデルIDそのまま
    messages=[
        {"role": "user", "content": "Pythonの非同期I/Oを初心者向けに説明してください"}
    ]
)
print(response.choices[0].message.content)

LangChainとの組み合わせ

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    base_url="https://api.featherless.ai/v1",
    api_key="your-featherless-api-key",
    model="mistralai/Mistral-7B-Instruct-v0.3",
    temperature=0.7
)

# 通常のLangChainコードをそのまま使用
from langchain.schema import HumanMessage
response = llm([HumanMessage(content="Rustのライフタイムを説明して")])

モデル選択のベストプラクティス

# タスクごとのモデル選択例

TASK_MODELS = {
    # 日本語処理
    "japanese_qa": "elyza/Llama-3-ELYZA-JP-8B",
    "japanese_instruct": "tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.3",

    # コーディング
    "code_completion": "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct",
    "code_review": "Qwen/Qwen2.5-Coder-32B-Instruct",

    # 汎用（コスト重視）
    "general_cheap": "mistralai/Mistral-7B-Instruct-v0.3",
    "general_quality": "meta-llama/Meta-Llama-3.1-70B-Instruct",
}

def create_client(task: str):
    client = OpenAI(
        base_url="https://api.featherless.ai/v1",
        api_key="your-featherless-api-key"
    )
    model = TASK_MODELS.get(task, "mistralai/Mistral-7B-Instruct-v0.3")
    return client, model

AMD ROCmネイティブ対応の意味

Featherless.aiはAMDとの戦略的提携により、AMD ROCmでの実行を保証している。

業界の現状（2026年）:
NVIDIA CUDA → 圧倒的デファクト・高コスト・供給制約
AMD ROCm   → 価格競争力あり・供給安定・でもソフトウェア互換性に課題

Featherless + AMD の価値:
├─ 30,000モデル全てのROCm互換性を保証（運用負担をFeatherlessが吸収）
├─ AMD Instinct MI300Xなど最新GPU上でのパフォーマンス最適化
└─ 開発者はCUDA依存なしでオープンモデルを使える

プロプライエタリAIとの比較

用途別の使い分け判断基準

Featherless（オープンモデル）が有利なケース:
✅ 特定言語・ドメインに特化したモデルを使いたい（日本語・医療・法律等）
✅ データをサードパーティに送りたくない（プライバシー規制）
✅ コスト予測可能な定額制が必要
✅ モデルの重みを手元に持って自己ホストへの移行も視野に入れている

OpenAI / Anthropic が有利なケース:
✅ フロンティアモデルの最高性能が必要（GPT-5.5、Claude Opus 4.7等）
✅ コンピュータ使用・高度なtool use・大規模エージェントが必要
✅ SLAと公式サポートが必須

注意点・未確認事項

ホットスワップのレイテンシ: 初回リクエスト時に最大5秒の「コールドスタート」が発生する。レイテンシが厳格なリアルタイムアプリケーションには適さない可能性がある。
全30,000モデルの品質保証: モデル数が多い分、個別モデルの推論精度や互換性の検証は難しい。重要なタスクは事前に品質確認が必要。
modified MIT等のライセンス変種: HuggingFace上のモデルには様々なライセンスが存在する。商用利用前に各モデルのライセンスを個別確認すること（Featherless側での一括保証はない）。
Series A資金の使途: グローバルインフラ拡張・AMD統合・オープンモデルマーケットプレイス構築が予定されているが、具体的なロードマップは未公開。

参考リンク

注記: 料金プランの詳細・対応モデル一覧・SLAは本稿執筆時点（2026-05-04）での情報。最新の状況は featherless.ai 公式サイトで確認すること。

S	公式ソース確認済み
A	成功実績多数・失敗例少数
B	賛否両論
C	動作未確認・セキュリティリスク高
Z	個人所感