CompreSSM：訓練中にAIモデルを圧縮する制御理論アプローチ

大規模言語モデルの実用化における恒常的な課題が計算コストだ。Transformerの代替として注目される状態空間モデル（SSM: State Space Model）（Mambaが代表例）も例外ではない。モデルを小さくしたい場合、従来のアプローチは「大きなモデルを訓練してから圧縮する」か「最初から小さいモデルを訓練する」かの二択だった。MIT CSAILらの研究チームが発表した CompreSSM は、この二択を「訓練中に圧縮する」という第三の道で解決する。

本研究はICLR 2026（International Conference on Learning Representations）に採択され、2026年4月に発表予定だ。

なぜ「訓練後の圧縮」では不十分か

既存の圧縮手法には本質的なトレードオフがある。

❌ 訓練後の量子化・プルーニング

訓練済みモデルの精度を削って小さくするため、精度損失が避けにくい
圧縮対象のモデルを最初にフルサイズで訓練する必要があり、初期コストが高い

❌ 最初から小さいモデルを訓練

計算効率は良いが、大きいモデルが学習できる表現力に届かない
モデルサイズの選択が事前に固定され、柔軟性が低い

CompreSSMはこの問題を「学習しながら削る」アプローチで回避する。

制御理論から借りた道具：均衡打ち切り

SSMは数学的に線形動的システムとして表現できる。これは制御工学で長く研究されてきた分野と同じ数学的構造を持つ。

CompreSSMが採用するのは**均衡打ち切り（Balanced Truncation）**という古典的な制御理論の手法だ。

仕組み

モデルの各「状態」が出力にどれだけ影響を与えるかを**ハンケル特異値（Hankel Singular Values）**で定量化する
影響が小さい状態を「死重」として特定する
訓練の途中でこれらの低影響状態を外科的に削除する

訓練開始：Mambaモデル（次元: 128）
      ↓
  ハンケル特異値を計算
      ↓
  低影響状態を削除
      ↓
  圧縮モデル（次元: ~12）で訓練継続
      ↓
  訓練完了

削除の判断が「訓練の途中」で行われるため、最初からモデルの構造を固定する必要がない。大きく始めて、データから学びながら無駄を発見し、外科的に削る、という流れだ。

ベンチマーク結果

主要なSSMアーキテクチャである Mamba での実験結果は顕著だ。

比較対象	速度比	精度
Hankel核ノルム正則化（既存手法）	1x	低い
CompreSSM	40倍以上	高い

さらに、128次元のMambaモデルを約12次元まで圧縮しながら、競合手法より高い精度を維持した。全体としての訓練高速化は約4倍に達する。精度と速度を同時に改善できているのは、訓練中に必要な表現を学習しながら削るため、圧縮後のモデルが学習済み知識を持つためだ。

どのモデルに適用できるか

CompreSSMが対象とするのはSSM全般だ。具体的には：

言語処理：Mamba系のテキストモデル
音声生成：音声合成や音声認識のSSMバックエンド
ロボティクス：状態推定に使われるSSM

Transformer系モデルには直接適用できないが、SSMを研究・実装している組織にとっては実践的な手法だ。

研究チームと実装

arXiv論文：arxiv.org/abs/2510.02823
GitHubリポジトリ：github.com/camail-official/compressm

研究チームはMIT CSAIL、Max Planck Institute for Intelligent Systems、ELLIS（European Laboratory for Learning and Intelligent Systems）、ETH Zurich、Liquid AIの共同チームだ。

注意点・未確認事項

実験の大部分はMambaで行われており、他のSSMアーキテクチャでの再現性は個別に確認が必要
推論コストの削減幅は訓練コストの削減幅と必ずしも一致しない
Transformer系モデルへの応用は本論文の対象外

まとめ

CompreSSMは「大きく始めて、必要なだけ削る」という直感的なアプローチをSSMに適用した研究だ。制御理論という既存の数理的基盤を活用することで、精度と効率の両立を実現している。SSMを実際に訓練・運用している開発者や研究者にとって、訓練コスト削減の実用的な選択肢となりうる。

S	公式ソース確認済み
A	成功実績多数・失敗例少数
B	賛否両論
C	動作未確認・セキュリティリスク高
Z	個人所感