Framepack AI

次世代AIによる動画生成

品質を損なうことなく効率的な長尺動画生成を可能にする革新的なAIニューラルネットワーク構造

Framepack AI 概要

Framepack AIは、スタンフォード大学の研究者によって開発された画期的なニューラルネットワーク構造であり、動画生成モデルが長尺コンテンツを扱う方法に革命をもたらします。

Framepack AIは、その中核において、長らく動画生成システムを悩ませてきた根本的な「忘却と漂流のジレンマ」を解決します。重要度に基づいてフレームを優先する革新的な圧縮技術を実装することにより、Framepack AIは動画の長さに依存せず、固定されたトランスフォーマーコンテキスト長を維持します。

この成果により、AIシステムは計算要件を増やすことなく、大幅に多くのフレームを処理できるようになり、長尺動画の生成が単に可能になるだけでなく、実用的かつ効率的になりました。

Framepack AIの主なイノベーション

  • 固定コンテキスト長

    入力動画の長さに依存せず、計算上のボトルネックを一定に保つことで、より長い動画の効率的な処理を可能にする

  • プログレッシブ圧縮

    重要度の低いフレームにはより高い圧縮率を適用し、重要な視覚情報を維持しながらメモリ使用量を最適化する

  • アンチドリフティングサンプリング

    時間経過による品質劣化を防ぐため、双方向のコンテキストを用いてフレームを生成する新規サンプリング手法

  • 互換性のあるアーキテクチャ

    既存の事前学習済み動画拡散モデルと連携し、ゼロからの再学習ではなくファインチューニングによって機能する

  • Balanced Diffusion

    視覚的な品質を向上させるため、極端なフローシフトタイムステップが少ない、よりバランスの取れた拡散スケジューラをサポートします。

  • より高いバッチサイズ

    画像拡散モデルに匹敵するバッチサイズでの学習を可能にし、学習プロセスを大幅に加速します。

AI動画生成における忘却とドリフトのジレンマ

FramePack AIが解決する2つの主要な課題

忘却

モデルが以前のコンテンツを記憶し、一貫した時間的依存関係を維持するのに苦労するにつれて、記憶が薄れていく。

ドリフト

時間経過に伴うエラー蓄積による視覚品質の反復的な劣化(露出バイアスとも呼ばれる)。

パラドックス

記憶を強化することで忘却を軽減する手法はエラー蓄積を加速させる可能性があり、一方、エラー伝播を遮断することでドリフトを抑制する手法は忘却を悪化させる可能性がある。

なぜこれが重要なのか

動画生成モデルは、動画の再生時間全体を通して一貫性と品質を維持する長い動画を作成することに苦慮してきました。この制限により、AI生成動画の実用的な応用が制限されてきました。

モデルがより長い動画を生成しようとする場合、以下のいずれかの方法をとります。

  • 以前のフレームの詳細を忘れ、キャラクター、設定、またはアクションに一貫性のない状態を引き起こす
  • 時間とともに蓄積・複合化するエラーが、視覚的な劣化やアーティファクトを引き起こす

FramePackの革新的なアプローチは、これら両方の課題に同時に取り組み、AI生成コンテンツ作成に新たな可能性を開きます。

Framepack AIの仕組み

プログレッシブフレーム圧縮

Framepack AIの核となるイノベーションは、予測タスクに対する重要度に基づいて入力フレームを異なる方法で扱う圧縮技術です。

重要度の低いフレームに段階的な圧縮を適用する長さ関数を使用することで、Framepack AIは総コンテキスト長が固定された上限に収束することを保証し、入力ビデオの長さに依存しない計算を実現します。

L = S·Lf + Lf·(1 - 1/λT)/(1 - 1/λ)

ここで、Lは合計コンテキスト長、Sは予測するフレーム数、Lfはフレームごとのコンテキスト長、λは圧縮パラメータ、Tは入力フレーム数である。

F0
F1
F2
F3
...
FT-1

相対圧縮率を用いた典型的な等比数列: 1, 1/2, 1/4, 1/8, 1/16...

F0
F1
F2
F3
...
FT-1

重複レベルを持つ進行:1、1/4、1/4、1/4、1/16、1/16...

F0
F1,F2
F3-F6
F7-F14
...

時間カーネルによる進行(1つのテンソルに複数のフレーム)

ドリフト防止サンプリング手法

FramePackは、品質劣化を防ぐために異なる時間順序でフレームを生成する革新的なサンプリングアプローチを導入しています。

バニラサンプリング

入力フレーム
X₀
?
?
?
?
反復1:最初のフレームX₀を生成する
Input
X₀
X₁
?
?
?
反復2:入力 + X₀を用いてX₁を生成する
In
X₀,X₁,X₂
X₃
?
?
?
反復 3: シーケンスを継続

時間的な順序で将来のフレームを反復的に予測するが、時間の経過とともに誤差が蓄積するためドリフトが発生する。

アンチドリフトサンプリング

入力フレーム
X₀
?
?
X₅
...
反復1:開始フレームと終了フレームの生成
Input + X₀
...
X₃
...
X₅
...
反復2:中間部分を埋める
Input + X₀
X₁
X₃
X₄
X₅
...
イテレーション3:残りのギャップを埋める

まず開始部分と終了部分を生成し、次にこれらのアンカー間のギャップを埋めることで、ドリフトを防ぐ。

逆転型アンチドリフト

User
?
?
?
?
X₅
反復1:開始フレームと終了フレームの生成
User
?
?
?
X₄
X₅
反復2:フレームを逆順に生成
User
X₁
X₂
X₃
X₄
X₅
最終イテレーション:完全なシーケンス

フレームを逆順に生成し、特に画像から動画への変換において、高品質なユーザー入力を参照として使用するため効果的である。

Framepack AI パフォーマンス結果

FramePack AIと代替アーキテクチャの比較

主要指標におけるFramePackと代替アーキテクチャの性能比較

主な発見

  • 逆ドリフトサンプリング法は、7つの評価指標のうち5つで最良の結果を達成し、他の手法を大きく上回った。

  • 人間による評価スコアが高いことから示唆されるように、セクションごとに9フレームを生成することは、1フレームまたは4フレームを生成するよりも知覚的に優れている。

  • FramePackは、代替アーキテクチャと比較して、全ての評価指標においてドリフト誤差が低いことを示しています。

  • このアプローチは、ファインチューニングにより、HunyuanVideoやWanのような既存の動画拡散モデルと互換性があります。

学習効率

バッチサイズ比較

従来の動画拡散モデル:〜16サンプル/バッチ

FramePack:〜64サンプル/バッチ

13Bモデル(480p)の学習時間

手法時間(時間)
従来の~240
FramePack~48

Framepack AIの現実世界での応用

拡張動画生成

計算量の爆発や品質の劣化なく、より長く高品質な動画を作成する。

  • 短尺から長尺へのコンテンツ拡張
  • 数分間の首尾一貫したナラティブ
  • メモリ効率の高い処理

画像から動画への変換

静止画を、自然な動きを伴う滑らかで一貫性のあるビデオシーケンスに変換します。

  • アイデンティティを維持した写真アニメーション
  • 文脈理解の強化
  • シームレスな時間的遷移

テキストからビデオ生成

テキストプロンプトから、一貫性と時間的コヒーレンスを強化した動画を生成する。

  • 複数シーンのストーリーテリング
  • 詳細なプロンプト解釈
  • 視覚的劣化の低減

Framepack AIの例

画像から5秒動画への例

画像から60秒動画への例

Framepack AI よくある質問

FramePackが他の動画生成アプローチと異なる点は何でしょうか?

FramePackは、ビデオの長さに依存しない固定のTransformerコンテキスト長を維持する漸進的なフレーム圧縮により、忘却とドリフトのジレンマを解決することで際立っています。メモリまたはエラー削減のいずれかを優先する他の手法とは異なり、FramePackは計算要件を画像拡散モデルと同程度に保ちながら、両方を同時に解決します。

FramePackは既存の動画生成パイプラインと統合できますか?

はい、FramePackは既存の事前学習済み動画拡散モデルとの互換性を持つように設計されています。本研究では、完全なアーキテクチャのオーバーホールを必要とせず、ファインチューニングを通じてHunyuanVideoやWanといったモデルとの統合に成功したことを示しています。

FramePackを実装するために必要なハードウェア要件は何ですか?

FramePackは、単一の8×A100-80Gノードにおいて、13Bパラメータモデル、480p解像度でバッチサイズ64を可能にするという、目覚ましい効率性を実現しています。この効率性により、研究レベルのハードウェアだけでなく、適切な最適化を施せば商用アプリケーションにも適しています。

FramePackは、異なる動画解像度やアスペクト比をどのように処理しますか?

FramePackは、アスペクト比バケットを用いた多解像度学習をサポートします。本論文では、最小単位サイズを32ピクセルとし、480pの様々な解像度バケットを使用することで、異なるアスペクト比と解像度を柔軟に処理できると述べています。

FramePackはリアルタイムアプリケーションに適していますか?

FramePackの主な焦点はリアルタイム性能よりも高品質な動画生成にあるが、その計算効率はさらなる最適化により、潜在的なリアルタイムアプリケーションへの可能性を示唆している。動画の長さに依存しない固定されたコンテキスト長は、ストリーミングやインタラクティブなシナリオにおいて特に有利である。

Framepack AI 技術リソース

モデルアーキテクチャ

FramePack Architecture (Example Config):

- Base Model: HunyuanVideo (13B Parameters)
- Resolution: 480p (Multiple aspect ratios)
- Compression Parameter (λ): 2
- Context Length Convergence: 2 * Lf
- Patchify Kernel Sequence:
  * (1, 2, 2) for most recent frame
  * (1, 4, 2) for second frame
  * (1, 4, 4) for third frame
  * (1, 8, 4) for fourth frame
  * (1, 8, 8) for older frames
- Independent Parameters: True
- Sampling Method: Inverted Anti-Drifting

モデルバリアント

バリアントパラメータコンテキスト長
Base13B3,120
Lite7B2,080
Extended20B3,900

ハードウェア要件

  • 学習: 8× A100-80GB GPU(推奨)
  • 推論: A100-80GB 1基またはRTX 4090 2基
  • メモリ使用量: 480p動画生成で約40GB