FramePack：ComfyUIでの低VRAM動画生成の完全ガイド

FramePackは、ControlNetの開発者でもあるスタンフォード大学のLvmin Zhang博士のチームによって開発された革新的なAI動画生成技術です。この革新的なソリューションにより、最小限のハードウェア要件で最大60秒の高品質動画を作成することが可能になりました。

FramePackの特徴

FramePackの主要な革新点は、重要度に基づいて動画フレームを分類する動的コンテキスト圧縮システムです。キーフレームは1536の特徴マーカーを保持し、過渡的なフレームは192マーカーだけに簡略化されます。このアプローチは双方向メモリと逆生成技術を使用して、画像ドリフトという一般的な問題を防ぎ、動画全体でアクションの連続性を確保します。

FramePackの最も顕著な成果は、動画生成に必要なVRAMの要件を劇的に削減したことです。12GB以上のVRAMを持つプロフェッショナルグレードのハードウェアを必要とする代わりに、FramePackは6GB VRAMだけの一般消費者向けGPUで実行できます。これにより、RTX 3060を搭載した一般的なノートパソコンでも、完全な30fpsで最大60秒の高品質動画を生成することが可能になります。

ComfyUIでFramePackを始める

インストール要件

ComfyUIでFramePackを始めるには：

FramePackI2V_HY_fp8_e4m3fn.safetensors（低VRAM使用）またはFramePackI2V_HY_fp16.safetensors（高品質）をダウンロードし、"ComfyUI/models/diffusion_models"フォルダに保存します
ComfyUI/custom_nodesディレクトリで git clone https://github.com/kijai/ComfyUI-FramePackWrapper.git を使用してComfyUI-FramePackWrapperをインストールします
依存関係をインストールします： python_embededpython.exe -m pip install -r ComfyUIcustom_nodesComfyUI-FramePackWrapper equirements.txt

以下の追加モデルも必要です：

CLIP Visionモデル（sigclip_vision_patch14_384.safetensors）をComfyUI/models/clip_visionフォルダに
テキストエンコーダーをComfyUI/models/text_encodersディレクトリに
VAEモデル（hunyuan_video_vae_bf16.safetensors）をComfyUI/models/vaeフォルダに

FramePackワークフローの使用

インストールが完了したら、"ComfyUI/custom_nodes/ComfyUI-FramePackWrapper/example_workflows"フォルダでサンプルワークフローを見つけることができます。ワークフローには以下が必要です：

FramePackModel（FramePackI2V_HY_fp8_e4m3fn.safetensors）のロード
CLIP Visionモデル（sigclip_vision_patch14_384.safetensors）のセットアップ
VAEモデル（hunyuan_video_vae_bf16.safetensors）のロード
CLIP Text Encoderノードで動画の説明プロンプトを入力
最初のフレームノードに画像をロード

FramePackSamplerノードでは、"total_second_length"パラメータを調整して動画の長さを変更できます。デフォルトは通常5秒に設定されていますが、FramePackはVRAM要件を増やすことなく、より長い動画を処理できます。

FramePackで効果的な動画を作成する

FramePack動画で最良の結果を得るには、動きに焦点を当てた詳細なプロンプトを作成することが重要です。単にシーンを説明するのではなく、画像に命を吹き込む動的なアクションや動きを強調してください。

FramePackの生成プロセスはユニークです - 実際には逆順に動作し、動画の最後を最初に作成してから始めに向かって拡張します。この反転型アンチドリフトサンプリング方法は、各フレーム生成を高品質の初期フレームに固定し、時間の経過とともに品質が低下するのを防ぎます。

生成時間はハードウェアによって異なりますが、目安として、高性能ハードウェアでは、5秒の動画は約4.25分の処理時間がかかり、10秒の動画は約8.25分かかります。

動画プロジェクトにFramePackを選ぶ理由

FramePackはAI動画生成における2つの重要な問題を解決します：

「忘却」 - モデルが以前のコンテンツを覚えておくのに苦労する問題
「ドリフト」 - エラーが蓄積するにつれて視覚的な品質が低下する問題

これにより、FramePackはコンテンツ作成、マーケティング資料、Eコマース製品デモンストレーション、ソーシャルメディアコンテンツなど、幅広いアプリケーションに最適です。最小限のハードウェアで滑らかなプロフェッショナルな動画を作成する能力により、以前はこの技術にアクセスできなかった多くの人々に動画作成の可能性が開かれました。

革新的な低VRAM動画生成アプローチを持つFramePackは、高品質なAI動画を一般のユーザーにアクセス可能にする重要な突破口を表しています。このガイドに従うことで、ComfyUIのユーザーフレンドリーなインターフェースを使用して、静止画像から印象的な動画をすぐに作成できるようになります。

FramePack：ComfyUIでの低VRAMビデオ生成の完全ガイド