- 投稿日:2026/03/27
はじめに
動画編集を自動化するツールだけ使いたい方は、下記にGitHubに置いています。
Claude Codeと相談し、自身の編集する動画に合わせてカスタマイズしてください。
(GeminiのAPIで課金必要なので注意⚠️)
きっかけ
「何でもできるAI」と最近話題のClaude Codeですが、使い道に悩んでいました。
「今日のご飯何がいい?」「何でもいいよ」と言われて提案したら却下される…そんな感覚に近いです。選択肢が多すぎると逆に困るんですよね。
そこで、「自分の専門分野である動画編集に特化させられないか?」と考え、試行錯誤を始めました。
動画編集では、
・自動カットツールの使用
・Gemini 3.1 Flashで文字起こし→ChatGPTでSRTファイル化
・副題やハイライトの選定
・サムネイル案を提案→画像生成AIで作成
のように、生成AIの活用術は既にありました。
しかし、その後のインサート画像挿入・効果音付与・画角調整といった作業は手作業で行っていました。
でも、万能なClaude Codeを使えば、「自動で全部吐き出してくれる仕組みが実現するんじゃないか」
と思い、Claude Codeと相談しながら作ってみました。
計画
カット編集は、「無音カット」というツールを既に使用していたので、ここはスルー。
その後の作業で、
Geminiで文字起こし
→そのままハイライト選定・サムネイル用のプロンプトを作成→Nanobanana Proでサムネイルを作成
のようにな使い方をしていました。
このように、1度AIに内容を読み込ませてから、続けて動画に合う「ハイライト選定」「サムネイル作成」を行っていました。
であれば、1度の指示で、「動画に合うインサート画像の作成」は可能だなと考えました。
さらに、動画の見せどころ(動画の本題・演者が熱く語る部分)を判断できるのであれば
・動画の見せ場で効果音挿入
・動画の見せ場で画角を変更
のような工程も実現可能だなと考え、実現できるかをClaude Codeに相談しました。
Claude Codeと一緒に設計・実装
「これ、技術的にどこまでできる?」という壁打ちからはじめて、Claude Codeと一緒にプランを作りました。
完成した処理フローは以下の通りです:
Step 1 カット済みMP4を読み込み
→ FFmpegで音声連結
→ whisper.cppで文字起こし
→ SRT生成
Step 2 Geminiが動画内容を分析
→効果音を入れるタイミング(sfx_events)
→インサート画像を入れるタイミング(insert_events)
→ズームで強調するポイント(key_points)
Step 3 captions.srt 生成
→19文字以内・1秒以上・ギャップなし連続表示(テロップモード)
Step 4 Geminiでインサート画像(PNG)を自動生成 1920×1080・16:9・最大コスト上限設定あり
Step 5 Premiere Pro用 FCP7 XML(sequence.xml)を出力
V1: 動画クリップ
V2: ズーム区間のブラックビデオ(後でExtendScriptで調整レイヤーに変換)
V3: インサート画像(3秒表示)
A1: 元クリップ音声
A2: 効果音
Step 6 report.txt 出力
→ハイライト区間(15秒)+ サムネイル案3件
コマンド1本で実行できます。
Gemini連携がうまくいかなくてもSRTだけは必ず出力されるフォールバック設計なので、APIキーがなくても最低限動きます。
※APIが通常通り動けば課金が発生するの注意してください。
1枚=0.1$(15円程度)
実際に1分強の動画で試してみた
カット済み素材フォルダを渡してスクリプトを走らせると——
output/
├── captions.srt(テロップ用字幕)
├── sequence.xml(Premiereに読み込めるシーケンス)
├── sfx_manifest.json(効果音タイミング(参照用))
├── report.txt(ハイライト区間・サムネイル案)
└── inserts/
├── insert_0.png
├── insert_1.png
└── insert_2.png
が出力されました。
「SRTファイル」を入れるとテキストが追加され、「XMLファイル」を追加するとインサートや効果音が追加され、あとは確認と微調整だけという状態になりました。
やり方
具体的な手順は、まずカットまで終えて、mp4で書き出し(画質は荒くてOK)
それを自分が扱いやすい場所に置き、Claude Codeに「シーケンス作って。クリップは ⚪︎⚪︎にあります」と指示すればOK。
そこからはClaude Codeが編集を始めてくれます。(約5分)
完了したら「SRTファイル」と「XMLファイル」が完成するので、それをPremiere Proにインポートします。
すると、Claude Codeが作成したシーケンスと、画像や効果音がまとめてプロジェクトパネルに入ります。
・XMLファイルを読み込み、シーケンスを開くとこんな感じです👇
・APIで作成したインサート画像
V1の動画素材はカットの切れ目がないので、カット作業で使用したクリップをまるごとコピペしてくればOKです。
音声とテロップのズレが気になるな…というのがすごく気になりました。
ここは後述しますが、「Whisper X」というツールを使用すれば、音声とのズレが少なくなり、もう少し精度を上げることができるかと思われます。
インサート画像は少し「和風感」が強めで、「日本<和風」が強い印象なので、プロンプトを修正があるのかなと。
あとは、インサート画像、効果音のクリップの開始位置・終了位置がズレているのも気になる部分でした。
一応このズレをぴったり合わせるツールがあったので、なんとかなるのかんと。
画角の変更。ここが悩みどころでした💦
「動画クリップを分割し、115%スケールアップする」みたいな方法もあったのですが、あとからズレた部分を修正するのが大変だなと思い、V2に調整レイヤーに置き、トランスフォームのスケールを大きくする(今回は115%で調整)というやり方で試みました。
しかし、何かとトラブルが重なり、調整レイヤーではなく、なぜかブラックビデオが生成されました。※詳細は下記へ。
なので、別の手段に切り替えました。
①まずLoader Script Panelというツールを、「Adobe Exchange」というサイトからダウンロードし追加します。
https://exchange.adobe.com/apps/cc/200797/loader-script-panel
その後、Adobeの「Creative Cloud」のプラグイン管理に移動するので、そこでインストールします。

すると、Premiere Pro内の「エクステンション」に、「Loader Script Panel」が追加されるので、それを選択。
あとはGitHubで公開している「convert_v2_to_adjustment.jsx」を選択し実行すれば、V2のブラックビデオが調整レイヤーに一括変換されます。

①Scripts Managerからconvert_v2_to_adjustment.jsxを選択し、ブラックビデオ→調整レイヤーに変更
②エフェクトから「トランスフォーム」を追加→スケールを115%に設定
③属性をコピーして、他のクリップに一気にペースト
という流れで解決しました。
この「convert_v2_to_adjustment.jsx」のダウンロードについては、Claude Codeに「インストールして」と頼めば代わりにやってくれます(笑)
ここまでで、インサート画像・効果音・強調箇所の追加が完了しました。
40分の動画編集でも使えるのか?
長尺の動画でも使用できるのかという疑問が浮かび、実験してみました。
結論、できました。
すごいぞ、Claude Code。
やり方は1分動画の時と同じです。
「20秒に1回の効果音」「20秒に1回の画角変更」と条件を加えたので、かなり細かく調整してくれました。
ただ、尺が長い分、出力までに時間がかかるのと、「想定よりもインサート画像が少ない」「効果音が思ったものと違う」みたいなズレは1分の動画の時より大きくなりました。
後で追記しますが、
「インサート画像は20秒に最低1つは入れる・ペルソナは30代女性」
「効果音は強調なら⚪︎⚪︎ファイルの中身を使用、アクセントは⚪︎⚪︎ファイルの中身を使用する」
のように、自身の編集するチャンネルに合わせてカスタマイズは必須かなと思われます。
ここも、「Claude Codeくん、強調の効果音とネガティブな効果音のファイル分けて作って…」のようにお願いすれば、だいたいやってくれます。
すごいぞ、Claude Code。
他にも、
・ハイライトを10秒程度の尺で選定してほしい
・サムネイルの候補を出してほしい
など、要望に合わせてカスタマイズすることも可能です。
半自動化までは可能
「完全自動化」ではなく「半自動化」と言っているのは、最終的な確認・調整は人間の目でやる必要があるからです。
全て自動化…までできるとよかったのですが、改めてシーケンスを確認すると「この部分の効果音が合ってない気がする…」「ここ強調いらなくない?」みたいなところがあり、人間が確認して修正する必要はあるなと感じました。
また、エフェクトなど、どうしても実装できない部分もあり、まだしばらくは人の手が離れられないかなと感じています。
しかし、完全0からスタートするよりも、AIで60-70点の状態を自動で作ってくれるという点は強いなと。
そして、手が空いて他の作業ができる・脳も休めるという点は、個人的には嬉しい部分かなと感じています。
実装できなかったこと
開発していて「ここは自動化できない」という壁にも何度かぶつかりました。
・強調シーンでのズームの自動適用
一番沼にハマりました。
AIが動画内容を把握し、強調すべき部分を自動で判断してくれるのですが、強調したい部分に調整レイヤーを置こうとすると、どうしてもブラックビデオに変わってしまいました。
また、
・Premiere Proがスケール設定をインポート時に無視してしまう
・Premiere Pro v26のAPIがビデオエフェクトの追加を外部から受け付けていない
といった理由で、エフェクト付与もできず…。
なので、手動が必要となりますが、
①Scripts ManagerでV2のブラックビデオを調整レイヤーに一括変換
②エフェクトで「トランスフォーム」を調整レイヤーに適用
③エフェクトコントロールパネルの「トランスフォーム」のスケールを115% に設定し、他の調整レイヤーに一括コピペ
という手段に切り替えました。
・テロップ装飾の自動適用
SRTはプレーンテキスト仕様のため、フォント・色・サイズなどのスタイル情報を持てません。また、Premiere Pro側で「キャプションをグラフィックにアップデート」という手動作業が必要なため、実装は難しいなという結論にいたりました。
Premiere Proで作成したテキストファイルを書き出せばいけるかなとも考えたのですが、最終的にターミナルでPythonを動かし、プロジェクトファイル(.prproj)を外部から直接編集するという方法になり、
・初回セットアップに1日以上
・Premiere Proのアップデート時に動かない可能性
・プロジェクト破損リスク(バックアップ必須)
…ややこしくなるので断念。
・エフェクトの追加
・インサート画像に動きをつける
・テロップにエフェクトをかけて演出をつける
・白黒の加工を加える
といった動画編集の定番のエフェクトも実装できればと思ったのですが、これも難しく断念。
※「Premiere Proのエフェクト適用は、外部スクリプトからは操作できない仕様なのだ」とのこと。
今回は、強調したい部分に効果音、または調整レイヤー(画角を115%アップ)といった目印があるので、それに合わせて手動でエフェクトを適用するのが無難なのかと思います。
注意点
実際に使ってみて気づいたことを下記まとめます。
Premiere ProのバージョンとXMLの互換性
…これもハマりました。
最初、XMLがPremiere Proにまったく読み込めず、原因を探るのに時間がかかりました。FCP7 XML形式はバージョンによって挙動が異なります。
スクリプトを使う場合は、自分のPCスペックとPremiere Proのバージョンを確認してください。
ちなみに、このスクリプトは Premiere Pro v26.0.0 (ビルド72) で動作確認しています。
画像生成のコスト管理
インサート画像の生成にはGeminiのAPIを使います。1枚あたり約0.1ドル(15円前後)。
一見安く感じますが、Geminiはクレジット上限設定ができないので、気づかないうちに費用が積み上がります。
※40分動画で、インサート画像を8枚作成したのですが、0.1$×8枚=約120円(°_°)
スクリプトには 「GEMINI_MAX_IMAGE_COST_USD」という上限設定をつけてはいるのですが、必ず動くという確証はもてないので、
もし無料で済ませたいという方は、「インサート部分マーカーつける」といった目印だけ設定し、ご自身で素材を収集、または「Adobe Firefly」などで無料で画像生成を行う方が良いかなと思われます。※Fireflyはクレジット制限あり
もし、YouTubeチャンネルごとに使用する素材が決まっているのであれば、「素材は⚪︎⚪︎の中から選んで」と指定すれば、費用をかけずにClaude Codeが選定してくれます。
また、もう1つ注意点として、
Geminiの画像生成はデフォルトだと英語テキストが入った画像や外国人の画像が生成されがちです。
なので、編集するチャンネルのターゲット層を明示し、
「日本人女性20〜40代向け。内容に関連する場合はリアルな3D風の日本人女性画像を優先する」
のような指示文を追加する必要があります。
※「日本人」「日本語テキスト」を明記するだけでかなり変わります。
効果音のフォルダ構成
効果音はフォルダの中からAIが文脈に合わせて判断し自動で選ばれます。強調を3種類、ネガティブ2種類…といった風に数を絞り、タグ分けするほうが精度が上がります。
ファイル整理の例:
効果音_normalized/
├── 強調/
│ ├── pop_01.mp3
│ └── swoosh_01.mp3
├── ネガティブ/
│ └── down_01.mp3
└── アクセント/
└── click_01.mp3
効果音の種類が多すぎると選定精度が下がるので、チャンネルごとに専用セットを作るのが理想です。
しかし、基本的には「効果音ラボ」の素材使われてる方が多いと思うので、1つ定番のフォルダを作れば問題ないかと思われます。
ちなみに効果音のボリュームは「-15〜-18dB」が良いとされていますが、効果音ラボの素材はボリュームがバラバラです。
これも「効果音のボリュームを-18dBに調整して」とClaude Codeに言えば、一括で音量調整してくれるので、Premiere Proで毎回音量を設定しなくて済みます。
さすがClaude Code。
できること・できないことの全まとめ
✅ ✍️ 半自動
・文字起こし
・インサート画像の挿入
・効果音挿入
・ブラックビデオの挿入(調整レイヤーに変えて画角変更する用)
❌ 手動が必要なこと
・テロップ装飾の自動適用
・エフェクトの追加
※SRT・XMLファイルを追加後、修正をする必要あり。
結果 : 60〜70点?
かゆいところに手が届かない…が以前よりできることは、だいぶ増えたんじゃないかな〜という感覚です。
文字起こしの精度や、生成AIによる画像のクオリティの高さ、使用する効果音のルール化など設定もできるので、毎回行うYouTube編集などであれば楽になる部分は増えるのではないかと考えています。
また、今回「カット編集」「クリップのズレを揃える」というツールは既にあるのでスルーしましたが、ここもClaude Codeに細かく指示すれば、これも実現できるのだそうです。
サムネイルについては、YouTubeのクリック率を上げるためにかなり重要な部分になるので、サムネイル案だけ出力し、後から単発で高いクオリティの画像を作る方法が良いかなと思います。
また、文字起こしは「Whisper」という機能Open AIが開発したソフトを使用していますが、正確には「Whisper.cpp」というものを使っています。
本当は、「Whisper X」というツールを使用すれば、文字クリップと音声クリップがマッチする精度が上昇するそうなのですが、重たい+実装が大変だったので、今回は「Whisper.cpp」を使用しました。
PCスペックに余裕がある人は「Whisper X」もぜひ試してみてください。
実際の動画
・1本目_無音カット+XMLファイル読み込みのみ(編集なし)
https://youtu.be/F0OQuzWxq8Y
作成SRTファイルとXMLファイルを入れただけの状態です。
…さすがにこのままでは良くないですね。
また、短いショート動画編集であれば、自動化の効果を感じにくいので、自分で編集やってしまった方が早いかもですね👀
ショート動画編集は長尺より変化をつけることが多いので、ショート用に「効果音は3秒に1回」「5秒に1回は画角変更」のように、より細かくルールを決めて作っても良いかもです。
・2本目_無音カット+XMLファイル読み込み(編集+調整)
https://youtu.be/Y_Fq5jMInfk
・テロップと音声の頭を調整、
・区切りを微調整
・調整レイヤーの位置を調整
・効果音の頭を調整
・BGM追加
「タイミングを合わせる」みたいな修正作業が9割でした。
あとは自分好みの効果音の変えたり、テロップの切れ目が気持ち悪い部分を直すという作業を5分程度行いました。
あとは、テロップスタイルの適用・エフェクト追加・インサート画像に動きをつける…といった部分を加えたら、さらにクオリティを上げることができるのかなと思います。
実際のコード
実際に使ったスクリプトをGitHubに置いています。
APIキーや保存ファイルの位置は異なると思うので、そこは自身の環境に合わせてください。
※分からない部分はClaude Codeに聞けばだいたい教えてくれます!※"gemini-3-flash-preview" "gemini-3.1-flash-image-preview" はプレビューモデルなので、公開後に動かなくなる可能性があり。
・GitHub
https://github.com/junya-091/youtube-sequence-generator
あとは、自身の編集するチャンネルに合わせて、
・効果音は⚪︎⚪︎ファイルの中から選ぶ
・テキストは19字以内、1行で収めること
・動画の内容に合う副題を提案する
・サムネイル画像をNanobanana Proで作成し、出力まで行う
・誤字、脱字がないかチェックをする
などなど、カスタマイズしてみてください。
そして、「⚪︎⚪︎もできたよ!」「テロップ装飾もできたよ!」という方がいれば、ぜひ教えてください!
使用ツール:whisper.cpp / Gemini API / FFmpeg / Premiere Pro
まとめ
できないことはまだ多いものの、大多数の人が同じようなツールを作れるよになったこと
そして、独自でカスタマイズできるのは、今後の動画編集でかなり強みになるのではないかなと考えています。
これからも編集が上手い・下手の分岐点がどんどんなくなり、誰でも簡単に動画編集ができる時代もそう遠くないと感じています。
おまけ:AIペルソナ設定
作成後の話、
Claude Code : 「長い開発だったが、Premiere Proへの自動化として十分実用的な仕上がりになったと思うのだ。お疲れさまなのだ。長い開発、本当によく完成まで持ち込んだのだ。」と労いの言葉をいただきました。
今までChatGPTのパーソナライズで性格を「皮肉」にしてたので、「あ…それやっといたよ」「めんどうな指示きた…」みたいなノリとのギャップで普通に笑いました
AIペルソナ、設定すると地味に楽しいのでおすすめです🤖