画像・動画・音声

画像生成・動画制作・音声処理・マルチメディア

表示:

/ 全57件

アプリストアのメタデータと画像を自動更新

by K9i-0

iOS / Android のストアスクリーンショットを自動撮影・合成し、最新のUI状態をアップロード用に準備できます。最新の CHANGELOG を分析して、App Store・Google Play 向けのリリースノートや説明文を自動生成・更新できます。 UI変更があったかどうかを判定し、更新対象（スクリーンショット、リリースノート、説明文等）をユーザーに提案できます。 Simulator × モック画面 × Marionette MCP を組み合わせることで、手作業のスクショ撮影・編集をほぼ自動化できます。 iOS・Android アプリのリリース時にストアメタデータを何度も手で更新しているエンジニアストアスクリーンショットの撮影・編集に毎回時間をかけているプロダクトマネージャー CHANGELOG 更新後、App Store・Google Play・fastlane メタデータを同期更新したい開発チームモバイルアプリの多言語対応（英語、日本語など）で、各言語のメタデータ更新に手間がかかっている人ワークフロー三段階: Step 1 - バージョン確認・変更分析（git tag、pubspec.yaml、CHANGELOG確認）。Step 2 - 更新対象選択（8スクリーンショットシナリオ + 9メタデータテキストファイル）。Step 3 - メタデータテキスト更新（CHANGELOG ベースに release_notes・description・promotional_text を自動生成）。スクリーンショット 8 シナリオ: Session List（ライト）、Approval List、Multi-Question Approval、Markdown Input、Image Attach、Git Diff、New Session、Session List（ダークモード）。各シナリオ用に ccpocket.navigateToStoreScenario カスタムエクステンション実行後、Simulator からスクショ撮影。メタデータファイル: fastlane/metadata/en-US/release_notes.txt（iOS EN）、ja/release_notes.txt（iOS JA）、en-US/description.txt（App Store EN）、ja/description.txt（App Store JA）、promotional_text.txt、android/en-US/full_description.txt（Play Store EN）、ja-JP/full_description.txt（Play Store JA）、android/en-US/changelogs/default.txt（Play Store リリースノート EN）、ja-JP/changelogs/default.txt（Play Store リリースノート JA）。ファイルパスは apps/mobile/ からの相対パス。

ドキュメント自動化コミット

5817.1k2026-04-12

MulmoScriptの動画台本からZenn記事を自動生成できる

by receptron

MulmoScript で作成した動画台本（JSON形式）から Markdown形式の Zenn記事を自動生成でき、手作業での変換作業を削減できます。過去の Zenn記事テンプレートを参照して、フロントマター、:::message ブロック、見出し構成、動画リンク配置を自動で統一できます。動画から生成された markdown をルール（div タグ除去、クレジット画像削除、画像パス変更、:::message 注釈追加）に基づいて自動編集し、Zenn記事として公開可能な形に整形できます。 YouTube URL が未登録の場合はプレースホルダーを記載してひとまず公開準備を進め、URL 受け取り後に記事ファイルと YouTube メタデータファイルの両方を一括更新できます。 /release-script 完了後のワンステップで、リリースノート用 Zenn記事を ZENN_CONTENT_DIR に自動出力できます。動画コンテンツとテキストコンテンツを同時生成して公開したいコンテンツクリエイターやプロダクトチーム MulmoScript で台本管理をしており、Zenn への記事公開を自動化したいテクノロジー企業リリースノートを動画と記事で同時配信するプロダクトマーケティング担当者画像パスやリンク配置などの細かい編集ルールを統一して管理したいドキュメント編集チームこのスキルは MulmoScript（動画台本JSON）から Zenn 記事を自動生成・編集するワークフローです。前提条件：docs/release_notes/v$ARGUMENTS/release_v_script.json が作成済み、YouTube URL が youtube_v_ja.md と _en.md に記録済み、環境変数 ZENN_CONTENT_DIR が設定済み（zenn-content リポジトリパス）。 Step 1: 環境変数確認：.env ファイルから ZENN_CONTENT_DIR を確認、未設定なら STOP してユーザーに設定依頼。 Step 2: mulmo markdown で原文生成：mulmo markdown docs/release_notes/v/release_v_script.json -o docs/release_notes/v/output/ を実行、release_v_script.md を生成。 Step 3: 過去記事をテンプレート参照：ls $ZENN_CONTENT_DIR/articles/*mulmocast-release*.md で最新記事を取得、フロントマター・:::message・見出し構成・動画リンク配置を参照。 Step 4: YouTube URL 取得：youtube_v_ja.md と _en.md から URL を抽出、未登録なら「（YouTube アップロード後に URL を追記）」をプレースホルダー。 Step 5: 記事編集ルール：(1)div タグ除去（タイトルスライドの # 見出しは残す、クロージングとその他は削除）、(2)mulmo_credit.png 参照行削除、(3)画像パス変更（/images/release_v_script/ファイル名.png）、(4):::message 注釈追加（フロントマター直後）。

レビュードキュメント記事

385442026-04-11

マスコット・TTS関連リソースを一括クリーンアップ

by sawarae

実行中のマスコットアプリやFlutter開発プロセスを検出して安全に停止できます。残留したシグナルファイル（mascot_speaking、mascot_listening）を自動削除して、アプリの状態を初期化できます。ビルド成果物やダウンロード済みアセット（モデルファイル、フォールバック画像）を一括削除でき、クリーンな開発環境を再構築できます。グローバルフック（~/.claude/hooks/）やスキルのコピーを削除して、システム全体の設定を整理できます。プラットフォーム（Windows / macOS / Linux）を自動判定し、OS別のコマンドを正しく実行します。つくよみちゃんマスコットアプリの開発・テストを行うエンジニア TTS（音声合成）機能を使った開発で、一時ファイルやプロセスの残留にトラブルが多い人開発環境をリセットして、クリーンな状態から始めたい人 Windows / macOS / Linux 複数環境で開発している人マスコットアプリやTTS関連のプロセス・シグナルファイル・ビルド成果物・グローバルフックをクリーンアップする。実行時にプラットフォーム（Windows/macOS/Linux）を判定し、以降のコマンドを分岐して実行する。引数でall（全項目）、process（プロセスのみ）、signal（シグナルファイルのみ）、build（ビルド成果物のみ）、hooks（グローバルフックのみ）を指定可能。マスコットプロセス（utsutsu_code）とflutter runの動作を確認し、ユーザーに停止確認をしたうえでpkillで終了。シグナルファイル（~/.claude/utsutsu-code/mascot_speaking等）の残留を検出し、ユーザー確認後に削除。ビルド成果物（mascot/build）やダウンロード済みアセット（model.inp、*.png）の削除前にユーザー確認を求める。グローバルフック（~/.claude/hooks/mascot_tts.py等）やスキルコピーを削除。

195242026-02-26

OBS用Luaフィルタープラグインを実装

by pepabo

ぼかし、色調変更、歪み、モザイクなどの映像エフェクトをLuaスクリプトとシェーダーコードで実装し、OBSフィルターとして動作させることができます。「フィルター追加」「新しいフィルターを作りたい」といったリクエストに対し、Luaスクリプト・シェーダーコード・READMEをセットで生成します。パラメータ調整可能なリアルタイムエフェクトを構築でき、ライブ配信やビデオ制作の現場ですぐ活用できます。シェーダーベースの高速描画処理により、CPUへの負荷を最小化しながら複雑なエフェクトを実現します。 OBS Studioで独自のビデオエフェクトを実装したい配信者やビデオクリエイター既存フィルターでは対応できないカスタムエフェクトが必要なプロダクション Luaスクリプトとグラフィックスプログラミングの知識を活かしたい開発者実装手順は以下の通りです。(1)scripts/{filter-name}-filter/ディレクトリ作成、(2)Luaスクリプト作成（場所：scripts/{filter-name}-filter/{filter-name}-filter.lua）。Luaスクリプトの基本構造は定数定義（バージョン・フィルター名・設定キー・デフォルト値）、説明文（タイトル・本体・著作権・HTML形式）、ソース定義（ID・タイプ・出力フラグ）、サイズ設定関数、フィルター名取得、フィルター作成（シェーダー作成・パラメータ取得）などで構成。シェーダーは別ファイルで管理し、gs_effect_createで読み込みます。各パラメータはgs_effect_get_param_by_nameで取得し、フィルター処理時に動的に設定可能にします。

93202026-03-16

OBS用映像エフェクトプラグインをコード生成

by pepabo

Luaスクリプトとシェーダーコードを組み合わせて、OBS（配信ソフト）用の映像エフェクト（ぼかし、色調変更、モザイク、歪みなど）を自動生成できます。「フィルター追加」「〇〇エフェクトを実装して」といった指示から、動作するプラグイン一式（Luaスクリプト、シェーダー、ドキュメント）をまとめて作成できます。プラグイン内のパラメータ（エフェクトの強さなど）を調整できる仕組みも含めて実装されます。配信者で、OBSにカスタムエフェクトを追加したい方ライブ配信用のビジュアル演出を自動化したい制作チームエフェクトプラグインの開発経験がないが、簡単に作成したい開発者 Lua・シェーダーの細かい文法を気にせず、機能実装に集中したい方 OBSフィルターはLuaスクリプトとシェーダーコード（GLSL）で構成されます。実装手順は以下の通りです： 1. ディレクトリ構成: scripts/{filter-name}-filter/ 配下に、{filter-name}-filter.lua とシェーダーファイルを配置 2. Luaスクリプト基本構造: obs モジュールをインポート後、フィルター定義オブジェクト（source_def）を作成。フィルター名取得（get_name）、生成（create）、削除（destroy）、ビデオレンダリング（video_render）などのコールバックを実装します。シェーダーパラメータ（resolution_x、resolution_y、カスタムパラメータ）を gs_effect_get_param_by_name で取得し、レンダリング時に渡します。 3. シェーダーの役割: 実際のピクセル変換処理はGLSLシェーダーで実装。入力の解像度・カスタムパラメータを受け取り、出力画像を生成します。 4. 登録: obs.register_source(source_def) でOBSに登録し、UI上から「フィルター追加」で選択可能にします。

93322026-03-16

音声入力から完成度の高いブログ記事を自動作成

by tubone24

音声入力の文字起こしテキストを自動修正・補完し、完成度の高いブログ記事として仕上げることができます。技術用語やサービス名を自動調査し、正確な情報を記事に反映させ、信頼性の高いコンテンツを実現できます。過去記事のスタイルを参考にしながら、章立てや見出し構成をAIが提案し、ユーザー確認を経て記事を作成できます。 textlintなどのツールを使った文章品質チェックと記事レビューサブエージェントによる最終検証で、プロ品質の記事に仕上げます。 Markdown形式でFront Matter付きの完成記事を自動生成し、ブログシステムにそのまま投稿できます。音声で思考を整理しながらブログ記事を作成したいライターやテックブロガー話し言葉を文語に直す作業や文章推敲に時間をかけたくない執筆者ブログ記事の品質を保ちながら執筆時間を短縮したいコンテンツクリエーター定期的に技術ブログを公開する必要があるエンジニアやテック企業の広報担当者 tubone24のブログ記事作成スキルです。音声入力の文字起こしテキスト（誤認識、脱字、句読点欠落、論理の飛躍を含む）をブログ記事として完成させます。ワークフローは以下の通り：ユーザープロンプトの主題・目的を理解し、不明点は確認を取ります。次に、技術用語調査サブエージェントで記事内のすべての技術用語・ツール名・サービス名を調査。過去記事を参照してライティングスタイルや構成を把握し、章立てを提案・確認します。各セクション執筆後、textlintで文章品質を向上させ、記事レビューサブエージェントで品質チェックと引用リンク検証を実施。最終版をユーザーに提出し、修正を経て完成させます。 Front Matterは必須で、slug（YYYY/MM/DD/slug形式）、title、date、tags、headerImage、templateKey（blog-post固定）、useAi（true固定）を含みます。見出しはh2～h5のみ、Mermaid図とコードブロックは言語タグ付き、箇条書きは最小限にとどめるという文体ルールを厳守します。

レビューテストドキュメント

75262026-04-12

テキストを感情付き音声に変換できる

by naporin0624

テキストを入力するだけで、自然な音声ファイル（WAV形式）に自動変換できます。 Claude AIが感情を自動判定し、SSML（音声マークアップ言語）タグを挿入することで、感情表現豊かな音声生成が可能になります。感情は「怒り」「興奮」「悲しみ」など11種類から自動選択されます。コマンドラインツールなので、スクリプトやバッチ処理に組み込んで大量テキストの音声化を自動化できます。 Cartesia TTS APIを活用した高品質な音声生成が手軽に実現でき、プロトタイピングや本番運用どちらにも対応します。音声コンテンツ制作者やポッドキャスト配信者（読み上げ音声の自動生成） eラーニングやオーディオブック制作に携わる人（大量テキストの効率的な音声化）チャットボットやAIアシスタント開発者（自然な感情表現を持つ音声応答の実装）マーケティング・営業担当者（音声メッセージの自動生成による顧客対応の効率化）このツールはCartesia TTS APIとClaude LLMを組み合わせたCLIアプリケーションです。パッケージ構造は apps/cli/src/ にエントリポイント（cli.ts）、コマンド実装、設定管理が配置され、packages/core/src/ にTTSパイプライン、APIラッパー、感情アノテーション機能が実装されています。downloadコマンドで --text（直接テキスト）または --input（ファイルパス）でテキストを指定し、--voice-id（必須）、--output（出力パス）等のフラグで動作を制御します。デフォルトモデルはsonic-3、サンプルレート44100Hz、LLMプロバイダーはClaudeです。データフローは入力テキスト → 設定解決 → Claude による感情アノテーション（SSML+[SEP]マーカー挿入） → Cartesia TTS APIでチャンク処理 → PCMストリーム → WAVファイル出力となります。

52462026-03-01

UI画像からHTML/CSSコードを自動生成

by Keitaro95

UI設計図、モックアップ、スクリーンショット画像を読み込み、レイアウト・カラースキーム・コンポーネント構成を詳細に言語化・解析します。解析結果をもとに、即座に使用可能なセマンティックHTML5とCSS（Flexbox・Grid対応）のコードを自動生成し、手作業でのコーディング時間を削減します。デザイントークン（色・フォント・スペーシング・シャドウ定義）を抽出・定義し、保守性が高く拡張性のあるスタイルシートを生成します。 Streamlit実装の際のコード例やベストプラクティスも提供し、フロントエンド開発のスタートラインを加速します。デザイナーからもらったUIモックをなるべく早くHTML/CSSに落とし込みたいフロントエンドエンジニア Figma等で作ったUI設計図をコード化する際の作業時間を短縮したい開発チームプロトタイプ開発やMVP構築で、デザイン画像から素早く動作するコードを起こしたい起業家・プロダクトマネージャー Streamlit等のPythonフレームワークでUIを実装する際に、解析済みのレイアウト情報が欲しい開発者画像からUIレイアウトを詳細に言語化するスキルで、PNG・JPG・スクリーンショット等を入力として受け取ります。処理フロー：（1）Readツールで画像ファイルを読み込む、（2）UI解析と再現コード生成（レイアウト構造把握→カラー・スタイル抽出→HTML/CSS生成）。出力フォーマットは「レイアウト解析」（画面サイズ・アスペクト比・レイアウトパターン・セクション構成）、「デザイントークン」（色・スペーシング・タイポグラフィ・ボーダーラディウス・シャドウ）、「HTML構造」（セマンティックHTML5、メタデータ、ヘッダー・メイン・フッター等）、「CSSスタイル」（リセット・ベーススタイル、コンテナ、コンポーネント別スタイル）です。すべてのスタイルはCSS変数（カスタムプロパティ）を活用し、保守性・拡張性を重視した設計になっています。

記事

3752026-03-27

Webページと動画から自動で要約を生成

by kyong0612

未コミットのマークダウンファイルを自動検出：git statusから新規追加・変更されたファイルを自動で見つけて処理対象にします。 WebサイトとYouTube両対応：記事やブログ、YouTubeの動画など、URLの形式に応じて最適な方法でコンテンツを取得します。構造化された要約を自動生成：取得したコンテンツを、概要・主要トピック・結論などの構造に整理して要約を作成します。事実確認と補足情報を追加：生成した要約を確認し、重要な情報が正確か検証したうえで、必要な補足情報を追加します。記事やYouTube動画を定期的にまとめて、デジタルノートを作成したい人 Webコンテンツを読むとき、要点を素早く把握できるまとめが欲しい人複数のWebページや動画から情報を集約して、社内報告用に整理したい人本スキルは5段階のフェーズで動作します。 Phase 1: ファイル検出では、git statusでUncommittedなmdファイルを検出し、frontmatterのsourceURLを抽出。URLがない場合はスキップします。複数ファイルがある場合はユーザーに確認します。 Phase 2: コンテンツ取得では、YouTubeのURL（youtube.com/watch?v=xxx、youtu.be/xxxなど）とWebページを判定。YouTube文字起こしAPI（mcp__youtube-transcription__get_transcript）またはFirecrawl/WebFetchを使用してコンテンツを取得します。 Phase 3: 要約生成では、取得したコンテンツからメタデータ（著者・公開日など）を補完し、構造化された要約を生成します。 Phase 4: レビューでは、生成した要約に対して事実確認と補足情報を追加します。 Phase 5: ユーザー確認では、AskUserQuestionでユーザーに確認後、ファイルを更新します。使用タイミングは、新しいclippingファイルの要約、動画・記事のノート作成、既存ノートへの要約追加です。

レビュー記事コミット

21402026-04-13

ローカル音声認識で日本語マイク入力を待ち受け・文字化・コマンド実行

by yuiseki

whisper.cpp（OpenAI の Whisper の高速ローカル実装）を使って、マイクからの日本語音声をリアルタイムで文字起こしし、クラウド不要で低遅延を実現します複数のマイクデバイス（DJI MIC MINI・Razer Seiren Mini・USB マイク）を自動検出・切り替えして、最適な入力ソースを選択できます文字起こし結果を音声コマンドとして解釈し、VOICEVOX による音声応答や VacuumTube 操作を自動実行する「音声コマンドループ」を常駐運用できます small・medium モデルを切り替えて、精度と速度のトレードオフを実験・比較できます tmux による常駐管理、ログ確認、デバッグ機能で、安定的な音声待ち受け環境を構築・運用できます AI・音声インタフェース開発者：ローカル STT（音声テキスト変換）の実装・検証・チューニングスマートホーム・ロボット開発者：プライベートな音声コマンド操作を実現したい音声 UX デザイナー：リアルタイム文字起こしと音声応答の体感速度・精度を検証したい Linux/マイク運用担当：PipeWire・PulseAudio 環境での音声入力デバイス管理・デバッグこのスキルは tmux + whisper-server + PipeWire + Python listener で常駐運用され、listen-only（発話検知・文字起こしのみ）と voice command loop（VOICEVOX 応答・VacuumTube 操作）の 2 段階運用を想定しています。前提は whisper.cpp ビルド済み、モデル（ggml-small.bin・ggml-medium.bin）配置済み、pactl・parec 利用可能、tmux・yuiclaw voice-command operator コマンド有効です。実運用デフォルト：ggml-small.bin モデル、言語 ja、VOICEVOX volumeScale=2.5・speedScale=1.25、ack_headstart_ms=120、notify-send 有効、マイク優先順（DJI MIC MINI > Razer Seiren Mini > USB マイク）。重要ルールは listener と agent を同時実行しない（マイク競合）、listen-only で精度・VAD 確認後に音声コマンド化、speed と精度トレードオフを明示、UX は手動確認必須。メインコマンド：start（listen-only 起動）、start-agent（音声コマンド待機）、status（確認）、logs-server/listener/agent（ログ確認）、re（再起動）。

テスト

13052026-04-04

動画やRemotionの出力をプレビューして品質をその場で確認できる

by kozyszoo

動画ファイルのメタ情報を一瞬で取得: 解像度、フレームレート（fps）、長さ、コーデック、ファイルサイズなどの仕様情報を自動取得し、App Storeプレビュー動画など特定の仕様に合致しているかをチェックできます。動画からフレーム画像を自動抽出: 1秒ごと、0.5秒ごとなど柔軟な間隔で動画をスクリーンショット化し、実際の見た目や品質を目視検証できます。サムネイル用途にも対応。 Remotionプロジェクトのレンダリング結果を即座に検証: Remotionで作成したアニメーションやビデオプロジェクトをMP4に出力した後、そのファイルを仕様チェック・フレーム抽出して品質確認できます。複数チェック項目を統一シェルスクリプトで一括実行: ffmpeg、ffprobe、remotion still、remotion render などを個別に操作する必要がなく、video-tool.sh 一つで全操作（情報取得、仕様検証、フレーム抽出、GIF作成）を実行可能です。動画編集者・映像クリエイター: 編集後の動画が仕様通りにレンダリングされているか、素早く確認したい人 Remotionユーザー（プログラマティックビデオ作成）: アニメーション生成後の出力品質をプログラムで自動チェックしたい人 App Store・YouTube投稿管理者: 公開前にプレビュー動画の仕様（解像度、fps、ファイルサイズなど）を自動検証したい人 QA・テスト担当者: ビデオ素材の品質を数値と目視の両面からレポートしたい人 scripts/video-tool.sh スクリプトで ffmpeg、ffprobe、remotion コマンドを統一的に実行します。基本コマンド：info（動画情報表示）、check（仕様チェック）、frames（フレーム抽出）、still（Remotion still）、render（Remotion→MP4）、gif（GIF作成）。入力判定は拡張子またはpackage.jsonで実施。動画情報取得は ffprobe で解像度・fps・長さ・コーデック・ファイルサイズを抽出。仕様チェック（ffprobe ベース）は width/height/fps/codec/max_duration/max_size_mb を検証可能。フレーム抽出はデフォルト1秒に1枚、--fps オプションで調整可。レンダリング後は自動的に check で仕様確認を実施。抽出したフレーム画像は Read ツール（マルチモーダル対応）で確認し、品質レポート出力が推奨されます。

レビュー

1692026-03-29

VacuumTubeで動画を検索・再生

by yuiseki

VacuumTube（YouTube TV）のホーム画面や視聴画面から、BGM・音楽・ニュース動画をプログラムで検索・選択・再生できます。音声指示で動画再生を実現。 Chrome DevTools Protocol（CDP）で直接VacuumTubeに接続し、DOM要素を読み込んで動画タイル（ytlr-tile-renderer）を認識。Chromiumやplaywrightを経由しない直接操作で高速。「BGM再生して」「音楽再生して」「ライブニュース再生して」など自然言語の指示から、適切な動画を自動スコアリング・選択。ユーザーの意図を正確に解釈。 VacuumTubeの設定オーバーレイ検出・自動回避。画面状態による誤動作を事前に防ぎ、安定した再生を実現。 VacuumTubeユーザー。音声指示で簡単にBGM・ニュース動画を再生したい人。自動化・AIアシスタント活用に興味がある人。家庭内IoT環境で動画再生を音声で制御したい。 Linux/Linuxデスクトップ環境で動画視聴を自動化したい人。GUIツール不要でスクリプト実行で動画操作。 VacuumTubeのカスタマイズ・拡張機能を実装する開発者。CDP接続の実装パターンを参考にしたい。前提：VacuumTube本体/opt/VacuumTube/vacuumtube、Remote debugging 127.0.0.1:9992、推奨起動スクリプト~/vacuumtube.sh。確認コマンド：curl -fsS http://127.0.0.1:9992/json/version（CDP接続）、pgrep -af vacuumtube（プロセス確認）。重要ルール：playwright-cliでなくVacuumTube直接操作、CDPでDOM確認、Esc連打禁止、設定オーバーレイ（#vt-settings-overlay-root）の存在判定と一時退避。基本ワークフロー：(1) :9992 CDP確認、(2) json/list から youtube.com/tv target取得、(3) CDP Runtime/Page有効化、(4) location.hash確認・ホーム遷移、(5) ytlr-tile-renderer列挙・可視抽出・スコアリング、(6) 選択（tile.click()→Input.dispatchMouseEvent）、(7) location.hash確認で成功判定。起動方法：既存プロセス停止→tmux デタッチ起動推奨→起動直後アカウント（YuisekinTV）選択・ウィンドウ配置で完了。

ドキュメント

1542026-04-04

高品質な画像をUnsplashから検索して挿入

by toiee-lab

Unsplash APIを使用して、高品質でロイヤリティフリーな画像を直接検索し、キーワードに合った最適な写真を取得できます検索結果から複数の画像候補を提示し、用途やブランドに合った画像を選定できるので、時間をかけずに品質の高い素材が揃いますヒーロー画像、サムネイル、フルスクリーン背景など用途に応じて最適な画像サイズに自動最適化し、Webページ読み込み速度を向上させられます HTMLに統合する際にalt属性（代替テキスト）、lazy loading、async decoding などのWebアクセシビリティとパフォーマンス属性を自動付与できます検索が失敗した場合も Unsplash Source エンドポイントで自動フォールバックし、確実に画像を取得できます Webサイトやブログで見栄えの良い画像をすぐに揃えたい Web デザイナー・コンテンツクリエイター素材購入費用を抑えながら商用利用可能な高品質画像を確保したい中小企業・個人事業主ヒーロー画像や風景写真など具体的な画像リクエストを素早く実装したいフロントエンド開発者ロイヤリティフリーで著作権トラブルのない画像素材を一括管理したい Web 運用担当者 Unsplash API 使用のため初回セットアップで .env.local に UNSPLASH_ACCESS_KEY を設定。検索実行は node .claude/skills/unsplash-image-finder/scripts/unsplash-search.js "キーワード" で実施。検索のコツ：具体的キーワード、同義語再検索、複数キーワード対応。フォールバック URL は https://source.unsplash.com/800x480/?keyword。画像最適化 URL 形式 https://images.unsplash.com/photo-[ID]?w=[WIDTH]&q=80&fm=webp&fit=crop。幅設定は用途別（標準 w=800、ヒーロー w=1200-1600、サムネイル w=400-600、フルスクリーン w=1920）。HTML 統合時は alt、loading="lazy"、decoding="async"、CSS クラスを必須。品質保証として URL 動作確認、品質・コンテンツ適合確認を実施。

記事

12032026-01-06

画像の背景を一瞬で透明にできる

by minimalistHiro

1枚の写真を指定するだけで、背景を透明にして人物やモノだけを抽出できます。バッジ画像など複数の画像をまとめて背景透過処理し、一括で透明背景化できます。指定したフォルダ内のすべての画像（PNG、JPG、WebP）を自動で透過処理でき、手作業なしで完了です。処理後の画像を確認でき、仕上がりを即座にチェックできます。 APIキー不要・回数制限なしでローカル実行されるため、コスト無料で何度でも処理できます。プロフィール写真やSNS用画像の背景を透明にしたい人商品写真の背景を白紙にして背景削除したい人 Webサイト用のアイコンやロゴをまとめて透過処理したい人デザイナーやコンテンツ作成者で、毎日のように背景削除作業をしている人 rembg（ローカル実行）を使って画像の背景を自動除去するスキル。「背景を透明化して」「背景を透過して」「背景を削除して」などのリクエストで起動します。前提として rembg のインストール（pip install "rembg[cpu]"）が必要で、ローカル実行のためAPIキー不要・回数制限なしです。処理済みファイルは元ファイルを上書きします。対応パターンは3つです。(1)単一ファイル：ユーザーが指定した画像ファイルをインラインで処理します。(2)バッジ画像：python3 /Users/kanekohiroki/Desktop/groumapapp/scripts/rembg_batch.py を実行し、assets/images/badges/ 配下を処理します。処理済みファイルはスキップされます。(3)指定ディレクトリ：バッジ以外のディレクトリを指定された場合、インラインで一括処理します。手順として、ユーザーの依頼内容から対象ファイル/ディレクトリを特定し、対応パターンに従ってコマンドを実行します。処理結果（成功/失敗の枚数）を報告し、Read ツールで処理後の画像を表示してユーザーに確認してもらいます。注意事項として、元ファイルを上書きするため必要に応じて事前バックアップを確認し、JPG/JPEG/WebP形式の出力は常にPNG（透過対応のため）となります。

1542026-03-08

VOICEVOX音声でオーナーに話しかけ、字幕と同期表示する

by yuiseki

VOICEVOX APIを使用してテキストをWAV音声ファイルに合成し、テレビスピーカーから聞こえる音声で話しかけられます音声合成と同時に字幕オーバーレイ（IPC経由）に字幕を送信し、音声と字幕を完全に同期表示できます PipeWire環境でのサウンドデバイス（HDMI）を自動検出し、確実に聞こえる音量スケール（2.5）を適用できます VOICEVOX APIが動作しない場合、paplay直再生へ自動的にフォールバックし、再生確実性を高められます「VOICEBOXで私に話しかけて」といった自然な指示で、音声＋字幕の同期再生を実行できます KDE Plasma + PipeWire環境でAIアシスタントに音声対応を追加したい利用者テレビやディスプレイに接続された環境で、音声と字幕を同期させたいシステム管理者 VOICEVOX音声エンジンを組み込んだ自動音声案内やアラート機能を実装したい開発者オーナーへの通知や作業完了報告を音声で自動実施したい自動化スクリプト開発者 KDE Plasma（X11）+ PipeWire（PulseAudio互換）環境で、VOICEVOX API（http://127.0.0.1:50021）を利用してWAV合成、repos/acaption IPC（127.0.0.1:47832）で音声＋字幕同期再生を主経路とし、必要時paplay直再生へフォールバック。実測値：VOICEVOX v0.25.1、デフォルトsink（alsa_output.pci-0000_04_00.1.hdmi-stereo）、話者ID=89（Voidoll）、volumeScale=2.5推奨。重要ルール：VOICEBOX指示でもVOICEVOX API使用、:50021生存確認優先、acaption IPC優先、paplay/sinkはデバッグ用、合成成功≠再生成功、再生後は手動検証。ワークフロー：API確認→IPC確認→sink確認→クエリ生成→volumeScale適用→WAV合成→IPC送信→聞こえた確認。

テスト

1932026-04-04

Gyazo画像から過去のキャプチャと情報を検索・取得

by yuiseki

Gyazo CLIツールで保存したキャプチャ画像を時間軸で検索・取得でき、直近の画像や特定の属性（写真、アップロード済み）で一覧表示できます。画像に含まれるOCRテキスト（認識された文字）と物体認識情報を自動抽出し、画像から情報を深掘りできます。特定の日時や日付範囲を指定して、その期間に撮ったスクリーンショットやメモ、位置情報付き写真を一覧化できます。アプリ使用状況、訪問ドメイン、タグ、位置情報などの統計情報をレポート形式で自動生成できます。複数のデバイスやクラウドストレージからのキャプチャを一元管理・同期できます。「あの時何をしていた？」という質問に視覚的に答えたい、リサーチャーやコンサルタント Gyazoに日々のスクリーンショットを大量保存していて、情報を効率的に検索したい人ユーザーの行動パターンやツール使用状況を分析したいデータアナリストや秘書AI キャプチャ画像に含まれるテキスト情報を自動抽出して活用したいナレッジワーカー gyazo CLIツールで、Gyazoに保存されたキャプチャ画像を操作します。OCRテキスト・ウィンドウタイトル・メタデータを含めて取得・検索・時間軸列挙可能。前提：実行バイナリgyazo、認証gyazo config set token （~/.config/gyazo/credentials.json保存）、キャッシュ~/.cache/gyazocli/。基本コマンド：gyazo config set tokenで認証、gyazo config get meで疎通確認、gyazo ls --limit 10で直近10枚、gyazo ls --hour 2026-01-01-10で2026年1月1日10時台（キャッシュ使用）、gyazo ls --photosで位置情報付き、gyazo ls --uploadedでgyazocli経由アップロード。gyazo search "date:2026-02-19"でAPI検索、キャッシュ使用（--no-cacheで最新化）。gyazo get --ocr --objectsで詳細取得（OCR・物体認識含む）。gyazo upload image.pngでアップロード。gyazo apps/domains/tags/locations --date/--daysで統計取得、デフォルト直近1週間。gyazo statsで週間サマリー。gyazo sync --days 7で同期、gyazo import json/hourly でキャッシュインポート。運用ルール：根拠なき推測禁止（購入確定は決済画面必須）、今日の画像はsync対象外（lsや--today使用）、キャッシュ古い場合--no-cache検討、未認証時はconfig set token案内。

11522026-04-04

StudioJinseiブランド画像をAIで自動生成

by StudioJinsei-Official

Google Gemini APIを使用してロゴ、キャラクター（コトネちゃん）、Webサイトビジュアルなどを自動生成できます。ブランドガイドライン（カラーパレット、デザイン方針、トーン）に基づいた統一感のある画像を一括作成できます。高品質な「Gemini 3 Pro Image」と高速な「Gemini 2.5 Flash Image」から用途に応じてモデルを選択できます。生成した画像を自動的にプロジェクトディレクトリに保存・管理できます。 StudioJinseiのブランドビジュアル制作を担当するデザイナー・マーケティング担当者ロゴやサイトビジュアルの複数パターンを短時間で試したい企画・営業担当者 AIを活用して制作工数を削減したいクリエイティブチームブランドガイドラインに沿った画像を効率的に生成したい制作管理者 Google Gemini APIを直接使用したNanobanana画像生成Skillです。利用可能なモデルは「Gemini 3 Pro Image」（高品質・高解像度、約21-30円/枚）と「Gemini 2.5 Flash Image」（高速・低コスト、約6円/枚）です。メインビジュアルはGemini 3 Pro Imageを推奨します。セットアップには環境変数GOOGLE_API_KEYの設定とgoogle-generativeaiパッケージのインストールが必須です。すべてのプロンプトにブランドコンセプト（「目に見えない考えを目に見える形に」）、ビジュアル方針（シンプルで温かみがあり、組織的かつ親しみやすく、洗練されながらも親友的、プロフェッショナルながら個人的）、カラーパレット（ソフトミントグリーン#A8D5BA、ダークティール#1D4E4A）を含める必要があります。

レビュー設計

01702026-01-12

iPhoneのVoiceOver対応で誰もが使えるアプリに改善できる

by takapom

VoiceOverで正しく読み上げられるようにする：ボタンやアイコン、テキスト、画像に適切なaccessibilityRole・accessibilityLabelを自動で付与し、スクリーンリーダー利用者が迷わず操作できるようにします。ガラスデザイン上のテキストのコントラストを自動で確保する：Liquid Glassのブラー背景でテキストが見えにくくなるのを防ぎ、WCAG AA基準（コントラスト比4.5:1以上）を満たすよう自動調整します。「透明度を下げる」設定に対応させる：ユーザーが視認性を高めるためにOS設定で透明度を下げた場合、ガラスエフェクトを自動で無効化し、不透明背景にフォールバックさせます。入力フィールドやトグルなど全UI要素をアクセシブルにできる：TextInput、Switch、画像など各要素に対して、アクセシビリティ属性の適用ルール表に従い、正しく設定できます。複数画面を一括でアクセシビリティ監査できる：引数で指定した画面、または全画面を対象にアクセシビリティ属性の有無を自動検査し、問題のある要素を一覧表示します。 iOSアプリを開発しており、VoiceOver対応を求められている開発者 Liquid Glassデザインを使用しており、視認性とアクセシビリティを両立させたい人 WCAGガイドラインに準拠したアプリを作りたい人視覚障害者も含むすべてのユーザーが使えるアプリを目指している開発チームこのスキルはiPhoneのVoiceOver対応を中心としたアクセシビリティ改善を実装します。前提はLiquid Glass（@callstack/liquid-glass）デザインで、ガラス上テキストのコントラスト確保が重要です。LiquidGlassView高さ65px超の場合、テキスト色の自動適応が効かないため、PlatformColor('labelColor')を明示的に使用し、textShadowColorやfontWeightで補完します。「透明度を下げる」設定に対応するため、AccessibilityInfo.isReduceTransparencyEnabled()でリッスンし、true時はガラスエフェクトを無効化して不透明背景にします。対象ファイルはsrc/screens//*.tsxとsrc/components//*.tsxです。手順は(1)Pressable・Image・TextInput・Switch・見出しTextを検索→(2)accessibilityRole（button/link/image/tab/switch/header）、accessibilityLabel（操作・内容を示すテキスト）、accessibilityHint（操作結果説明・任意）を適用→(3)装飾的画像はaccessible=falseを設定します。

テスト

0852026-02-04

テキストから高品質な画像をAIが自動生成・編集

by takimoto-sketch

テキスト説明から画像を一瞬で生成：「富士山の水彩画風」「猫のイラスト」といった説明文だけで、プロレベルのイラストや写真を自動生成します。既存の画像を思い通りに編集・加工：背景の変更・スタイル変換・要素の追加削除など、複雑な編集作業をテキスト指示で実現します。用途に合わせた縦横比を自由に選択：SNS投稿・プレゼン資料・スマホ壁紙など、出力用途に最適なサイズで生成できます。高速・高効率な画像制作ワークフロー：デザインスキル不要で、思いついたアイデアをすぐに画像化でき、プロトタイプやコンテンツ作成を加速します。ブログ・SNS用のアイキャッチ画像を大量に必要とするコンテンツクリエイタープレゼン資料やWebサイトのビジュアル制作を効率化したいマーケター・デザイナー AIイラストツールを初めて使う非デザイナーの企画・編集担当者プロトタイプやモックアップの画像を素早く用意したい開発者・プロダクトマネージャー Gemini APIの画像生成モデル（Nano Bananaシリーズ）を使用します。モデルは3種類：Nano Banana 2（gemini-3.1-flash-image-preview、高効率・デフォルト）、Nano Banana Pro（gemini-3-pro-image-preview、高忠実度）、Nano Banana（gemini-2.5-flash-image、低レイテンシ）。環境変数GEMINI_IMAGE_MODELで固定変更可能です。実行時はAskQuestionツールで(1)新規生成か編集かのモード判定、(2)編集の場合は入力画像パス、(3)プロンプト、(4)アスペクト比（1:1/16:9/9:16/4:3/3:4）、(5)出力ファイル名を確認します。基本コマンド：新規生成はbun run gemini:image -- --prompt "" --aspect 、編集は--image を追加。対応形式は.png・.jpg・.jpeg・.webp・.gif。デフォルト出力はreports/generated-images/に自動生成。

レビュー記事

02662026-04-08

画像・音声・動画を自動解析してAIが説明

by el-el-san

画像ファイルを解析してAIが内容を説明・分析します。JPG、PNG、GIF、WebPなど複数の形式に対応。音声ファイル（MP3、WAV、AAC、FLACなど）をアップロードしてAIが曲のジャンル、雰囲気、内容などを自動判定します。動画ファイルを解析してシーン内容や音声、字幕などをAIが自動で理解して説明します。ローカルファイルとWebのURLの両方に対応しており、大きなファイルは自動的にチャンク処理されて効率的に解析されます。カスタムプロンプトで指定した条件で解析でき、詳細モードで詳しい結果を取得できます。大量の画像や動画をAIに分析させて業務効率化したいマーケター・クリエイター音楽コンテンツの自動タグ付けやジャンル分類が必要な音楽制作者・キュレーター動画コンテンツの自動要約や内容把握が必要なメディア企業・編集者 URLで共有されたメディアを素早く内容確認したい営業・企画担当者 Gemini APIを使用した多形式メディア解析ツール。ローカルファイルパスまたはURLを入力として受け取り、AI解析を実行します。サポート形式は画像（JPG、JPEG、PNG、GIF、WebP、BMP、TIFF）、音声（MP3、WAV、AAC、FLAC、OGG、M4A）、動画（MP4、AVI、MOV、MKV、WebM）。使用方法は python analyze.py [ファイルパス/URL]、カスタムプロンプト指定時は --prompt オプション、詳細モードは --verbose オプションで実行。環境変数 GEMINI_API_KEY が必須。大きなファイルは自動的にチャンク処理され、出力には解析ファイル情報とAIによる詳細な分析内容が含まれます。

0192026-01-23

表示:

/ 全57件