moai-media — 이미지 프롬프트 빌더 + 이미지·영상 생성 + 음성 합성
AI 미디어 작업의 프롬프트 산출·이미지·영상·음성 전담 플러그인. 이미지 프롬프트 빌더 3종(GPT-image-2·Gemini 3 Pro Image·Midjourney v8.1), Higgsfield MCP 기반 이미지·영상 생성 2종(higgsfield-image·higgsfield-video), 음성 합성 1종(audio-gen)으로 구성된 6개 스킬 묶음입니다.
이 플러그인을 요리 레시피 카페에 비유하면 이해하기 쉽습니다. 이 카페는 손님이 각 주방(ChatGPT·Google AI Studio·Discord)으로 가져가 바로 쓸 수 있도록 완벽하게 정리된 레시피 카드를 만들어주는 곳입니다. 여기서 레시피 카드가 바로 ‘프롬프트’입니다. 프롬프트란 컴퓨터에게 “이런 그림을 그려줘"라고 주문하는 상세한 지시문(텍스트)을 뜻합니다. “강아지” 한 단어만 던지면 결과가 제각각이지만, “햇살이 비치는 창가에 앉은 골든 리트리버, 따뜻한 톤, 정면 구도"처럼 구체적으로 적어줘야 AI가 원하는 그림을 그려줍니다.
여기에 더해 이 카페에는 직접 요리해 주는 주방도 있습니다. Higgsfield 주방에서는 이미지 11종·영상 11종을, ElevenLabs 주방에서는 음성을 그 자리에서 완제품(이미지·영상·MP3 파일)으로 만들어 줍니다. 반면 GPT-image-2·Gemini 3 Pro Image·Midjourney v8.1 레시피 카드는 “가져가서 직접 조리"하는 용도라, 완성된 프롬프트 텍스트를 받아 사용자가 직접 ChatGPT·Google AI Studio·Discord에 붙여넣어야 비로소 그림이 완성됩니다.
moai-media는 세 가지 작업에 집중합니다.
- 이미지 프롬프트 텍스트 작성 — 모델별 공식 가이드(OpenAI Cookbook·Google AI Developers·Midjourney Parameter List)를 그대로 적용해 ChatGPT·Google AI Studio·Discord
/imagine에서 바로 복붙할 수 있는 프롬프트를 출력합니다. - 이미지·영상 생성 — Higgsfield MCP로 이미지(Soul·Nano Banana Pro·Seedream 등)와 시네마틱 영상(Veo 3·Sora 2·Kling 등)을 플러그인 안에서 바로 렌더링합니다.
- 음성 합성 — ElevenLabs MCP로 TTS·보이스 클로닝·다국어 더빙·효과음을 생성합니다.
레시피 카드(프롬프트)만 만드는 스킬 3종은 사용자가 외부 도구에서 직접 실행해야 하고, 직접 조리하는 스킬 3종(이미지·영상·음성)은 플러그인 안에서 완제품까지 산출합니다. 이 책임 경계가 이 플러그인의 핵심입니다.
flowchart TD
subgraph Prompt["이미지 프롬프트 빌더 (3) — 레시피 카드"]
A["gpt-image-2-prompt
OpenAI 6-Block"]
B["gemini-3-image-prompt
Google 5-component"]
C["midjourney-v8-prompt
키워드+--파라미터"]
end
subgraph Higgs["Higgsfield 생성 (2) — 직접 조리"]
I["higgsfield-image
이미지 11종"]
J["higgsfield-video
영상 11종"]
end
subgraph Audio["음성 합성 (1) — 직접 조리"]
D["audio-gen
ElevenLabs MCP"]
end
A --> E[/ChatGPT·OpenAI API/]
B --> F[/Google AI Studio·Gemini API/]
C --> G[/Discord /imagine·alpha.midjourney.com/]
I --> K[(이미지 파일 PNG·JPG)]
J --> L[(영상 파일 MP4)]
D --> H[(MP3·WAV·OGG 파일)]
style A fill:#dceee9,stroke:#2a8a8c,color:#09110f
style B fill:#dceee9,stroke:#2a8a8c,color:#09110f
style C fill:#dceee9,stroke:#2a8a8c,color:#09110f
style I fill:#e6e0f0,stroke:#6b4a9a,color:#09110f
style J fill:#e6e0f0,stroke:#6b4a9a,color:#09110f
style D fill:#fbf0dc,stroke:#c47b2a,color:#09110f초보자가 가장 많이 하는 오해가 “프롬프트 만들어줘"라고 했는데 왜 이미지 파일이 나오지 않냐는 것입니다. 택배 송장에 비유하면 명확해집니다. 택배 회사는 송장(프롬프트)을 정확하게 써줄 뿐, 물건을 직접 배송(이미지 렌더링)하지는 않습니다. 송장을 받은 사용자가 직접 택배 회사(ChatGPT·Google AI Studio·Discord)에 가져가 부쳐야 비로소 물건(이미지)이 도착합니다. 반면 higgsfield-image·higgsfield-video·audio-gen은 이 카페 안의 인하우스 공장처럼 플러그인 안에서 바로 완제품(이미지·영상·MP3)까지 만들어 줍니다. 즉, 어느 단계는 플러그인 안에서 끝나고, 어느 단계는 사용자가 외부 도구로 가져가 한 번 더 실행해야 하는지가 이 플러그인의 책임 경계입니다.
아래 순서도는 세 산출물(이미지 프롬프트 vs Higgsfield 생성 vs 음성 파일)이 각각 어디까지 플러그인 안에서 완성되고 어디서 사용자의 손으로 넘어가는지를 보여줍니다. 화살표가 사용자 박스를 거쳐가는 지점이 바로 “여기서부터는 직접 실행"하는 경계입니다.
sequenceDiagram
participant U as 사용자
participant M as moai-media (본 플러그인)
participant E as 외부 도구
(ChatGPT·AI Studio·Discord)
Note over U,M: ① 이미지 프롬프트 경로 — 송장만 발행
U->>M: "제품샷 프롬프트 만들어줘"
M-->>U: 완성된 프롬프트 텍스트
Note over U: ★ 여기서부터 사용자가 직접
U->>E: 프롬프트 복붙 → 실행
E-->>U: 이미지 파일 (PNG·JPG)
Note over U,M: ② Higgsfield 생성 경로 — 인하우스 완제품
U->>M: "시네마틱 키비주얼 만들어줘"
M->>M: Higgsfield MCP 호출 (플러그인 안)
M-->>U: 이미지·영상 파일 (바로 완성품)
Note over U: 복붙 단계 없음
Note over U,M: ③ 음성 생성 경로 — 인하우스 완제품
U->>M: "내레이션 음성 만들어줘"
M->>M: ElevenLabs MCP 호출 (플러그인 안)
M-->>U: MP3 파일 (바로 완성품)
Note over U: 복붙 단계 없음요약하면 이미지 프롬프트 3종은 송장 작성까지, Higgsfield 생성 2종과 음성 생성 1종은 배송 완료까지 담당합니다. 이 차이를 알면 “왜 이미지는 안 나오지?“라는 혼란 없이, 각 산출물을 어디서 마무리해야 할지 바로 알 수 있습니다.
moai-core설치 후moai-media옆의 + 버튼을 눌러 설치합니다.audio-gen을 쓰려면ELEVENLABS_API_KEY를.moai/credentials.env에 등록합니다.higgsfield-image·higgsfield-video는 첫 호출 시 Higgsfield MCP OAuth 인증 1회가 필요합니다.- 이미지 프롬프트 빌더 3종은 API 키 불필요 (텍스트 프롬프트만 생성).
~/.claude/plugins/에 배치합니다.자연어 한 줄 + AskUserQuestion 프리셋(제품샷·인물·일러스트·풍경)으로 컨텍스트를 수집하고, 각 모델의 공식 가이드에 정렬된 프롬프트 텍스트를 출력합니다. 책임 경계: 프롬프트 텍스트 산출 전용 — 실제 이미지 생성은 사용자가 외부 도구에서 직접 실행합니다.
| 스킬 | 공식 가이드 | 핵심 특징 |
|---|---|---|
gpt-image-2-prompt | OpenAI Cookbook | Subject·Action·Scene·Composition·Lighting·Style&Text 6-Block. 편집 시 Change/Preserve/Constraints 2열. 텍스트 verbatim·ALL CAPS·다국어(한·일·중·힌·벵골) |
gemini-3-image-prompt | Google AI Developers | 영문 문장형 5-component, Creative Director 어조. 카메라 하드웨어(Fujifilm·GoPro·iPhone). Reference image 14 슬롯. Search Grounding. Thinking vs Fast 모드. SynthID 워터마크 |
midjourney-v8-prompt | Midjourney Parameter List | 키워드+--파라미터. --sref/--oref/--cw/--p 3대 reference deep dive. 6대 비용 함정 자동 검사 (--hd --q 4 16x cost, --cw 100 상속, --cref deprecation 교체) |
자연어 한 줄로 Higgsfield MCP가 플러그인 안에서 직접 이미지·영상을 렌더링합니다. 책임 경계: 완제품 산출 — 외부 도구 복붙 단계 없이 파일이 바로 나옵니다.
| 스킬 | 백엔드 | 산출물 |
|---|---|---|
higgsfield-image | Higgsfield MCP | 이미지 11종(Soul·Soul 2.0·Soul Cinema·Nano Banana·Nano Banana Pro·GPT Image·GPT Image 2·Seedream 4.0·Flux Kontext·Wan 2.2 Image·Wan 2.5) — PNG·JPG |
higgsfield-video | Higgsfield MCP | 영상 11종(Veo 3·Sora 2·Kling 2.1~3.0·Seedance·Cinema Studio 3.5·MiniMax Hailuo·Wan 2.5) + 6 프리셋(UGC·Unboxing·Product review·Hyper motion·TV spot·Wild Card) — MP4 |
| 스킬 | 백엔드 | 산출물 |
|---|---|---|
audio-gen | ElevenLabs MCP | TTS, 보이스 클로닝, 다국어 더빙(영·일·중·스 등), 효과음(SFX) — MP3·WAV·OGG |
moai-media는 Higgsfield MCP 1개 + ElevenLabs MCP 1개, 총 2개의 MCP를 번들합니다.
| 영역 | 담당 | 비고 |
|---|---|---|
| 이미지 프롬프트 텍스트 작성 | moai-media 빌더 3종 | API 키 불필요, 텍스트만 출력 |
| 이미지·영상 실제 렌더링 | moai-media:higgsfield-image·higgsfield-video (Higgsfield MCP) | 첫 연결 시 OAuth 인증 1회 |
| 음성·TTS·더빙·효과음 합성 | moai-media:audio-gen (ElevenLabs MCP) | ELEVENLABS_API_KEY 1개 필요 |
| 프롬프트 빌더 결과물 실행 | 사용자가 ChatGPT·Google AI Studio·Discord에서 실행 | 프롬프트 텍스트 산출 스킬은 외부 실행 |
Warning이미지 프롬프트 빌더 3종은 API 키 불필요입니다.higgsfield-image·higgsfield-video는 Higgsfield OAuth 1회,audio-gen은 ElevenLabs 키 1개를 요구합니다.
# .moai/credentials.env
ELEVENLABS_API_KEY=sk_... # audio-gen 전용
| 변수 | 용도 | 발급처 |
|---|---|---|
ELEVENLABS_API_KEY | audio-gen (TTS·보이스 클로닝·더빙·효과음) | elevenlabs.io/app/settings/api-keys |
| Higgsfield OAuth | higgsfield-image·higgsfield-video (이미지·영상 생성) | 첫 호출 시 mcp.higgsfield.ai OAuth 인증 1회 |
Free 티어: 월 10,000자 TTS · Starter $5/월: 30,000자 + 음성 복제 10개 · Creator $22/월: 100,000자 + 더빙 30분.
모델·스타일·비율은 시스템이 인터뷰로 수집합니다. (사용 패턴 가이드 참조)
> 비건 스킨케어 제품샷 GPT 프롬프트 만들어줘
→ 시스템 인터뷰: 프리셋(제품샷)·조명·구도 → gpt-image-2-prompt 출력 → 사용자가 ChatGPT에 복붙
> 한국어 타이포 카드뉴스 5장 Gemini 프롬프트 만들어줘
→ 시스템 인터뷰: 카메라·레퍼런스·텍스트 verbatim → gemini-3-image-prompt 출력 → 사용자가 Google AI Studio에 복붙
> 사이버펑크 도시 일러스트 Midjourney 프롬프트 만들어줘
→ 시스템 인터뷰: 스타일·--sref 레퍼런스·비율 → midjourney-v8-prompt 출력 → 사용자가 Discord /imagine에 복붙
> Higgsfield로 시네마틱 키 비주얼 이미지 만들어줘
→ 시스템 인터뷰: 모델(Soul·Nano Banana Pro 등)·스타일·비율 → higgsfield-image가 Higgsfield MCP 호출 → PNG 산출
> Veo 3로 제품 소개 5초 영상 만들어줘
→ 시스템 인터뷰: 영상 모델·프리셋·구도 → higgsfield-video가 Higgsfield MCP 호출 → MP4 산출
> 30초 한국어 내레이션 음성 만들어줘 — 차분한 여성 목소리
→ 시스템 인터뷰: 목소리·속도·감정 → audio-gen이 ElevenLabs MCP 호출 → MP3 산출
> 이 영어 영상을 한국어로 더빙해줘
→ audio-gen — 원본 음성 분석 → 한국어 더빙 트랙 생성 (다국어 더빙은 한 번에 여러 언어 동시 산출 가능)
이미지 제작 (외부 도구 연결)
moai-content:copywriting → gpt-image-2-prompt
(사용자가 ChatGPT에서 실행)
Gemini 3 Pro Image로 한국어 타이포 카드뉴스
moai-content:card-news → gemini-3-image-prompt
(사용자가 Google AI Studio에서 실행)
Higgsfield로 즉시 이미지 산출 (외부 도구 불필요)
moai-content:copywriting → higgsfield-image (Higgsfield MCP에서 바로 PNG 산출)
시네마틱 제품 영상
higgsfield-video (Veo 3·Sora 2 등 영상 11종 → MP4)
유튜브 내레이션
moai-content:blog → audio-gen (한국어 TTS) → 영상 편집기 import
다국어 더빙
audio-gen (원본 업로드 → 영·일·중 동시 산출)
moai-content— 카드뉴스·블로그·랜딩페이지 카피 (본 플러그인 빌더와 페어)moai-commerce— 상세페이지 카피·구조moai-core— MCP 커넥터 셋업·ai-slop-reviewer텍스트 검수- Cowork 커넥터와 MCP