今年上半年,我們替兩個跨境電商客戶把商品視覺產線從「外拍 + 修圖」換成「AI 生成 + 人工挑修」。過程中最常被問的問題不是「AI 圖能不能用」——這題早就過了——而是「Midjourney 跟 Flux 到底該選哪一家」。我們用同一批真實商品、同一組需求,把兩家 model 各跑了三百多張圖,這篇是完整的對照結果。
先講結論的形狀:這不是一場有冠軍的比賽。兩家的強項幾乎互補,選錯的代價是每個月多花幾十小時重生成、重修圖;選對(或混用)的話,一檔新品的視覺製作成本可以壓到傳統外拍的一成以下。
1. 兩家 model 的風格 DNA 差在哪
用一句話區分:Midjourney 是「有自己審美的攝影師」,Flux 是「服從指令的燈光棚」。
Midjourney 從 v6 之後一路強化的是「美感先決」——就算你的 prompt 寫得很普通,它也會自作主張補上漂亮的景深、暖色調、雜誌感構圖。做品牌視覺時這是天賦,做規格化商品圖時這是災難:你要純白背景,它給你帶一點米色的「高級白」;你要商品置中,它覺得三分構圖比較美。
Flux(Black Forest Labs 的 FLUX.1 系列,我們主要用 Pro 與 Dev 兩個版本)走的是相反路線:prompt 寫什麼給什麼,光線、角度、背景的描述服從度明顯高一截,文字渲染也比 Midjourney 可靠。代價是它不會替你「加分」——prompt 平庸,圖就平庸。
2. Product on white 實測:誰的白底圖能直接上架
測試方式:拿客戶的 20 個 SKU(保健食品瓶罐與軟袋包裝),每個 SKU 兩家各生成 10 張純白背景商品圖,標準是「不經大修即可進上架流程」——背景夠白、商品形變在可接受範圍、瓶身比例正確。
- Flux:一次通過率約 70%。背景是真的 #FFFFFF 級純白,商品輪廓乾淨,去背幾乎不用做。失敗的 3 成主要輸在瓶蓋細節與標籤文字扭曲。
- Midjourney:一次通過率不到 40%。最大問題是「背景不夠白」與「自動加戲」——莫名多出倒影、陰影、道具。單張品質不差,但要的是穩定產線,不是驚喜。
這裡有個實戰細節:白底圖的真正瓶頸不是生成,是「同一個 SKU 每次生成長得一不一樣」。Flux 搭配 image-to-image 與固定 seed,同商品多角度的一致性可以拉到堪用;Midjourney 的 --cref/omni-reference 對「人物一致性」強,對「包裝一致性」仍不夠準。
3. Lifestyle shot 實測:情境圖的氛圍之戰
換到情境圖,戰局整個翻過來。同一組需求——「商品放在清晨的北歐風廚房流理台,自然光,生活感」——Midjourney 十張裡常常有三、四張是「直接可以當品牌主視覺」的等級:光從窗簾透進來的層次、大理石檯面的反光、失焦前景的綠植,都是不用教的。
Flux 生成的情境圖每個元素都「正確」,但整體常有一種目錄感——像及格的商業圖庫,不像品牌照。要逼近 Midjourney 的氛圍,prompt 得寫到 100 字以上,把光線、鏡頭、色調全部講死,等於把攝影師的工作搬進 prompt。
一個匿名個案:一個做居家香氛的跨境品牌,過去每季外拍一次,一檔約 NT$80,000(棚租、攝影師、道具、修圖),出圖 30 張、前置期三週。改用 Midjourney 生成情境素材、真實商品照合成後,一季視覺成本降到約 NT$8,000(訂閱費 + 約 12 小時人工挑修合成),出圖量翻倍、新品視覺從三週縮到四天。廣告素材的 CTR 沒有下降——A/B 測了兩檔,AI 情境圖那組還略高。
4. 成本對照:訂閱制 vs API 計費
| 維度 | Midjourney | Flux(API) |
|---|---|---|
| 計費模式 | 訂閱制 $10–120 USD/月 | 按張計費,約 $0.025–0.06 USD/張 |
| 官方 API | 無(自動化只能走非官方管道,有風險) | 有(BFL 官方 + Replicate / fal.ai 等) |
| 月產 2,000 張的成本 | $30–60 USD(Standard/Pro 檔) | 約 $60–100 USD,但全程可程式化 |
| 白底圖一次通過率(我們實測) | < 40% | 約 70% |
| 情境圖美感上限 | 極高 | 中高,需重 prompt |
| 可自架 / 微調 | 不可 | FLUX.1 Dev 可自架、可 LoRA 微調 |
帳面上 Midjourney 吃到飽比較便宜,但那是「人工坐在 Discord 或網頁前按按鈕」的成本結構。Flux 的每一張都能寫進 pipeline:新品上架時自動生成 6 個角度的白底圖、自動去背、自動壓縮上傳——這段自動化替另一個匿名個案(百 SKU 級的雜貨型跨境賣家)每個月省下約 35 小時的美編工時。當「人的時間」算進去,量大的那一方永遠是 API 划算。
5. 適用場景:什麼時候選誰
選 Midjourney
- 品牌情境圖、廣告素材、社群視覺——美感就是轉換率的場景
- 出圖量不大(月產 500 張以內),由設計師人工挑選
- 需要探索風格方向、做 moodboard、提案給客戶看的階段
選 Flux
- 規格化白底圖、多角度上架圖、需要批量與一致性的場景
- 要接進自動化 pipeline(新品自動出圖、廣告素材自動變體)
- 要在圖上正確渲染文字(促銷標語、成分標示類的合成素材)
- 對資料主權有要求、想自架或用自家商品 LoRA 微調
誠實說:兩家都不適合的情況
平台主圖如果被要求「真實反映商品」——Amazon 對主圖的規範就是實例——用 AI 全生成的商品本體是在賭帳號。瓶身上的小字、logo 細節、材質紋理,目前兩家都無法百分之百還原,消費者收到貨對不上圖,退貨與評價的代價遠大於省下的攝影費。我們的底線是:商品本體用實拍,AI 負責背景、情境與延伸素材。另外,透明玻璃、鏡面金屬、複雜機構類商品的失真率仍然偏高,這類品項我們到現在還是建議客戶乖乖進棚。
6. 如何混用兩家:我們的 pipeline
目前跑在客戶產線上的流程長這樣:
- 實拍打底:每個 SKU 拍 3–5 張基準照(手機 + 簡易棚即可),這是商品本體的 ground truth
- Flux 產規格圖:以實拍為 reference 走 image-to-image,批量生成白底、多角度上架圖,API 自動去背與命名歸檔
- Midjourney 產氛圍:生成情境背景與場景素材,人工挑出前 10%
- 合成:把實拍商品合進 Midjourney 場景(Photoshop 或自動化合成腳本),商品真實、氛圍高級,兩邊的優點都拿到
- 驗收閘門:所有輸出過一輪人工檢查——標籤文字、比例、色準,不通過就退回重生成
這條產線在我們手上的實績:一個新品從「只有樣品」到「上架圖 + 6 張廣告素材備齊」,從平均 18 個工作天縮到 3 天,單檔視覺成本約為外拍的 8–12%。但要老實說,前期建 pipeline(prompt 模板、reference 流程、自動化腳本)花了我們大約三週——這不是訂閱一個帳號隔天就有的效率。
結語:別問哪家贏,問你的圖要拿去做什麼
「Midjourney vs Flux」是個假對立。真正的分界線是:你的圖要「美到讓人停下滑動」,還是要「準到能進自動化產線」。前者選 Midjourney,後者選 Flux,量夠大的跨境賣家最後幾乎都會走向混用。
如果你正在評估把商品視覺產線 AI 化——不確定該從哪個環節切入、或想知道自己的品類適不適合——加 LINE 一對一聊 30 分鐘,帶著你的商品照來,我們直接用兩家 model 跑幾張給你看,用結果說話。