AI 做的簡報總是很醜?改用 Codex 把每頁當 16:9 資訊圖生成,再組成 PPT
☰ 目錄 table-of-contents.md
上週想把一份 Codex 教學整理成能直接寄給客戶的簡報,結果在工具堆裡卡了一個下午。先用 NotebookLM 一鍵生成,速度是真的快,但中文標題擠成兩行、想把重點從「功能」換成「流程」就得整段重講,匯出的檔案套版味很重。換個方法,乾脆叫 AI 直接寫程式產出 .pptx,版面是出來了,卻是滿滿的工程師審美:灰色方塊配項目符號,資訊都對,就是不好看。
後來才想通,問題一直出在同一個地方。我們都在要 AI 幫忙「排版」,偏偏排版是它最不擅長的事。可是「畫一張好看的圖」這件事,OpenAI 在 2026 年四月推出的 gpt-image-2(很多人習慣叫它 Images 2.0)已經做得相當好,連中文字都能畫得像樣。於是我把需求整個翻過來:不要它排版,讓它把每一頁投影片當成一張 16:9 的圖直接畫出來,再用程式把五張圖組成一份 .pptx。
這條路還有一個分岔,先講清楚你才好選。如果你最在意每一張的設計質感,想要那種「像設計師做的、不老套」的成品,自己打開 ChatGPT 一張一張慢慢生成、慢慢挑,效果會最好。如果你要的是省事,一句話就把整份簡報連圖帶檔一次產好,那就交給 Codex 自動跑,代價是設計感比較一般、能挑的空間也小一點。這篇會把兩條路都講透,並對照 NotebookLM 與直接產檔,幫你判斷自己該走哪一條。
為什麼 AI 做的簡報,總是差那麼一口氣
現在把資料變簡報的 AI 工具很多,但真的要拿去交付,幾乎都會撞到同一道牆。先把這道牆看清楚,後面那條路為什麼值得繞,你才會懂。
- NotebookLM 這類一鍵生成:快歸快,版型是它的、不是你的。它能把文件一鍵變投影片,自動配好版面、圖示和配色,2026 年二月起還能直接匯出可編輯的 .pptx。但生成當下的結構和重點主要靠它自己決定,你想精修某一頁的標題斷行、加強某個重點的視覺份量,常常只能整份重來,要做品牌化更是綁手綁腳。
- 叫 AI 直接產 .pptx:跑得動,但長得像工程師做的。Antigravity、Claude 這類工具會老實地用程式把投影片拼出來,文字框、項目符號、表格都對位,可是設計感止步於「能看」。要它排出有層次、有呼吸感的版面,等於叫一個寫程式的工具去當平面設計師,先天就不對盤。
- 共同的病根:把投影片當成「排版題」在解。不管走哪條,AI 都在把文字、色塊、圖示塞進格子裡,而版面美感正是大型語言模型最不穩的能力。只要還在拼版面,產出就很難跳出「資訊正確但不好看」的天花板。
這幾個工具的強項其實是別的。我們在〈Antigravity、Claude Code、Codex 三大 AI Coding Agent 完整比較〉裡比過,它們真正厲害的是讀懂需求、寫對程式、把流程跑通,而不是視覺設計。把這件事認清楚,下一步的方向就很清楚了。
關鍵轉念:把投影片當「圖」生成,而不是當「版面」拼
整個思路的轉折就一句話:與其要 AI 排版,不如讓它畫圖。
gpt-image-2 是 OpenAI 第三代旗艦圖像模型,2026 年四月二十一日發表,本文相關規格查證於 2026 年六月十八日。它最大的突破,是第一次把 O 系列的推理能力放進圖像模型,畫圖前會先想過整張圖的結構,還支援 2K 解析度和多語言文字。這也是為什麼它能把含中文標題的資訊圖畫得有模有樣,而不是過去那種一放中文就亂掉的窘況。
所以新做法是把一整頁投影片,當成一張 16:9 的圖交給它畫。版面、配色、圖示、文字層次,全都在「畫圖」這一步一次處理好,直接跳過 AI 最弱的拼版面環節。畫好的五張圖,再用程式塞進一份 .pptx,每一頁就是一張滿版圖。這正是社群專案 codex-ppt-skill 在做的事,OpenAI 官方也把它列為 Codex 的標準用途之一,見 Codex 官方 generate slide decks 使用案例。這跟我們在〈WordPress AI 圖像生成整合實作〉裡的主張一致:把 AI 圖像模型當成生產線上的一個工序,而不只是玩具。
兩條路線:手動慢慢挑,還是自動一條龍
同樣是「把投影片當圖生成」,怎麼跑,成品的味道差很多。這是整篇最該先想清楚的取捨。
想要設計師質感:用 ChatGPT 一張一張跑
如果這份簡報要對外、要好看、要讓人記得住,最好的做法其實很樸實:打開 ChatGPT,用 gpt-image-2 一張一張生成。一張不滿意就重畫、微調提示、換個構圖再試,像在跟一位設計師來回對稿。因為每一張都經過你親手挑選,整份簡報的設計感會明顯更強、更有風格,也比較不會落入那種一看就膩的樣板味。代價是費工,五張圖可能要來回跑十幾次,而且最後還是得自己把圖拼進 PowerPoint。
想要省事一條龍:交給 Codex 自動跑
如果你要的是效率,一句話就把整份簡報從規劃、生圖到組成 .pptx 一次搞定,那就讓 Codex 當總指揮。它會自己規劃內容、批次呼叫 gpt-image-2、寫好組裝程式並執行,省下大量手動步驟。換來的代價也很實在:因為是程式批次生成、人工介入挑選的機會少,設計感會比較一般,遇到不夠好的圖,能挑、能換的空間也比手動小。簡單說,Codex 用「設計打折」換「全自動」。
哪條路適合你,取決於這份簡報是「給老闆客戶看的門面」還是「內部快速交差」。下面先把 Codex 這條自動化的路完整走一遍,因為它的步驟拆開後,手動那條也照樣適用,只是把「Codex 自動做」換成「你親手做」而已。
Codex 一條龍流程:規劃、生圖、組裝一次到位
整條流程由 Codex 當總指揮。實際下指令時就是一句話的事,把教學主題、要幾張、什麼比例、最後組成 ppt 講清楚就好。
從截圖可以看到,Codex 把它當成一個完整交付物在處理,先盤點工作型態(用圖像生成流程產圖,再把圖搬進工作區,避免 PPT 只引用到暫存路徑),接著把教學內容定稿成五張投影片的骨架,才動手生成。下面把這條流程拆成五個可以照抄的步驟。
第一步:先讓它定稿五張投影片的骨架
別急著生成圖。先讓 Codex 把教學內容收斂成固定張數的大綱,每一頁定下標題、要點和視覺主題。以這份《Codex 教學手冊》為例,五頁依序是封面、概念(Codex 是什麼)、操作步驟、進階工作流、上手指引。先把內容鎖死,後面生成圖時才不會每張風格和資訊量各走各的。
第二步:用 gpt-image-2 生成 16:9 資訊圖
骨架定好,Codex 就逐頁呼叫 gpt-image-2 生成 1536×864 這種 16:9 比例的圖。提示設計是這一步的靈魂,四件事一定要講清楚:版面類型(封面頁、概念圖、步驟流程圖)、要顯示的中文文字、配色與風格(例如深藍科技風、霓虹藍青光),還有「保持留白、文字不要溢出」這類排版約束。下面這張就是第二頁「概念」的成品。
第三步:在本機把中文字校一遍
這一步最容易被略過,卻最關鍵。gpt-image-2 的中文字已經進步很多,但圖像模型終究是「畫」字不是「排」字,偶爾還是會缺筆、錯字或斷行怪怪的。處理方式有兩種:把錯字當成編輯指令、請它針對那頁重畫;或對少數關鍵文字,在本機用 Pillow 之類工具在圖上重疊一層乾淨的字。重點是建立一個逐頁校稿的環節,別假設它一次就對。
第四步:用 python-pptx 組裝成 .pptx
五張圖都校好,Codex 寫一段 python-pptx 腳本,把投影片尺寸設成 16:9,逐頁建立空白投影片,再把對應的圖滿版貼上去。因為每頁就是一張滿版圖,這段程式非常單純,不用處理文字框和版面配置,產出的就是一份能直接用 PowerPoint 開啟、可播放的 .pptx。
第五步:整體品質檢查再交付
最後做一輪總檢查:五頁風格一不一致、有沒有殘留錯字、投影時的解析度夠不夠清楚、檔案大小合不合理(滿版圖會讓檔案偏大,必要時壓縮)。確認沒問題再交付。這套「先定內容、再生成、後校稿、最後打包」的節奏,可以直接接到我們在〈把同事煉化成技能包〉裡談的 SKILL.md 工作流,把整條流程封裝成一個一句話就能再跑一次的技能。如果你還在猶豫整個團隊該不該全面導入這類 AI 開發工具,〈AI Coding Agent 價值決策指南〉與〈為什麼你的 Vibe Coding 總是產出無法維護的架構〉這兩篇可以一起看。
四種做法,一張表看懂
把手動和自動拆開後,現在總共有四條路。攤在同一張表上,取捨就一目了然:
| 做法 | 版面美感 | 挑圖/微調空間 | 文字可編輯性 | 最適場景 |
|---|---|---|---|---|
| ChatGPT 手動一張張生成 | 最高,像設計師作品 | 大,可反覆重畫挑選 | 低,圖上文字要重畫 | 對外門面、最重視質感 |
| Codex 自動圖像式 | 中上,但偏一般 | 小,批次產出較難挑 | 低,圖上文字要重畫 | 要效率、一條龍出檔 |
| NotebookLM 一鍵生成 | 中等,套內建模板 | 低,受模板限制 | 高,匯出可逐字改 | 內部快速整理 |
| Antigravity/Claude 直接產 .pptx | 偏低,工程師審美 | 中,要寫程式調樣式 | 高,原生文字框 | 資料密集、常改字 |
看得出來這是一組很清楚的取捨:越自動、越好編輯,通常就越不好看;越好看,就越費工、文字越難改。沒有萬用解,只有「這次的簡報最在意什麼」。
什麼情境用哪一種
- 要對外、第一眼就要漂亮(提案、課程、產品介紹):ChatGPT 手動一張張跑。費工,但質感值得。
- 要常態產出同風格簡報、能接受設計普通:Codex 自動跑,把流程寫成腳本或 SKILL.md,之後一句話再產一份。
- 內部快速消化大量資料、版型可接受制式:NotebookLM,五分鐘出稿。
- 資料密集、上線後還要頻繁改數字改文字:Antigravity 或 Claude 產原生 .pptx,可編輯性優先。
如果你還在挑團隊主力的 coding agent,〈Claude Code、Google Jules、Devin 比較〉與〈Google Antigravity 2.0 實測〉裡有更完整的選型討論;想了解 OpenAI 模型還能怎麼用在內容生產,〈用 OpenAI 自動生成商品描述〉是個實例。
這套做法的限制與注意事項
圖像式簡報很適合特定場合,但有幾個先天限制要先知道,免得交付後才發現:
- 文字不能直接改:投影片上的字是「畫」在圖裡的,不是文字框。要改一個字,原則上得重畫那一頁或在本機重疊文字。定案後不再動的簡報沒問題,天天要改的就不適合。
- 沒辦法當大綱編輯:你拿到的是五張圖,不是有層級的內容,沒法像一般 PPT 折疊大綱、搬動條目。
- 檔案偏大:每頁滿版高解析圖會讓 .pptx 體積上升,寄送或上傳前可能要壓縮。
- 規格和費用會變:gpt-image-2 的開放範圍、解析度和計費在 2026 年還在演進,API 約於五月起對開發者開放,生成大量高解析圖會產生實際費用。正式導入前請以 OpenAI 官方圖像生成 API 公告和 gpt-image-2 模型文件為準。
資料來源與延伸連結
本文所有產品規格與日期查證於 2026 年六月十八日,模型能力與計費變動頻繁,使用前請以官方頁面為準:
- OpenAI:圖像生成 API 公告
- OpenAI:gpt-image-2 模型文件
- OpenAI Codex:generate slide decks 使用案例
- codex-ppt-skill(圖像式簡報的開源 Skill)
- python-pptx 官方文件
- Google NotebookLM:產生簡報官方說明
- Google:NotebookLM 簡報功能的八種用法
延伸閱讀
- 把同事「煉化」成技能包:用 Claude、Antigravity、Codex 留住老鳥的經驗
- Antigravity、Claude Code、Codex 三大 AI Coding Agent 完整比較與企業選型指南
- WordPress AI 圖像生成整合實作
- Claude 發表 Fable 5:大型專案實測兩天的真心話
如果你想把這類「AI 生產線」搬進公司日常,從簡報、文件到內容自動化都讓 AI 跑,這正是我們在做的事。歡迎跟浪花科技聊聊,或先看看我們的 AI 自動化開發服務。
常見問題
Q1: 想要最好看的簡報,該用 ChatGPT 手動跑還是 Codex 自動跑?
Q2: gpt-image-2 和 Images 2.0 是同一個嗎?
Q3: 圖片生成的投影片,之後還能改文字嗎?
Q4: 這跟 NotebookLM 做簡報差在哪?
Q5: 需要會寫程式才能做嗎?
訂閱免費電子報
把 AI 自動化、企業系統設計與 WordPress / Laravel 開發的真實案例和可直接照做的技巧,整理成電子報寄給你。只寄精選內容、不灌垃圾信,一鍵就能退訂。