圖片優化對 AI SEO 或者 GEO 的重要性探討
隨著多模態 AI(Multimodal AI)的崛起,LLM 看的不只文字而已,圖片被引用的可能性有多大,本文從技術端來探討圖片被 LLM 引用的方式,以及如何利用優化圖片的內容,讓你的圖片幫助了AI SEO 或者 GEO。
前言:圖片 SEO 在 AI 搜尋的進化
當我們談論 SEO 圖片技術常是壓縮圖片讓用網頁顯示速度快提升用戶體驗,以及為圖片寫替代文字(ALT)讓爬蟲理解圖片意義。但隨著多模態 AI(Multimodal AI)的崛起,LLM 看的不只文字而已, 當 LLM 開始「看」圖片時,你的視覺內容應該要怎樣準備才能容易被 LLM 所引用?,本文從 LLM如何解讀圖片的技術觀點來看,進一步提升用 LLM 引用機會。
目錄
- 前言:SEO 的典範轉移
- 第一部分:LLM 真的會搜尋圖片嗎?
- 第二部分:像素即 Token——理解 AI 如何「看」圖片
- 第三部分:情感共鳴的量化
- 第四部分:OCR 審計——包裝上的文字也是 SEO
- 第五部分:視覺鄰接性——圖片中的 AI 聯想
- 第六部分:開發者的行動清單
- 目前的挑戰與限制
- 結語:從 Code 到 Pixels
第一部分:LLM 真的會搜尋圖片嗎?
在深入探討圖片優化策略之前,我們必須先回答一個根本性的問題:LLM 在回答使用者問題時,除了引用既有訓練知識與透過 RAG 搜尋網路文字內容以外,真的會搜尋圖片作為參考嗎?
答案是肯定的。這項技術被稱為「多模態檢索增強生成」(Multimodal RAG,簡稱 MM-RAG)。
三種圖片檢索的運作方式
1. 多模態嵌入(Shared Embedding Space)
這是目前最先進的方式。系統將圖片和文字同時轉換成同一數學空間中的向量,就像把兩種語言翻譯成同一種「通用語」。
想像一個場景:客戶問「這款吸塵器的濾網在哪裡?」AI 會在知識庫中搜尋與「濾網位置」語意最接近的產品結構圖,然後將圖片連同說明文字一起提供給 LLM 處理。這背後的關鍵技術包括 OpenAI 的 CLIP 或 Google 的多模態嵌入模型。
2. 圖片轉文字摘要(Image-to-Text RAG)
這是圖片檢索技術普及前的過渡方案。系統在建立知識庫時,預先用視覺模型為所有圖片產生文字註解或透過 OCR 提取圖中文字。當檢索系統發現某張圖片的文字描述與使用者問題相符時,就會將該圖片及其描述提取出來供模型參考。
3. 多模態大語言模型的直接理解
現代的 GPT、Gemini 、Claude 等模型具備原生的視覺能力,可以直接「看圖說故事」。完整流程是:先從網路或資料庫檢索相關圖片,接著 AI 將圖片轉換為視覺 Token 與文字 Token 一起處理,最後產生整合視覺資訊的回答。
實際應用場景
| 應用領域 | 使用者問題 | AI 如何利用圖片 |
|---|---|---|
| 電商客服 | 這件衣服的標籤建議怎麼洗? | 搜尋洗滌標誌細節圖並解釋符號含義 |
| 技術支援 | 路由器後面的線怎麼插? | 檢索後面板介面圖並標註接口位置 |
| 醫療諮詢 | 我手上的紅疹是什麼? | 檢索醫學影像資料庫進行對比參考 |
這意味著:你網站上的圖片不再只是給人看的裝飾,而是 AI 在回答使用者問題時可能直接引用的「知識來源」。
第二部分:像素即 Token——理解 AI 如何「看」圖片
既然 AI 會搜尋並參考圖片,下一個問題是:它到底是怎麼「看」的?
Visual Tokenization 的機制
多模態 AI 處理圖片的方式,與處理文字有著驚人的相似性。模型會將圖片切割成網格(Grid of Patches),將每個區塊轉化為向量——這就是 Visual Tokenization。
換句話說,在 GPT 或 Gemini 眼中,一張圖片就是一段「尚未被翻譯的語言」。
這帶來一個關鍵洞察:你的工作不再只是讓人類看懂圖片,而是要確保這些 Visual Tokens 能被 AI 正確解碼成你期望的語意。
視覺幻覺的風險
如果圖片壓縮過度產生噪點,或解析度不足導致細節模糊,AI 產生的 Token 就會「變形」。這可能導致所謂的「視覺幻覺」(Visual Hallucinations)——AI 可能把模糊的產品包裝誤認為其他東西,導致你的產品直接從 AI 的回答中消失。
第三部分:情感共鳴的量化
這是一個經常被忽略但極為重要的面向:AI 不只看圖片「是什麼」,還會判斷圖片「傳達什麼情緒」。
情感評分機制
以 Google Vision API 為例,它會為圖片中的人臉打分數,評估 Joy、Sorrow、Surprise 等情感的可能性。
想像你銷售的是「溫馨家庭聚餐」相關產品,但照片中人物因為光線陰暗或表情僵硬,被系統判定為 Joy: UNLIKELY。AI 就會認為這張圖與使用者的搜尋意圖不符,進而降低它在回答中被引用的機會。
實作建議
作為開發者,你可以建立自動化的審計流程:用腳本串接 Google Cloud Vision API 或 OpenAI Vision API,批次檢查網站上的主要圖片。當 JSON 回傳的 joyLikelihood 只有 POSSIBLE 而非 VERY_LIKELY 時,這張圖在 Perplexity 或 SearchGPT 等 AI 搜尋引擎的排名權重就可能下降。
這種圖片傳達的情感與實際語意之間的落差,就是所謂的 Semantic Gap(語意落差)。
第四部分:OCR 審計——包裝上的文字也是 SEO
對電商或 SaaS 產品圖來說,這點特別關鍵:圖片中的文字,是 AI 用來驗證資訊的重要依據。
常見盲點
許多設計師喜歡使用有質感的細體字、反光材質或藝術字體。這些設計對人類來說可能很美觀,但對 AI 的 OCR 來說可能是災難。
如果 AI 讀不出圖片中的文字,或者把 l 讀成 1,它就不會把圖片裡的資訊當作「事實」來引用。更糟的是,錯誤的 OCR 結果可能導致 AI 產生錯誤的聯想。
實戰測試方法
在上傳產品圖之前,把它丟進 ChatGPT Vision 或 Google Lens,直接問:「請讀出這張圖片上的所有文字。」
如果 AI 讀錯了,不要猶豫——立刻修圖或重拍。
這個過程叫做 Grounding(錨定):用圖片上清晰可辨識的文字來強化你網頁文字內容的可信度。當圖片文字與網頁文字一致且都能被正確辨識時,AI 對你內容的信任度會大幅提升。
第五部分:視覺鄰接性——圖片中的 AI 聯想
這可能是整個 GEO 視覺策略中最精彩的概念:AI 會識別圖片中的所有物件,並根據這些物件的「同現關係」來判斷你的品牌定位。
Co-occurrence 的威力
想像兩張手錶的產品照:
- 手錶 + 復古羅盤 + 老橡木桌 → AI 解讀為:奢華、傳承、高價
- 手錶 + 塑膠杯 + 霓虹燈 → AI 解讀為:廉價、快時尚、低價
同一支手錶,因為背景物件不同,AI 產生的語意聯想完全不同。
策略意涵
這意味著:不要隨便使用圖庫的圖片。 圖庫背景裡的雜物可能會「稀釋」你的 Entity Authority(實體權重)。
當你在做 AI SEO 時,圖片背景裡的每一個道具都是 Context(脈絡)。確保背景物件與你的目標關鍵字在語意上強相關。如果你想傳達「高端」、「專業」,那麼畫面中的每一個元素都應該支持這個敘事。
第六部分:開發者的行動清單
對於熟悉技術的讀者,以下是可以直接實作的工程解決方案:
1. 建立 Vision Audit Pipeline
// 概念性架構
const auditImage = async (imageUrl) => {
const results = {
ocrAccuracy: await checkOCR(imageUrl), // > 90% 為合格
sentiment: await analyzeSentiment(imageUrl), // 是否符合頁面調性
safeSearch: await checkSafeSearch(imageUrl), // 有無不安全元素
objects: await detectObjects(imageUrl) // 物件同現分析
};
return results;
};
用這樣的腳本串接 OpenAI Vision API 或 Google Cloud Vision API,批次審計網站上的所有重要圖片。
2. 確保視覺原創性
Google 會將「最早出現這組像素排列」的網址視為原始出處。原創圖片是典型的權威信號。
如果使用 AI 生成圖片(如 Midjourney),不要直接使用原始輸出——那些 Visual Tokens 的重複率可能很高。至少要做 Inpainting 或疊加專屬視覺元素(浮水印、獨特排版),創造獨一無二的視覺指紋。
3. Schema 中的語意強化
在 ImageObject Schema 中,善用 caption 和 description 欄位來「提示」AI 應該如何解讀這張圖片。
Alt Text 是語意路標。不要只寫:
"iPhone 17"
而是寫:
「在暖光下拍攝的 iPhone 17,展現出時尚的鈦金屬飾面。」
幫助模型將視覺特徵與文字精確對齊。
目前的挑戰與限制
雖然技術上這些都是可行的,但實際應用仍有門檻需要考量:
儲存成本:圖片的向量化與儲存比純文字昂貴得多,這影響了企業建立大規模圖片知識庫的意願。
精準度:AI 有時會誤讀複雜的圖表,例如流程圖中的箭頭方向、表格的層級關係等。
版權與隱私:當 AI 搜尋網路圖片時,版權歸屬和使用授權是尚未完全解決的問題。
結語:從程式碼到像素
未來的 SEO——或者更精確地說,GEO(Generative Engine Optimization)——不只是讓搜尋引擎找到你的圖片。
真正的目標是:確保當 LLM「凝視」你的圖片時,能產生你預期的理解、聯想與引用。
這是一場「視覺逆向工程」。我們必須理解 AI 的視覺編碼器看到了什麼,才能有效優化它。
圖片即程式碼。請像優化程式碼一樣,優化你的像素。
本文參考自 Search Engine Land 的 Image SEO 文章分析心得,以及對 Multimodal RAG 技術的研究。