同一個問題問 ChatGPT 一千次,得到八十種答案:GEO 時代的「隨機性難題」與品牌可見度的新解法
同一個問題問 ChatGPT 一千次,竟然得到八十種答案。這不是 AI 出錯,而是大型語言模型的本質。當搜尋從「檢索資料庫」變成「機率性生成」,品牌可見度不再是固定排名,而是一個機率分布。本文拆解隨機性的真正成因,並提供 GEO 時代讓品牌穩定被看見的四個實戰方向。
TL;DR 重點摘要
- 同一個問題問 ChatGPT 一千次,可能得到八十種不同答案——這不是錯誤,而是 AI 系統的本質特性。
- Thinking Machines Lab(2025/9)的研究推翻「浮點數誤差」舊說,指出真正主因是 批次大小變異(batch-size variance):你的請求與多少其他人一起被打包運算,會影響輸出結果。
- 技術解法(批次不變核心)存在,但運算成本約增加兩倍,目前 OpenAI、Anthropic、Google 都未採用,短期內隨機性不會消失。
- arXiv 研究顯示:相鄰兩天的 AI 引用來源重疊率僅 34–42%、品牌提及重疊率僅 45–59%。只跑一次查詢就判斷可見度,近半機率失真。
- 統計建議:每個提示詞每天至少查詢 7 次(追蹤引用來源建議 8 次)。
- 品牌穩定可見的四個方向:來源多樣化、結構化資料、答案膠囊式內容、持續性監測。
- 觀念轉換核心:GEO 時代不追求「永遠排第一」,而是追求「永遠有很高機率被提到」。
目錄
當你今天用 ChatGPT 詢問「台灣中小企業的自助架站平台推薦」,得到了 A 品牌、B 品牌、C 品牌三個答案。三十分鐘後,同事用一模一樣的問題再問一次,出現的卻是 B、D、E。隔天再問,又換成另外一組組合。這不是 ChatGPT 出錯,也不是你或同事問錯——這是大型語言模型在 AI 搜尋時代帶給品牌主與行銷人最棘手的新挑戰:回答的隨機性。
對於正在投入 SEO 與 GEO(Generative Engine Optimization,生成式引擎優化)的企業而言,這個問題的意義遠比想像中嚴重。傳統 SEO 時代,你的網站關鍵字排名是第三名就是第三名,即便有小幅波動,基本上是「穩定在某個位置」。但在 AI 搜尋的世界,你的品牌可能這一次出現在答案裡,下一次就完全消失;再下一次又冒出來,但位置改變、描述也不同。對於想要評估 GEO 投資成效的決策者來說,這幾乎是一道無解的題目。
問題的根源:它不是 Bug,而是 AI 系統的本質
過去十多年,業界普遍把 LLM 的隨機性解釋為「浮點數運算誤差」加上「GPU 並行計算順序」造成的結果,並認為這是硬體層級的物理限制,沒辦法根治。直到 2025 年 9 月,由前 OpenAI 技術長 Mira Murati 創辦的 Thinking Machines Lab 發表一篇名為「Defeating Nondeterminism in LLM Inference」的研究,徹底推翻這個延續多年的共識。
研究團隊在 Qwen3-235B 這款大型語言模型上做了一個簡單的實驗:把溫度參數(temperature)設為 0,理論上模型應該每次都選擇機率最高的下一個字詞,輸出應該完全一致。他們用同一個提示詞跑了一千次,結果竟然出現八十種不同的回答。
真正的元兇是研究團隊提出的「批次大小變異」(batch-size variance)。當使用者向 ChatGPT、Gemini、Perplexity 這類 AI 服務發出查詢時,你的請求不是被單獨處理,而是與其他同時湧入的請求一起打包成一個批次,交給 GPU 一次運算。批次的大小取決於那一瞬間的伺服器負載,而矩陣乘法核心、RMSNorm、Attention 等關鍵運算操作,本身就不具備批次不變性——同樣的輸入,會因為跟多少其他請求一起處理,而產生細微不同的數值輸出。這些細微差異會在多層神經網路中逐步放大,最後造成完全不同的回答。
換句話說,讓你的 AI 回答產生變化的,不是你的問題,而是「剛好有多少其他人正在使用同一個服務」。這是個從個別使用者角度永遠無法控制的變數。
研究團隊也提出了技術上的解法:重新設計批次不變的 GPU 核心,讓相同輸入無論在多大的批次下都產生完全相同的結果。實驗驗證下,一千次相同提示詞確實全部產生完全相同的輸出。但代價是運算成本大約增加兩倍。目前包括 OpenAI、Anthropic、Google 在內,沒有任何商用 AI 服務採用批次不變核心。對品牌主而言,這代表一個冷酷的事實:AI 搜尋的隨機性,短期內不會消失。
從確定性思維轉向機率性思維
既然底層技術短期內無解,品牌主與 SEO/GEO 從業者必須面對的問題就變成:如何在不穩定的系統中,讓自己的品牌穩定被看見?
這個問題的第一個答案,來自一篇近期發表在 arXiv 上的學術論文「Don't Measure Once: Measuring Visibility in AI Search (GEO)」。研究團隊分析了實際的 AI 搜尋資料,發現在嚴格控制的相同條件下,連續兩天之間,被引用的來源網站集合重疊率只有 34% 至 42%,品牌提及的集合重疊率也只有 45% 至 59%。
這個數據意味著:如果你只跑一次 AI 查詢就判斷自己的品牌可見度,那個結果有將近一半的機率與「真實狀況」不符。
論文進一步給出統計上的最低取樣標準。透過 bootstrap 收斂分析,研究團隊建議:每個提示詞、每天至少需要執行 7 次查詢,才能讓品牌可見度的估計誤差降至可接受範圍;若要追蹤引用來源的覆蓋率,建議拉到 8 次。這個結論直接顛覆了過去多數 GEO 監測工具「跑一次就出報告」的做法。
對行銷人來說,觀念需要徹底轉換。傳統 SEO 的描述方式是:「我這篇文章排名第 3」。但在 GEO 時代,正確的描述應該是:「我這個品牌在『台灣自助架站平台推薦』這個查詢主題下,在 AI 回答中被提及的機率是 65%,平均出現位置在第 2.3 個品牌」。前者是絕對的、後者是機率的——這是兩種完全不同的世界觀。
強化品牌穩定性的四個方向
理解了隨機性的本質之後,品牌該怎麼做?從目前的研究與業界實作來看,有四個方向能實質提升 AI 搜尋中的可見度穩定性。
第一是來源多樣化。AI 模型在生成回答時,會從多個來源中抽樣引用。如果你的品牌資訊只存在於官方網站一個地方,AI 抽到你的機率就只有一條路徑。但如果你的品牌同時出現在 Wikipedia、Reddit、LinkedIn、YouTube、產業媒體報導、Google 商家、評論平台上,AI 抽樣時就有更多「會撞到你」的路徑。對於正在做 GEO 的品牌而言,把資源全押在自己的網站上是不夠的,跨平台的品牌曝光才是穩定性的真正基礎。
第二是提高結構化資料的精確度。當 AI 從網頁上擷取資訊時,有 Schema.org 標記的內容會被優先理解與引用。FAQPage、Article、Product、LocalBusiness 等結構化資料類型,等於是在告訴 AI:「這段內容是回答這個問題的標準答案」。研究顯示,使用結構化資料的內容在 ChatGPT、Perplexity、Google AI Overviews 中的被引用率,顯著高於沒有結構化的對應內容。對企業網站來說,這已經不是「進階選項」,而是 GEO 時代的基本配備。
第三是建立答案膠囊式的內容。AI 引擎在生成回答時,習慣從網頁中擷取可獨立成意的短段落。如果你的網站文章是一大段未分段的長文,AI 很難找到「剛好可以放進回答」的部分;但如果每個段落都是一個 50 到 150 字、能獨立回答某個子問題的完整單元,AI 擷取的機率就會大幅提高。簡單來說,為人類讀者寫文章與為 AI 寫文章,結構不太一樣。
第四是持續性的監測與調整。GEO 不是一次性的優化專案,而是必須像股市一樣持續追蹤的浮動指標。每週至少對你的核心關鍵字做一次多次取樣的監測,記錄品牌出現頻率、引用來源變化、競品提及狀況,才能在隨機性中看出真正的趨勢線。
為什麼大多數企業做不到?
理論上知道該怎麼做是一回事,實務上能不能做到又是另一回事。
對台灣的中小企業主來說,要建立完整的 GEO 基礎建設並不容易。光是「跨平台曝光」就需要持續產出內容、經營社群、累積媒體報導;「結構化資料」需要技術人員為每一個頁面手動寫 JSON-LD;「答案膠囊式內容」需要撰寫者理解 LLM 的擷取邏輯;「持續監測」則需要訂閱昂貴的 GEO 工具,或聘請專門的數位行銷團隊。對年營收幾百萬到幾千萬的中小品牌而言,這套基礎建設的門檻通常太高。
這也是渥合數位推出兩條服務線的原因。對於需要深度客製化、業務複雜的企業,渥合數位網頁設計(ahha.tw) 提供完整的 SEO/GEO/AIO 整合方案,從網站架構規劃、結構化資料部署、AI 應用整合,到後續的 SEO 與 AI 搜尋優化追蹤,以專案方式為品牌建立完整的 AI 搜尋基礎建設。對於希望快速上線、不想處理技術細節的中小商家、餐飲、美容、診所、工作室,則有 AHHA 自助架站平台(ahha.com.tw),把 Schema.org 結構化資料、llms.txt、多語系 hreflang、FAQ 自動標記、AI 爬蟲設定等 GEO 必備項目全部內建,使用者只要專注在內容本身,平台自動把技術層的 GEO 優化處理完。
無論選擇哪一條路徑,核心邏輯是一致的:AI 搜尋的隨機性無法消除,但你可以透過增加自己「被抽中」的機率密度,讓品牌在不穩定的系統中穩定地被看見。
結語:接受不確定,才是真正的確定性
從 Google 主導的 SEO 時代轉向 AI 主導的 GEO 時代,最大的觀念轉變不是「該優化哪些新項目」,而是「該用什麼角度理解搜尋結果」。當搜尋的本質從「檢索資料庫」變成「機率性生成」,品牌的可見度就不再是一個固定的數字,而是一個分布、一個範圍、一個機率。
接受這個本質的不確定性,不是放棄優化,而是用更精確的方式去優化。真正在 AI 搜尋時代勝出的品牌,不會是「永遠排第一」的品牌,而是「永遠有很高機率被提到」的品牌。這個差別看起來很細微,但實際上代表的是兩個完全不同的策略思考框架。
對於正準備在 2026 年強化 AI 搜尋表現的企業而言,現在最該做的,不是繼續用 SEO 時代的標準衡量 GEO 的成果,而是先重新建立對「搜尋結果」這四個字的理解。當你接受了 AI 搜尋本質的隨機性,你才能真正開始為它做正確的優化。
常見問題 FAQ
為什麼同一個問題問 AI,每次答案都不一樣?
主因是「批次大小變異」(batch-size variance)。你的請求會與當下其他湧入的請求一起
打包成一個批次交給 GPU 運算,而批次大小取決於那一瞬間的伺服器負載。矩陣乘法、
RMSNorm、Attention 等運算不具備批次不變性,因此會產生細微數值差異,並在多層神經
網路中逐步放大成不同回答。換句話說,影響答案的不是你的問題,而是「當下有多少人
正在使用同一個服務」。
把 temperature 設為 0,就能讓 AI 每次回答一致嗎?
不行。Thinking Machines Lab 在 Qwen3-235B 上把 temperature 設為 0、用同一提示詞跑
一千次,仍出現八十種不同回答。temperature 只控制取樣的隨機程度,無法消除底層批次
變異造成的數值差異。
這個隨機性問題未來會被解決嗎?
技術上已有解法——重新設計「批次不變」的 GPU 核心,可讓相同輸入產生完全相同的輸出。
但代價是運算成本約增加兩倍。目前 OpenAI、Anthropic、Google 等商用服務都尚未採用,
因此短期內 AI 搜尋的隨機性不會消失。
我只跑一次查詢來檢查品牌有沒有被提到,這樣準嗎?
不夠準。研究顯示相鄰兩天之間,AI 引用來源的重疊率僅 34–42%、品牌提及重疊率僅
45–59%。只跑一次的結果有將近一半機率與真實狀況不符。建議每個提示詞每天至少查詢
7 次(若要追蹤引用來源覆蓋率則建議 8 次),才能得到可信的可見度估計。
面對隨機性,品牌可以做哪些實際動作來提升 AI 搜尋的穩定可見度?
有四個方向:
- 來源多樣化:讓品牌同時出現在官網以外的 Wikipedia、Reddit、LinkedIn、產業媒體、
評論平台等,增加 AI 抽樣時「撞到你」的路徑。 - 結構化資料:部署 FAQPage、Article、Product、LocalBusiness 等 Schema.org 標記,
提高被 AI 優先理解與引用的機率。 - 答案膠囊式內容:把段落寫成 50–150 字、能獨立回答某個子問題的完整單元,方便
AI 直接擷取。 - 持續性監測:把 GEO 當成像股市一樣的浮動指標,每週對核心關鍵字做多次取樣監測。
Q6:GEO 時代該怎麼描述品牌的「排名」?
不再用絕對排名,而要改用機率描述。傳統 SEO 是「這篇文章排名第 3」;GEO 則是「這個
品牌在某查詢主題下,在 AI 回答中被提及的機率是 65%,平均出現位置在第 2.3 個品牌」。
前者是固定數字,後者是一個機率分布。
中小企業資源有限,要怎麼起步做 GEO?
完整 GEO 基礎建設(跨平台曝光、手寫 JSON-LD、答案膠囊內容、付費監測工具)門檻偏高。
中小商家可優先從兩件低成本的事做起:先把核心頁面的結構化資料補齊,以及把既有長文
改寫成可獨立擷取的短段落。若要省去技術細節,也可評估內建 Schema、llms.txt、FAQ
自動標記等 GEO 項目的自助架站平台,把技術層交給平台處理。
GEO 優化是一次做完就好,還是要持續進行?
要持續進行。由於 AI 回答本質上是浮動的,GEO 不是一次性專案,而是需要長期追蹤的指標。
建議每週至少對核心關鍵字做一次多次取樣的監測,記錄品牌出現頻率、引用來源變化與競品
提及狀況,才能在隨機性中辨識出真正的趨勢線。


