GEO 能見度的單次測量問題: AI 回答隨機帶來的可見度影響性
打開 ChatGPT 問一次、看品牌有沒有被提到,就當作測量完了?Schulte 等人 2026 年的研究用 128 組實驗證明:這樣做不可靠。AI 回答本身就帶隨機性,同一問題連問十次結果可能整組換掉。這篇文章解析論文的實驗設計、核心發現,以及對 GEO 從業者的實務啟示。

打開 ChatGPT 問一次、看品牌有沒有被提到,就當作測量完了?Schulte 等人 2026 年的研究用 128 組實驗證明:這樣做不可靠。AI 回答本身就帶隨機性,同一問題連問十次結果可能整組換掉。這篇文章解析論文的實驗設計、核心發現,以及對 GEO 從業者的實務啟示。
論文資訊
- 標題:Don't Measure Once: Measuring Visibility in AI Search (GEO)
- 作者:Julius Schulte、Malte Bleeker、Philipp Kaufmann
- 發表日期:2026 年 4 月 8 日
- arXiv 編號:2604.07585
研究問題
想像你是行銷人員,想知道品牌在 ChatGPT 或 Perplexity 上有沒有被提到。你直覺地打開 AI 問一次,看答案有沒有出現品牌名。有就是有,沒有就是沒有,對吧?
這篇論文用實驗告訴你:這樣做其實很不可靠。因為 AI 的回答本來就是隨機的,你今天問一次、十分鐘後再問一次,答案可能完全不一樣,被引用的品牌也可能整組換掉。
作者提出一個關鍵觀念:品牌在 AI 搜尋裡的「能見度」不是一個固定數字,而是一個分布。必須重複多次測量,才能看清真相。
實驗設計
研究團隊的實驗設計相當嚴謹:
測試對象:四個主流 AI 搜尋引擎 —— ChatGPT、Perplexity、Gemini、Google AI Mode
實驗規模:
- 4 個引擎 × 8 個 prompt × 4 個行銷活動 = 128 組測試
- 每組最多重複執行 10 次
- 時間跨度從 2026 年 1 月 24 日到 3 月 20 日,約 40 到 46 天
兩種測量方式:
- 同時重複測試:在幾乎相同的時間點,用同樣問題連問十次,看結果差多少
- 長期觀察:每天問一次,持續好幾週,看同一個品牌是不是每天都會被提到
這個設計的巧妙之處在於,同時重複測試可以排除「時間因素」,證明答案的不穩定不是因為 AI 後端資料更新,而是 AI 本身的生成機制就帶有隨機性。
主要發現
發現一:同一問題重複十次,結果差異顯著
研究用 Jaccard 分數(衡量兩組答案重疊程度的指標)去比較重複十次的結果,發現很多組測試的 Jaccard 中位數都偏低,意思是兩次回答提到的品牌名單重疊度不高。
更關鍵的是,就算是幾乎同時發出的兩個一模一樣的問題,答案也可能差很多,這證明問題出在 AI 模型本身的隨機性。
發現二:不同 prompt 之間差異巨大
同一個活動底下的不同 prompt,表現差很多(標準差約 0.30)。有些 prompt 每次跑出來結果幾乎一樣、品牌名單很穩定;有些 prompt 每次跑結果幾乎整組換掉。意思是:你不能用一個 prompt 的結果去推論整個品牌的 AI 能見度。
發現三:對既有測量工具的衝擊
論文寫了一段直白的結論:如果一位行銷人員某一天只查一次 AI 搜尋,得到的品牌能見度快照,可能跟幾分鐘後在同樣條件下重查的結果差很多。這句話等於直接打臉目前市面上所有靠「跑一次查詢、看結果」的 AI 可見度工具。
方法學建議
論文不只批評現狀,還給了具體可執行的數字。團隊用統計技術(bootstrap 重抽樣,每組做 2000 次)去算,跑 1 次、2 次、一直到 9 次各需要多少誤差容忍,歸納出一個最低建議重複次數。
此外,他們分析了 1,726 個「品牌—每日偵測」時間序列,算出一個滾動視窗要多少天數,才能準確估計品牌在 AI 上的真實能見度。
研究意義
整個 GEO 產業現在有一個共同問題:測量方法論很薄弱。市面上一堆 AI 可見度監測工具,絕大多數只是跑一次查詢、看有沒有被提到,然後做成漂亮的儀表板。
這篇論文等於正式在學術層面宣告:這種做法在統計上站不住腳。如果 AI 的回答本來就有 30% 的標準差在跳動,那你今天看到「能見度 40%」和下週看到「能見度 35%」根本不能證明你的優化有用,很可能只是隨機雜訊。
對從業者的啟示
如果你在做 SEO 或 GEO,或公司有在追蹤 AI 搜尋表現:
- 不要只查一次就下結論:看到沒出現別慌,出現了也別得意,要多跑幾次看分布
- 看趨勢,不要看單點:一次的數字沒意義,連續幾週的變化才有
- 評估工具時,問對方的方法論:只給你單次查詢快照的工具,價值有限
- 多換幾種問法:不同 prompt 差異很大,不能只靠一種問法就判斷整體表現
這篇論文不算艱深,結論很清楚。最大的貢獻不是提出什麼新的優化技術,而是提醒大家要用正確的方法去測量。方法錯了,後面所有優化努力都可能白費。
常見問題 FAQ
為什麼 AI 搜尋的能見度測量不能只做一次?
因為 AI 模型的回答本身就帶有隨機性。Schulte 等人的研究發現,即使在幾乎相同的時間點,用完全一樣的問題連問兩次,AI 給出的品牌名單重疊度也可能偏低。這代表單次查詢得到的結果,很可能只是隨機雜訊中的一個點,無法代表品牌的真實能見度。
這份研究測試了哪些 AI 搜尋引擎?
研究測試了四個主流 AI 搜尋引擎:ChatGPT、Perplexity、Gemini,以及 Google AI Mode。每個引擎搭配 8 個 prompt 和 4 個行銷活動,總共進行 128 組測試,每組最多重複執行 10 次。
Jaccard 分數是什麼?為什麼用這個指標?
Jaccard 分數是衡量兩組結果重疊程度的統計指標,分數越高代表兩組答案提到的品牌越接近。研究用它來量化「同一問題重複問多次,每次得到的品牌名單有多相似」。結果顯示多數測試的 Jaccard 中位數偏低,代表每次回答都差很多。
不同 prompt 之間的差異有多大?
研究發現同一個行銷活動底下的不同 prompt,表現差異的標準差約為 0.30。有些 prompt 每次跑出來結果幾乎一樣、品牌名單很穩定;有些 prompt 每次跑結果幾乎整組換掉。這代表無法用單一 prompt 的結果去推論整個品牌的 AI 能見度。
這份研究對市面上的 AI 可見度監測工具有什麼影響?
衝擊不小。目前市面上大多數 AI 可見度監測工具都是「跑一次查詢、看有沒有被提到」,然後做成儀表板。論文直接指出這種做法在統計上站不住腳——如果 AI 回答本身就有約 30% 的標準差,你這週看到能見度 40%、下週看到 35%,很可能只是隨機雜訊,根本無法證明優化有效。
如果我在做 GEO 或 SEO,應該怎麼正確測量?
有四個實務建議:第一,不要只查一次就下結論,要多跑幾次看結果分布;第二,看連續幾週的趨勢變化,不要看單一時間點的數字;第三,評估監測工具時主動詢問對方的方法論,避免只給單次快照的工具;第四,同一個問題嘗試不同問法,因為不同 prompt 差異很大。
論文有沒有給出具體的重複次數建議?
有。研究團隊用 bootstrap 重抽樣技術(每組做 2000 次模擬),推算出在不同誤差容忍下的最低建議重複次數。他們也分析了 1,726 個「品牌—每日偵測」時間序列,算出滾動視窗需要的天數。具體數字可以在原論文(arXiv:2604.07585)中查到。
同時重複測試和長期觀察有什麼差別?
同時重複測試是在幾乎相同的時間點連問十次,目的是排除「時間因素」,證明答案的不穩定不是因為 AI 後端資料更新,而是 AI 生成機制本身的隨機性。長期觀察則是每天問一次、持續數週,觀察品牌是不是每天都會被穩定提到。兩種方式結合,才能看清能見度的完整樣貌。


