GEO 能見度的單次測量問題: AI 回答隨機帶來的可見度影響性

打開 ChatGPT 問一次、看品牌有沒有被提到，就當作測量完了？Schulte 等人 2026 年的研究用 128 組實驗證明：這樣做不可靠。AI 回答本身就帶隨機性，同一問題連問十次結果可能整組換掉。這篇文章解析論文的實驗設計、核心發現，以及對 GEO 從業者的實務啟示。

Howshin Wang

發布：2026年4月22日

更新：2026年6月3日

13 分鐘閱讀

18 次瀏覽

SEO/GEO/AIO 優化

GEO 生成式引擎優化 AI 搜尋 SEO 論文解析測量方法論 ChatGPT Perplexity

論文資訊

標題:Don't Measure Once: Measuring Visibility in AI Search (GEO)
作者:Julius Schulte、Malte Bleeker、Philipp Kaufmann
發表日期:2026 年 4 月 8 日
arXiv 編號:2604.07585

研究問題

想像你是行銷人員,想知道品牌在 ChatGPT 或 Perplexity 上有沒有被提到。你直覺地打開 AI 問一次,看答案有沒有出現品牌名。有就是有,沒有就是沒有,對吧?

這篇論文用實驗告訴你:這樣做其實很不可靠。因為 AI 的回答本來就是隨機的,你今天問一次、十分鐘後再問一次,答案可能完全不一樣,被引用的品牌也可能整組換掉。

作者提出一個關鍵觀念:品牌在 AI 搜尋裡的「能見度」不是一個固定數字,而是一個分布。必須重複多次測量,才能看清真相。

實驗設計

研究團隊的實驗設計相當嚴謹:

測試對象:四個主流 AI 搜尋引擎 —— ChatGPT、Perplexity、Gemini、Google AI Mode

實驗規模:

4 個引擎 × 8 個 prompt × 4 個行銷活動 = 128 組測試
每組最多重複執行 10 次
時間跨度從 2026 年 1 月 24 日到 3 月 20 日,約 40 到 46 天

兩種測量方式:

同時重複測試:在幾乎相同的時間點,用同樣問題連問十次,看結果差多少
長期觀察:每天問一次,持續好幾週,看同一個品牌是不是每天都會被提到

這個設計的巧妙之處在於,同時重複測試可以排除「時間因素」,證明答案的不穩定不是因為 AI 後端資料更新,而是 AI 本身的生成機制就帶有隨機性。

主要發現

發現一:同一問題重複十次,結果差異顯著

研究用 Jaccard 分數(衡量兩組答案重疊程度的指標)去比較重複十次的結果,發現很多組測試的 Jaccard 中位數都偏低,意思是兩次回答提到的品牌名單重疊度不高。

更關鍵的是,就算是幾乎同時發出的兩個一模一樣的問題,答案也可能差很多,這證明問題出在 AI 模型本身的隨機性。

發現二:不同 prompt 之間差異巨大

同一個活動底下的不同 prompt,表現差很多(標準差約 0.30)。有些 prompt 每次跑出來結果幾乎一樣、品牌名單很穩定;有些 prompt 每次跑結果幾乎整組換掉。意思是:你不能用一個 prompt 的結果去推論整個品牌的 AI 能見度。

發現三:對既有測量工具的衝擊

論文寫了一段直白的結論:如果一位行銷人員某一天只查一次 AI 搜尋,得到的品牌能見度快照,可能跟幾分鐘後在同樣條件下重查的結果差很多。這句話等於直接打臉目前市面上所有靠「跑一次查詢、看結果」的 AI 可見度工具。

方法學建議

論文不只批評現狀,還給了具體可執行的數字。團隊用統計技術(bootstrap 重抽樣,每組做 2000 次)去算,跑 1 次、2 次、一直到 9 次各需要多少誤差容忍,歸納出一個最低建議重複次數。

此外,他們分析了 1,726 個「品牌—每日偵測」時間序列,算出一個滾動視窗要多少天數,才能準確估計品牌在 AI 上的真實能見度。

研究意義

整個 GEO 產業現在有一個共同問題:測量方法論很薄弱。市面上一堆 AI 可見度監測工具,絕大多數只是跑一次查詢、看有沒有被提到,然後做成漂亮的儀表板。

這篇論文等於正式在學術層面宣告:這種做法在統計上站不住腳。如果 AI 的回答本來就有 30% 的標準差在跳動,那你今天看到「能見度 40%」和下週看到「能見度 35%」根本不能證明你的優化有用,很可能只是隨機雜訊。

對從業者的啟示

如果你在做 SEO 或 GEO,或公司有在追蹤 AI 搜尋表現:

不要只查一次就下結論:看到沒出現別慌,出現了也別得意,要多跑幾次看分布
看趨勢,不要看單點:一次的數字沒意義,連續幾週的變化才有
評估工具時,問對方的方法論:只給你單次查詢快照的工具,價值有限
多換幾種問法:不同 prompt 差異很大,不能只靠一種問法就判斷整體表現

這篇論文不算艱深,結論很清楚。最大的貢獻不是提出什麼新的優化技術,而是提醒大家要用正確的方法去測量。方法錯了,後面所有優化努力都可能白費。

常見問題 FAQ

為什麼 AI 搜尋的能見度測量不能只做一次？

因為 AI 模型的回答本身就帶有隨機性。Schulte 等人的研究發現，即使在幾乎相同的時間點，用完全一樣的問題連問兩次，AI 給出的品牌名單重疊度也可能偏低。這代表單次查詢得到的結果，很可能只是隨機雜訊中的一個點，無法代表品牌的真實能見度。

這份研究測試了哪些 AI 搜尋引擎？

研究測試了四個主流 AI 搜尋引擎：ChatGPT、Perplexity、Gemini，以及 Google AI Mode。每個引擎搭配 8 個 prompt 和 4 個行銷活動，總共進行 128 組測試，每組最多重複執行 10 次。

Jaccard 分數是什麼？為什麼用這個指標？

Jaccard 分數是衡量兩組結果重疊程度的統計指標，分數越高代表兩組答案提到的品牌越接近。研究用它來量化「同一問題重複問多次，每次得到的品牌名單有多相似」。結果顯示多數測試的 Jaccard 中位數偏低，代表每次回答都差很多。

不同 prompt 之間的差異有多大？

研究發現同一個行銷活動底下的不同 prompt，表現差異的標準差約為 0.30。有些 prompt 每次跑出來結果幾乎一樣、品牌名單很穩定；有些 prompt 每次跑結果幾乎整組換掉。這代表無法用單一 prompt 的結果去推論整個品牌的 AI 能見度。

這份研究對市面上的 AI 可見度監測工具有什麼影響？

衝擊不小。目前市面上大多數 AI 可見度監測工具都是「跑一次查詢、看有沒有被提到」，然後做成儀表板。論文直接指出這種做法在統計上站不住腳——如果 AI 回答本身就有約 30% 的標準差，你這週看到能見度 40%、下週看到 35%，很可能只是隨機雜訊，根本無法證明優化有效。

如果我在做 GEO 或 SEO，應該怎麼正確測量？

有四個實務建議：第一，不要只查一次就下結論，要多跑幾次看結果分布；第二，看連續幾週的趨勢變化，不要看單一時間點的數字；第三，評估監測工具時主動詢問對方的方法論，避免只給單次快照的工具；第四，同一個問題嘗試不同問法，因為不同 prompt 差異很大。

論文有沒有給出具體的重複次數建議？

有。研究團隊用 bootstrap 重抽樣技術（每組做 2000 次模擬），推算出在不同誤差容忍下的最低建議重複次數。他們也分析了 1,726 個「品牌—每日偵測」時間序列，算出滾動視窗需要的天數。具體數字可以在原論文（arXiv:2604.07585）中查到。

同時重複測試和長期觀察有什麼差別？

同時重複測試是在幾乎相同的時間點連問十次，目的是排除「時間因素」，證明答案的不穩定不是因為 AI 後端資料更新，而是 AI 生成機制本身的隨機性。長期觀察則是每天問一次、持續數週，觀察品牌是不是每天都會被穩定提到。兩種方式結合，才能看清能見度的完整樣貌。

分享這篇文章：

← 返回文章列表

最後更新：2026年6月3日