AHHA
AI 網站設計專家
AHHA
專業網站設計

我們專注於提供高品質的網站設計、App設計、SEO/GEO/AIO 優化和AI整合服務, 幫助企業建立強大的線上存在感,提升品牌價值和業績表現。

快速連結

  • 服務項目
  • 作品案例
  • 文章分享
  • 常見問題
  • 聯絡我們

聯絡資訊

  • service@ahha.tw
  • 06-214-6868
  • 台南市中西區府前路一段583號8樓之4

© 2026 AHHA 渥合數位服務有限公司. All rights reserved.

隱私政策服務條款
首頁文章分享SEO/GEO/AIO 優化GEO 能見度的單次測量問題: AI 回答隨機帶來的可見度影響性

GEO 能見度的單次測量問題: AI 回答隨機帶來的可見度影響性

打開 ChatGPT 問一次、看品牌有沒有被提到,就當作測量完了?Schulte 等人 2026 年的研究用 128 組實驗證明:這樣做不可靠。AI 回答本身就帶隨機性,同一問題連問十次結果可能整組換掉。這篇文章解析論文的實驗設計、核心發現,以及對 GEO 從業者的實務啟示。

Howshin Wang
發布:2026年4月22日
更新:2026年4月22日
11 分鐘閱讀
5 次瀏覽
SEO/GEO/AIO 優化
GEO生成式引擎優化AI 搜尋SEO論文解析測量方法論ChatGPTPerplexity
GEO 能見度的單次測量問題: AI 回答隨機帶來的可見度影響性

打開 ChatGPT 問一次、看品牌有沒有被提到,就當作測量完了?Schulte 等人 2026 年的研究用 128 組實驗證明:這樣做不可靠。AI 回答本身就帶隨機性,同一問題連問十次結果可能整組換掉。這篇文章解析論文的實驗設計、核心發現,以及對 GEO 從業者的實務啟示。

論文資訊

  • 標題:Don't Measure Once: Measuring Visibility in AI Search (GEO)
  • 作者:Julius Schulte、Malte Bleeker、Philipp Kaufmann
  • 發表日期:2026 年 4 月 8 日
  • arXiv 編號:2604.07585

研究問題

想像你是行銷人員,想知道品牌在 ChatGPT 或 Perplexity 上有沒有被提到。你直覺地打開 AI 問一次,看答案有沒有出現品牌名。有就是有,沒有就是沒有,對吧?

這篇論文用實驗告訴你:這樣做其實很不可靠。因為 AI 的回答本來就是隨機的,你今天問一次、十分鐘後再問一次,答案可能完全不一樣,被引用的品牌也可能整組換掉。

作者提出一個關鍵觀念:品牌在 AI 搜尋裡的「能見度」不是一個固定數字,而是一個分布。必須重複多次測量,才能看清真相。

實驗設計

研究團隊的實驗設計相當嚴謹:

測試對象:四個主流 AI 搜尋引擎 —— ChatGPT、Perplexity、Gemini、Google AI Mode

實驗規模:

  • 4 個引擎 × 8 個 prompt × 4 個行銷活動 = 128 組測試
  • 每組最多重複執行 10 次
  • 時間跨度從 2026 年 1 月 24 日到 3 月 20 日,約 40 到 46 天

兩種測量方式:

  1. 同時重複測試:在幾乎相同的時間點,用同樣問題連問十次,看結果差多少
  2. 長期觀察:每天問一次,持續好幾週,看同一個品牌是不是每天都會被提到

這個設計的巧妙之處在於,同時重複測試可以排除「時間因素」,證明答案的不穩定不是因為 AI 後端資料更新,而是 AI 本身的生成機制就帶有隨機性。

主要發現

發現一:同一問題重複十次,結果差異顯著

研究用 Jaccard 分數(衡量兩組答案重疊程度的指標)去比較重複十次的結果,發現很多組測試的 Jaccard 中位數都偏低,意思是兩次回答提到的品牌名單重疊度不高。

更關鍵的是,就算是幾乎同時發出的兩個一模一樣的問題,答案也可能差很多,這證明問題出在 AI 模型本身的隨機性。

發現二:不同 prompt 之間差異巨大

同一個活動底下的不同 prompt,表現差很多(標準差約 0.30)。有些 prompt 每次跑出來結果幾乎一樣、品牌名單很穩定;有些 prompt 每次跑結果幾乎整組換掉。意思是:你不能用一個 prompt 的結果去推論整個品牌的 AI 能見度。

發現三:對既有測量工具的衝擊

論文寫了一段直白的結論:如果一位行銷人員某一天只查一次 AI 搜尋,得到的品牌能見度快照,可能跟幾分鐘後在同樣條件下重查的結果差很多。這句話等於直接打臉目前市面上所有靠「跑一次查詢、看結果」的 AI 可見度工具。

方法學建議

論文不只批評現狀,還給了具體可執行的數字。團隊用統計技術(bootstrap 重抽樣,每組做 2000 次)去算,跑 1 次、2 次、一直到 9 次各需要多少誤差容忍,歸納出一個最低建議重複次數。

此外,他們分析了 1,726 個「品牌—每日偵測」時間序列,算出一個滾動視窗要多少天數,才能準確估計品牌在 AI 上的真實能見度。

研究意義

整個 GEO 產業現在有一個共同問題:測量方法論很薄弱。市面上一堆 AI 可見度監測工具,絕大多數只是跑一次查詢、看有沒有被提到,然後做成漂亮的儀表板。

這篇論文等於正式在學術層面宣告:這種做法在統計上站不住腳。如果 AI 的回答本來就有 30% 的標準差在跳動,那你今天看到「能見度 40%」和下週看到「能見度 35%」根本不能證明你的優化有用,很可能只是隨機雜訊。

對從業者的啟示

如果你在做 SEO 或 GEO,或公司有在追蹤 AI 搜尋表現:

  1. 不要只查一次就下結論:看到沒出現別慌,出現了也別得意,要多跑幾次看分布
  2. 看趨勢,不要看單點:一次的數字沒意義,連續幾週的變化才有
  3. 評估工具時,問對方的方法論:只給你單次查詢快照的工具,價值有限
  4. 多換幾種問法:不同 prompt 差異很大,不能只靠一種問法就判斷整體表現

這篇論文不算艱深,結論很清楚。最大的貢獻不是提出什麼新的優化技術,而是提醒大家要用正確的方法去測量。方法錯了,後面所有優化努力都可能白費。

常見問題 FAQ

Q.

為什麼 AI 搜尋的能見度測量不能只做一次?

因為 AI 模型的回答本身就帶有隨機性。Schulte 等人的研究發現,即使在幾乎相同的時間點,用完全一樣的問題連問兩次,AI 給出的品牌名單重疊度也可能偏低。這代表單次查詢得到的結果,很可能只是隨機雜訊中的一個點,無法代表品牌的真實能見度。

Q.

這份研究測試了哪些 AI 搜尋引擎?

研究測試了四個主流 AI 搜尋引擎:ChatGPT、Perplexity、Gemini,以及 Google AI Mode。每個引擎搭配 8 個 prompt 和 4 個行銷活動,總共進行 128 組測試,每組最多重複執行 10 次。

Q.

Jaccard 分數是什麼?為什麼用這個指標?

Jaccard 分數是衡量兩組結果重疊程度的統計指標,分數越高代表兩組答案提到的品牌越接近。研究用它來量化「同一問題重複問多次,每次得到的品牌名單有多相似」。結果顯示多數測試的 Jaccard 中位數偏低,代表每次回答都差很多。

Q.

不同 prompt 之間的差異有多大?

研究發現同一個行銷活動底下的不同 prompt,表現差異的標準差約為 0.30。有些 prompt 每次跑出來結果幾乎一樣、品牌名單很穩定;有些 prompt 每次跑結果幾乎整組換掉。這代表無法用單一 prompt 的結果去推論整個品牌的 AI 能見度。

Q.

這份研究對市面上的 AI 可見度監測工具有什麼影響?

衝擊不小。目前市面上大多數 AI 可見度監測工具都是「跑一次查詢、看有沒有被提到」,然後做成儀表板。論文直接指出這種做法在統計上站不住腳——如果 AI 回答本身就有約 30% 的標準差,你這週看到能見度 40%、下週看到 35%,很可能只是隨機雜訊,根本無法證明優化有效。

Q.

如果我在做 GEO 或 SEO,應該怎麼正確測量?

有四個實務建議:第一,不要只查一次就下結論,要多跑幾次看結果分布;第二,看連續幾週的趨勢變化,不要看單一時間點的數字;第三,評估監測工具時主動詢問對方的方法論,避免只給單次快照的工具;第四,同一個問題嘗試不同問法,因為不同 prompt 差異很大。

Q.

論文有沒有給出具體的重複次數建議?

有。研究團隊用 bootstrap 重抽樣技術(每組做 2000 次模擬),推算出在不同誤差容忍下的最低建議重複次數。他們也分析了 1,726 個「品牌—每日偵測」時間序列,算出滾動視窗需要的天數。具體數字可以在原論文(arXiv:2604.07585)中查到。

Q.

同時重複測試和長期觀察有什麼差別?

同時重複測試是在幾乎相同的時間點連問十次,目的是排除「時間因素」,證明答案的不穩定不是因為 AI 後端資料更新,而是 AI 生成機制本身的隨機性。長期觀察則是每天問一次、持續數週,觀察品牌是不是每天都會被穩定提到。兩種方式結合,才能看清能見度的完整樣貌。

分享這篇文章:
← 返回文章列表
最後更新:2026年4月22日

相關文章推薦

網站設計 UX 優化實戰:5 個讓訪客留下來、讓 AI 更願意引用你的頁面設計原則

網站設計 UX 優化實戰:5 個讓訪客留下來、讓 AI 更願意引用你的頁面設計原則

網站設計不只是視覺美感,更是影響訪客留存與轉換率的關鍵。本文整理 5 大 UX 設計原則,涵蓋清晰導覽、響應式設計、載入速度、視覺一致性與內容可信度,幫助台灣企業主打造讓訪客願意停留、也讓 AI 搜尋引擎更願意引用的高品質頁面,同步提升 SEO 排名與商業轉換成效。

2026年4月18日7 次瀏覽
ChatGPT 找到你的頁面,但為什麼沒有引用你?談扇出查詢(Fan-out queries) 的核心邏輯

ChatGPT 找到你的頁面,但為什麼沒有引用你?談扇出查詢(Fan-out queries) 的核心邏輯

ChatGPT 檢索了超過 50 萬個頁面,但最終只引用其中 15%。 你的頁面可能已經被它「看過」,卻從未出現在任何回答裡。 這背後的關鍵機制,叫做 fan-out 查詢——一個傳統 SEO 工具幾乎看不見的搜尋行為。

2026年3月27日36 次瀏覽
從 SEO 到 GEO:為什麼 Google 排名第一,ChatGPT 卻不引用你?

從 SEO 到 GEO:為什麼 Google 排名第一,ChatGPT 卻不引用你?

你的文章排在 Google 第一,但 ChatGPT 引用的不是你那篇——這不是個案。Ahrefs 研究顯示,ChatGPT 有 90% 的引用 URL 不在 Google 前十名。SEO 與 GEO 是兩套不同的遊戲規則,你需要同時理解兩者。

2026年3月13日69 次瀏覽