【新智元導(dǎo)讀】就在剛剛,一份2500頁的內(nèi)部文檔泄露,谷歌搜索算法的內(nèi)幕,讓不少人大跌眼鏡。
日前,谷歌2500頁的內(nèi)部文檔被泄露,揭示了搜索——「互聯(lián)網(wǎng)最強(qiáng)大的仲裁者」的運(yùn)作方式。
爆料人是SparkToro的聯(lián)合創(chuàng)始人兼CEO,他在自家網(wǎng)站上發(fā)表博客文章,宣稱「一位匿名人士與我分享了數(shù)千頁泄露的谷歌搜索API文檔,SEO中的每個人都應(yīng)該看到它們」!
多年來,Rand Fishkin一直是SEO領(lǐng)域(Search Engine Optimization,搜索引擎優(yōu)化)的頂級代言人,「網(wǎng)站權(quán)威性」(Domain Rating)這個概念就是他提出的。
既然在這個領(lǐng)域德高望重,Rand Fishkin爆料之前自然要對這位不明身份的匿名人士小心查驗。
上周五,在發(fā)送了幾封電子郵件之后,Rand Fishkin與這位神秘人進(jìn)行了視頻通話,當(dāng)然,對方并沒有露臉。
此次通話讓Rand了解了這份泄密文件的更多信息:這是一份超過2500頁的API文檔,其中包含14014條Attributes,這些屬性似乎來自Google的內(nèi)部「Content API Warehouse」。
根據(jù)文檔的提交歷史記錄,該代碼于2024年3月27日上傳到GitHub,直到2024年5月7日才被刪除。
通話結(jié)束后,Rand確認(rèn)了匿名人的工作經(jīng)歷和他們在營銷界共同認(rèn)識的人,他決定滿足匿名人的期望——發(fā)表一篇文章來分享這次泄露,并駁斥了谷歌員工「多年來一直傳播的一些謊言」。
Matt Cutts、Gary Ilyes和John Mueller否認(rèn)谷歌在多年來將基于點擊的用戶數(shù)據(jù)用于排名
Rand的文章談到了沙箱、點擊率、停留時間等影響SEO的因素,而這正是谷歌之前極力否認(rèn)的。
文章一經(jīng)發(fā)布,果然立刻引發(fā)了輿論嘩然,尤其受到了SEO圈的特別關(guān)注。
另一位SEO專家Mike King也發(fā)表文章,揭示谷歌「算法的秘密」。
Mike King表示,「泄露的文件涉及谷歌收集和使用哪些數(shù)據(jù)、谷歌將哪些網(wǎng)站提升為選舉等敏感話題、谷歌如何處理小型網(wǎng)站等主題?!?/p>
諸多信息表明,谷歌多年來并未完全如實報道,「文件中的一些信息似乎與谷歌代表的公開聲明相沖突?!?/p>
面對大家的質(zhì)疑,谷歌選擇沉默,拒絕對此次爆炸性泄漏事件發(fā)表評論。
正主沒有發(fā)聲,反倒是此前匿名提供消息的神秘人士露面了。5月28日,神秘人終于決定挺身而出,發(fā)布了一段視頻,在視頻中公布了他的身份。
他叫Erfan Azimi,也是一名SEO從業(yè)者,EA Eagle Digital的創(chuàng)始人。
那么,既然Erfan Azimi提供的文檔來自Google的內(nèi)部「Content API Warehouse」,我們有必要了解一下什么是谷歌API Content Warehouse,以及這份文檔究竟泄露了哪些內(nèi)容?
谷歌搜索「黑箱」
這次泄密事件似乎來自GitHub,最可信的解釋與Erfan Azimi在通話中告訴Rand的一致:
這些文檔可能是無意中被短暫公開了,因為文檔中的許多鏈接指向私人GitHub倉庫,以及谷歌公司網(wǎng)站上需要特定認(rèn)證登錄的內(nèi)部頁面。
在2024年3月至5月這段可能是偶然的公開時間里,API文檔被傳播到Hexdocs(索引公開的GitHub倉庫),并被其他人發(fā)現(xiàn)并傳播。
讓Rand疑惑的是,他確信其他人也有一份副本,但直到此次爆料發(fā)生以前,這份文件并沒有被公開討論。
據(jù)前谷歌開發(fā)人員透露,幾乎每個谷歌團(tuán)隊都有這樣的文檔,用于解釋各種API屬性和模塊,幫助項目人員熟悉可用的數(shù)據(jù)元素。
該泄漏信息與GitHub公共倉庫和谷歌云API文檔中的其他信息相吻合,使用了相同的符號風(fēng)格、格式,甚至流程/模塊/功能名稱和引用。
「API Content Warehouse」聽起來像個技術(shù)術(shù)語,但我們可以把它看作是給谷歌搜索引擎團(tuán)隊成員的一份指南。
它就像圖書館里的圖書目錄,谷歌用它來告訴員工有哪些書以及如何獲取。
但不同的是,圖書館是公開的,而谷歌搜索卻是世界上最神秘、防守森嚴(yán)的黑匣子之一。在過去的二十多年中,谷歌搜索部門從未發(fā)生過如此大規(guī)模或如此詳細(xì)的泄密事件。
「泄露」了什么?
1. 對用戶點擊數(shù)據(jù)的使用
文檔中的一些模塊提到了「goodClicks」、「badClicks」、「lastLongestClicks」、印象、壓扁、未壓扁和獨(dú)角獸點擊等功能。這些都與Navboost和Glue有關(guān),看過谷歌司法部證詞的人可能對這兩個詞并不陌生。
以下是司法部律師Kenneth Dintzer對搜索質(zhì)量團(tuán)隊搜索副總裁Pandu Nayak的交叉詢問的相關(guān)摘錄:
Q. 那么請?zhí)嵝盐乙幌拢琋avboost是否可以追溯到2005年?
A. 在這個范圍內(nèi),甚至可能更早。
Q. 它已經(jīng)更新過了,它已經(jīng)不是當(dāng)年的那個Navboost了?
A. 不是了
Q. 還有一個是glue,對嗎?
A. glue只是Navboost的另一個名稱,包括頁面上的所有其他功能。
Q. 好的。我本來打算稍后再談,但我們現(xiàn)在就可以談。就像我們討論過的那樣,Navboost可以生成網(wǎng)頁結(jié)果,對嗎?
A. 是的。
Q. glue還可以處理頁面上所有不是網(wǎng)頁結(jié)果的內(nèi)容,對嗎?
A. 沒錯。
Q. 它們共同幫助找到最終顯示在我們搜索結(jié)果頁上的內(nèi)容并對其進(jìn)行排名?
A. 沒錯。它們都是這方面的信號,是的。
這份泄露的API文檔支持Nayak先生的證詞,并與Google的網(wǎng)站質(zhì)量專利保持一致。
谷歌似乎有辦法過濾掉他們不想計入排名系統(tǒng)的點擊量,并將他們希望計入排名系統(tǒng)的點擊量納入其中。
他們似乎還能衡量點擊時長(pogo-sticking,指搜索者點擊結(jié)果后,因?qū)φ业降拇鸢覆粷M意而迅速點擊返回按鈕)和印象。
2. 征用Chrome的點擊流
谷歌代表多次表示,它不會使用Chrome數(shù)據(jù)對頁面進(jìn)行排名,但泄密文檔在有關(guān)網(wǎng)站如何在搜索中顯示的部分中,特別提到了Chrome。
泄露文件的匿名消息源稱,早在2005年,谷歌就希望獲得數(shù)十億互聯(lián)網(wǎng)用戶的完整點擊流,而通過Chrome瀏覽器,他們已經(jīng)得償所愿。
API文檔顯示,谷歌可以使用Chrome瀏覽器計算與單個頁面和整個域相關(guān)的幾類指標(biāo)。
這份文檔介紹了谷歌如何創(chuàng)建Sitelinks的相關(guān)功能,特別有趣。
它展示了一個名為topUrl的調(diào)用,即 「A list of top urls with highest two_level_score, i.e., chrome_trans_clicks.」
據(jù)此可以推測出,谷歌很可能使用了 Chrome 瀏覽器中網(wǎng)頁的點擊次數(shù),并以此來確定網(wǎng)站上最受歡迎或是最重要的 URL,進(jìn)而計算出哪些URL應(yīng)包含在Sitelinks功能中。
在谷歌搜索結(jié)果中,它總能顯示用戶訪問量最大的頁面,這是它通過跟蹤數(shù)十億Chrome用戶的點擊流得來的。
對于谷歌的這一行為,網(wǎng)友當(dāng)然表示不滿。
3. 為嚴(yán)肅話題創(chuàng)建白名單
我們不難通過「優(yōu)質(zhì)旅游網(wǎng)站」 模塊得出這樣一個推論——谷歌在旅游領(lǐng)域存在一個白名單,盡管尚不清楚這是否專門用于谷歌的「旅游」搜索選項,還是更廣泛的網(wǎng)絡(luò)搜索。
此外,文檔中多處提到的 「isCovidLocalAuthority」(新冠本地權(quán)威)和 「isElectionAuthority」(選舉權(quán)威)進(jìn)一步表明,谷歌正在對特定域名進(jìn)行白名單管理,這些域名可能會在用戶搜索極具爭議的問題時被優(yōu)先顯示。
例如,在2020年美國總統(tǒng)大選之后,某位候選人在沒有證據(jù)的情況下聲稱選票被偷,并鼓勵其追隨者沖擊國會山。
谷歌幾乎肯定會成為人們最先搜索這一事件相關(guān)信息的地方之一,如果他們的搜索引擎返回的是不準(zhǔn)確描述選舉證據(jù)的宣傳網(wǎng)站,這可能會直接導(dǎo)致更多的爭論、暴力,甚至是美國民主的終結(jié)。
從這個角度上來說,白名單有其現(xiàn)實意義。Rand Fishkin表示「我們這些希望自由公正的選舉繼續(xù)下去的人應(yīng)該非常感謝谷歌的工程師們在這種情況下使用了白名單?!?/p>
4. 采用人工評估網(wǎng)站質(zhì)量
長期以來,谷歌一直有一個名為EWOK的質(zhì)量評級平臺,我們現(xiàn)在有證據(jù)表明,搜索系統(tǒng)中使用了質(zhì)量評估者中的某些元素。
Rand Fishkin覺得有趣的是,EWOK質(zhì)量評估者生成的分?jǐn)?shù)和數(shù)據(jù)可能會直接參與谷歌的搜索系統(tǒng),而不僅僅是實驗的訓(xùn)練集。
當(dāng)然,這些可能「只是用于測試」,但是當(dāng)瀏覽泄露的文檔時,你就會發(fā)現(xiàn)當(dāng)這是真的,它會在注釋和模塊詳細(xì)信息中明確指出。
其中提到的「每份文檔相關(guān)性評級」即來自 EWOK 的評估,雖然沒有詳細(xì)的說明,但我們不難想象,人類對網(wǎng)站的評估到底有多重要。
文檔還提到了「人工評級」(例如來自 EWOK 的評級),并指出它們「通常只填充在評估管道中」,這表明它們可能主要是該模塊中的訓(xùn)練數(shù)據(jù)。
但Rand Fishkin認(rèn)為這仍然是一個非常重要的角色,營銷人員不應(yīng)忽視質(zhì)量評級者對其網(wǎng)站的良好感知和評級有多么重要。
5. 利用點擊數(shù)據(jù)確定權(quán)重
谷歌將鏈接索引分為三個等級(低、中、高質(zhì)量),點擊數(shù)據(jù)用于確定網(wǎng)站屬于哪個等級。
- 如果網(wǎng)站沒有被點擊,就會進(jìn)入低質(zhì)量索引,鏈接也會被忽略
- 如果網(wǎng)站來自可驗證設(shè)備的點擊量很高,它就會進(jìn)入高質(zhì)量索引,并且鏈接會傳遞排名信號
一旦鏈接因為屬于更高層次的索引而成為 “可信 ”鏈接,它就可以流動PageRank和錨點,或者被垃圾鏈接系統(tǒng)過濾/刪除。
來自低質(zhì)量鏈接索引的鏈接不會損害網(wǎng)站的排名,它們只會被忽略。
谷歌的搜索算法可能是互聯(lián)網(wǎng)上最重要的系統(tǒng),它決定了不同網(wǎng)站的生死存亡以及我們在網(wǎng)上所能看到的內(nèi)容。
可它到底是如何對網(wǎng)站進(jìn)行排名的,長期以來一直是個謎,記者、研究人員和從事SEO工作的人們都在不斷拼湊這個謎題的答案。
在這次泄漏事件中,谷歌依舊保持沉默,似乎會讓這個謎題長久存在下去。
但這次谷歌有史以來最嚴(yán)重的泄密,還是撕開了一個裂縫,讓人們對搜索的工作原理有了前所未有的了解。
參考資料:
https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/