jiZZ亚洲中国日本jiZZ,亚洲国产一区二区三区精品,强奸乱伦一区二区

談到計算廣告，或者個性化推薦，甚至是一般的互聯(lián)網(wǎng)產(chǎn)品，無論是運營、產(chǎn)品還是技術(shù)，最受關(guān)注的指標就是點擊率。還有業(yè)內(nèi)經(jīng)常流傳的故事，某位科學家通過建立更好的點擊率預測模型，為公司帶來了數(shù)億的增量收入。為什么要用復雜的數(shù)學模型來描述點擊率這樣簡單直接的統(tǒng)計數(shù)據(jù)呢？這樣的模型是如何建立和評價的？北京網(wǎng)站設計公司推來客將在本期談到這個問題。那么什么是點擊率模型呢？

在計算機科學中，點擊模型（Click Model）是對用戶點擊行為的建模。基于用戶的歷史點擊信息，對用戶的興趣和行為進行建模，預測用戶未來的點擊行為，提高相關(guān)性。

在搜索引擎中，點擊模型是指對用戶的歷史點擊文檔進行建模，以預測文檔的相關(guān)性。

網(wǎng)頁SEO搜索排名傳統(tǒng)上是基于人為設計的排名函數(shù)，如BM25等。近年來，排序?qū)W習的引入大大降低了融合大量特征的復雜性。但是由于排序?qū)W習是有監(jiān)督學習，需要大量的人工標注者對文檔進行標注，需要大量的人工成本。建站網(wǎng)頁的相關(guān)性會隨著網(wǎng)頁內(nèi)容的更新而變化，尤其是時效性強的新聞網(wǎng)頁。使所有手動標記保持最新是不可行的。

用戶點擊日志記錄了用戶對搜索結(jié)果滿意度的重要信息，可以提供具有很高相關(guān)預測價值的信息。與人工標注相比，獲取點擊的成本更低，而且點擊始終反映最新的相關(guān)性。一、為什么要建立一個點擊率模型？

無論是人工操作還是機器決策，我們都希望對一個廣告或內(nèi)容可能的點擊率有一個預測，從而判斷哪些項目應該放在更重要的位置。這件事看起來并不難。比如我有十篇內(nèi)容，歷史顯示的點擊率都不一樣。那么我只需要根據(jù)歷史點擊率的統(tǒng)計數(shù)據(jù)來做決定就可以了。好像沒什么難度。

不過，雞蛋。直接統(tǒng)計歷史點擊率的方法雖然簡單易操作，但是會遇到一個非常棘手的問題。首先大家要樹立一個觀念：拋開地點、時間等一系列環(huán)境因素，點擊率的絕對高低意義不大。比如下面這個廣告，放在圖片的兩個位置，統(tǒng)計前者的點擊率為2%，后者的點擊率為1%。哪個廣告更好？其實我們無法得出任何結(jié)論。

為什么要建立一個點擊率模型

于是，聰明運營想了個辦法，我干脆統(tǒng)計了不同位置的點擊率，然后分別排序。這個思路在原理上是無懈可擊的，相當于直接求解聯(lián)合分布；但其實用價值不高：大部分廣告或內(nèi)容項的數(shù)據(jù)太小，例如100次展示。產(chǎn)生了一次點擊，難道這就是1%點擊率的結(jié)論嗎？

那能不能換個思路，找出一些影響點擊率的關(guān)鍵因素，分別統(tǒng)計這些因素呢？這其實已經(jīng)產(chǎn)生了“特征”的建模思路。比如廣告位是一個因素，廣告本身是一個因素，用戶的性別是一個因素。從數(shù)據(jù)充分性的角度，對每個因素分別計算點擊率是可行的。但是這又產(chǎn)生了一個新的問題：我知道男性用戶的平均點擊率，廣告位S的平均點擊率，廣告A的平均點擊率，那么如何評價廣告A男性用戶在廣告位S 上看到的點擊率呢？直觀的方法是求上述三個點擊率的幾何平均數(shù)。但這里有一個隱含的假設：這三個因素是相互獨立的。但是，當有很多特征時，這種獨立性假設很難保證。

特征之間的獨立性往往對我們的結(jié)論有很大的影響。比如中國癌癥發(fā)病率上升是“中國”因素造成的？還是因為“平均壽命”的因素？顯然，這兩個因素有些相關(guān)，因此簡單的單獨統(tǒng)計往往是行不通的。

那么該怎么辦？這就需要統(tǒng)計學家和計算機科學家建立一個綜合考慮各種特征并根據(jù)歷史數(shù)據(jù)進行調(diào)整的點擊率模型。問題，它必須能夠在大量數(shù)據(jù)上自動訓練和優(yōu)化。這就是點擊率模型的意義所在，它是互聯(lián)網(wǎng)+和大數(shù)據(jù)時代偉大、光榮、正確、重要的工作，具有重大的實用價值和戰(zhàn)略意義。那人說，有必要抬那么高嗎？當然有必要！因為我對這門手藝也是粗略的了解，所以不知如何是好。二、怎樣建立一個點擊率模型？

這個問題比較簡單，就不展開討論了。（想罵人的讀者請保持冷靜，繼續(xù)往下看。）三、如何評估一個點擊率模型？

評估點擊率模型的好壞，有各種定性的或定量的、線上的或線下的方法。但是不論什么樣的評測方法，其本質(zhì)都是一樣，就是要看這個模型區(qū)別被點擊的展示與沒被點擊的展示之間的區(qū)別。當然，如果能找到一個離線可以計算的量化指標，是再好不過了。

這樣的指標是有一個，就是如下圖所示的ROC曲線下的面積，術(shù)語上稱為AUC。（關(guān)于ROC和AUC的詳細介紹，請大家參考《計算廣告》第*章。）AUC這個數(shù)值越大，對應的模型區(qū)別能力就越強。
如何評估一個點擊率模型

好了，為了讓大家深入理解點擊率模型評測的關(guān)鍵，我們要談到一個常見的口水仗：有一天，有兩位工程師在閑談，一位叫小優(yōu)，一位叫小度。他們分別負責某視頻網(wǎng)站和某網(wǎng)盟廣告的點擊率建模。小優(yōu)說：最近可把我忙壞了，上線了個全新的點擊率模型，把AUC從0.62提高到0.67，效果真不錯！哪知道小度聽了哈哈大笑：這數(shù)據(jù)你也好意思拿出來說，我們的AUC早就到0.9以上了！

那么，是不是小度的模型比小優(yōu)真的好那么多呢？當然不是，我們看看該視頻網(wǎng)站和網(wǎng)盟的廣告位分布，就一目了然了。

什么？你還沒有明白，那么我建議你自己好好把這個問題想清楚。不論你是運營還是產(chǎn)品，經(jīng)過了這樣的思考，你的數(shù)據(jù)解讀能力會上一個臺階。

好了，三個關(guān)鍵點說完了，我知道有的讀者還會對第二點表示沒看懂，那干脆我們就再多說一點兒，將2015年11月15日王超在計算廣告讀者微信群里所做的題為“點擊率預估趨勢淺析”的分享內(nèi)容整理發(fā)布在下面。沒有堅持到這里就把文章關(guān)掉的碼農(nóng)們，讓他們后悔一輩子去吧！

今天分享一下點擊率預估近年來的一些趨勢。主要結(jié)合劉鵬老師的一些指導，以及自身工作的一些經(jīng)驗，有偏頗的地方請大家多多指正。

在計算廣告第一版的書里，主要講到了經(jīng)典的點擊率預估模型邏輯回歸，特征工程，模型的評估等，相信對大多數(shù)場景來說這一步是必做的基線版本。后續(xù)可以在此基礎上做一些更細致的特征工程和模型工作。考慮到群里的朋友都已經(jīng)拿到了這本書，今天先跳過書里覆蓋的內(nèi)容，講一些目前書里沒有提及的部分。如果對書里內(nèi)容還不夠了解的朋友，建議第一步還是把書中基礎性的內(nèi)容仔細掌握。

我們專注高端建站，小程序開發(fā)、軟件系統(tǒng)定制開發(fā)、BUG修復、物聯(lián)網(wǎng)開發(fā)、各類API接口對接開發(fā)等。十余年開發(fā)經(jīng)驗，每一個項目承諾做到滿意為止，多一次對比，一定讓您多一份收獲！