极品 在线 视频 大陆 国产,亚洲国产夜色在线观看,国产原创精品视频,国产精品亚洲一区二区杨幂,亚洲深夜福利,日韩丝袜亚洲国产欧美一区,国产美女在线精品亚洲二区,丝袜欧美视频首页在线,a观看v视频网站入口免费,a级福利毛片

          大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型
          技術(shù)論壇
          發(fā)表于 主頁 > 技術(shù)論壇

            大數(shù)據(jù)挖掘技術(shù)之DM經(jīng)典模型下面我們將探討如何用模型來表示簡(jiǎn)單的、描述性的統(tǒng)計(jì)數(shù)據(jù)。如果我們可以描述所要找的事物,那么想要找到它就會(huì)變得很容易。這就是相似度模型的來歷——某事物與所要尋找的事物越相似,其得分就越高下面就是查詢模型,該模型正在直銷行業(yè)很受歡迎,并廣泛用于其它領(lǐng)域。樸素貝葉斯模型是表查找模型中一種非常有用的泛化模型,通常表查詢模型適用于 較低的維度,而樸素貝葉斯模型準(zhǔn)許更多的維度加入。還有線性回歸和邏輯回歸模型,都是最常見的預(yù)測(cè)建模技術(shù)?;貧w模型,用于表示散點(diǎn)圖中兩個(gè)變量之間的關(guān) 系。多元回歸模型,這個(gè)準(zhǔn)許多個(gè)單值輸入。隨后介紹邏輯回歸分析,該技術(shù)擴(kuò)展了多元回歸以限制其目標(biāo)范圍,例如:限定概率估計(jì)。還有固定效應(yīng)和分層回歸模 型,該模型可將回歸應(yīng)用于個(gè)人客戶,在許多以客戶為中心的數(shù)據(jù)挖掘技術(shù)之間搭建了一座橋梁相似度模型中需要將觀察值和原型進(jìn)行比較,以得到相應(yīng)的相似度得分。觀察值與原型相似度越高,其得分也就越高。一種度量相似度的方法是測(cè)量距離。觀 察值與原型值之間的距離越近,觀察值的得分就越高。轉(zhuǎn)摘 如何控制鏡頭的成像質(zhì)量!當(dāng)每個(gè)客戶細(xì)分都有一個(gè)原型時(shí),該模型可以根據(jù)得分把客戶分配到與其最相似的原型所在的客戶細(xì)分中相似度模型有原型和一個(gè)相似度函數(shù)構(gòu)成。新數(shù)據(jù)通過計(jì)算其相似度函數(shù),就可以計(jì)算出相似度得分通過出版社的讀者比一般大眾要富有,而且接受教育的程度要高為例。通常前者要比后者在富有程度、教育程度的比例大三倍。這樣我們就可以給讀者一個(gè)訊息——“工資很高,并且受過良好的教育”如果要把對(duì)讀者的描述表示成一個(gè)可以識(shí)別該雜志潛在的讀者的模型,就需要對(duì)理想的讀者做出精確的定義,并以此來量化潛在讀者與理想讀者之間的相似程度相似度和距離是同一概念的兩種不同描述方式,但是它們度量的方向不同。使用距離作為度量指標(biāo)時(shí),如果兩個(gè)事物彼此非常靠近,那么兩者就很相似。所以當(dāng)兩者距離很小時(shí),相似度就會(huì)很高例如:出版社的理想讀者的受教育程度是16年,美國(guó)攝影師拍攝自己母親的性行為照片并公開發(fā),年收入100000美元。那么受教育14年,年收入75000美元的潛在客戶與理想客戶之間的相似度 是多少呢?另外它們與受教育12年,并且年收入為150000美元的潛在客戶又有多少相似呢?這時(shí)候,我們要選擇一個(gè)度量的標(biāo)準(zhǔn),歐式距離。當(dāng)我們計(jì)算一 潛在客戶與理想客戶(x=16,y=100000)之間的距離時(shí),就會(huì)發(fā)現(xiàn)收入在計(jì)算中占了主導(dǎo)地位,因?yàn)樗娜≈当冉逃晗薮蟮亩嗟枚?。這就引入另一個(gè) 問題:度量尺度。解決方法:將兩值分別減去相應(yīng)的平均值然后除以相應(yīng)的標(biāo)準(zhǔn)差。這樣就把兩者轉(zhuǎn)化成分?jǐn)?shù),然后用分?jǐn)?shù)代替原來的值來計(jì)算歐式距離歐式距離僅計(jì)算距離方法之一。這里才采用歐式距離只是為了將原型目標(biāo)的一種統(tǒng)計(jì)描述與某種距離函數(shù)結(jié)合起來,搭建一種相似度模型。有了潛在用戶與理想客戶之間的距離,企業(yè)宣傳片制作就可以對(duì)潛在客戶排序,或者將距離作為另一種計(jì)算的輸入,得到預(yù)期收入或相應(yīng)概率構(gòu)建相似度模型,首先是要對(duì)原型進(jìn)行描述,或得到一個(gè)用于與其他對(duì)象進(jìn)行比較的理想對(duì)象。這些描述必須表示為度量,對(duì)于那些與理想值較近或較遠(yuǎn)的對(duì)象,這些變量的取值要明顯不同實(shí)現(xiàn)數(shù)據(jù)挖掘模型的一個(gè)簡(jiǎn)單方法就是查詢表。表查詢模型思想就是:相似的人所作出的反應(yīng)也相似。對(duì)一個(gè)新觀測(cè)值的評(píng)分涉及兩個(gè)步驟。一、為觀測(cè)值指定一個(gè)特定的標(biāo)簽或主鍵。主鍵對(duì)應(yīng)于查詢表中的一個(gè)單元格。二、被分配到某一個(gè)單元格的所有記錄都會(huì)有一個(gè)得分,該分值在模型訓(xùn)練時(shí)就被賦予該單元格分配主鍵的方式有多種。決策樹模型適用了規(guī)則集將觀測(cè)值分配到特定的葉節(jié)點(diǎn),葉節(jié)點(diǎn)的ID就可以作為一個(gè)可用于查詢得分的主鍵。聚類技術(shù)為記錄指定標(biāo)簽,這里的聚類標(biāo)簽就可以作為查詢主鍵構(gòu)建查詢表,一、為查詢表選擇輸入變量。將訓(xùn)練集中的每條記錄精確地分配到該表中的一個(gè)單元格中。使用訓(xùn)練集中的統(tǒng)計(jì)數(shù)據(jù)來刻畫單元格的特征,這些 統(tǒng)計(jì)數(shù)據(jù)包括平均值、標(biāo)準(zhǔn)差以及落入該單元格的訓(xùn)練實(shí)例個(gè)數(shù)。在為模型評(píng)分的時(shí)候會(huì)用到這些統(tǒng)計(jì)數(shù)據(jù)。分?jǐn)?shù)可以是數(shù)值型目標(biāo)的平均值,也可以是屬于某一特 定類別的比例,或者是單元格中占主導(dǎo)地位的類別每個(gè)維度都應(yīng)該是一個(gè)對(duì)目標(biāo)有影響的變量。理想情況,輸入變量不應(yīng)該彼此相關(guān),實(shí)際上,很難避免之間不相關(guān)。相關(guān)變量的實(shí)際影響是,訓(xùn)練完成后有些單元格僅含有幾個(gè)訓(xùn)練實(shí)例,這會(huì)使得估計(jì)值的置信度偏低。實(shí)際情況可能好點(diǎn),因?yàn)橐u(píng)分的新數(shù)據(jù)在那些單元格中也是稀疏的例如:在RFM模型中,有一個(gè)維度是采購(gòu)總數(shù),還有一個(gè)維度是整個(gè)生存期的花費(fèi)。在兩個(gè)變量高度相關(guān),因?yàn)橥ǔG闆r下,額外的購(gòu)買會(huì)創(chuàng)造額外的收入。很少有記錄會(huì)落入到購(gòu)買數(shù)量最大而收入?yún)s很少,或收入很高而采購(gòu)量卻很少的單元格情況應(yīng)該避免使用高度相關(guān)的變量作為查詢表的維度,因?yàn)檫@些相關(guān)變量會(huì)導(dǎo)致大量的稀疏的單元格。包含訓(xùn)練樣本過少的單元格會(huì)產(chǎn)生置信度偏低的目標(biāo)估計(jì)值對(duì)維度數(shù)的主要限制是單元格中訓(xùn)練記錄的數(shù)量。在維度數(shù)與每個(gè)維度上分到的訓(xùn)練樣本數(shù)之間有一個(gè)權(quán)衡。使用較少的維度,可以在每一 個(gè)維度上進(jìn)行更加精細(xì)的劃分。在實(shí)際處理過程中,可能會(huì)出現(xiàn)該單元格中什么都沒有,有的時(shí)候這種情況是確實(shí)存在的。這種異常情況,表中應(yīng)該包含具有默認(rèn)得 分的單元格,這樣就可為那些與任意主鍵不匹配的記錄分配得分。典型的默認(rèn)異常單元格得分,就是平均值在實(shí)際的過程中,并不需要,每一個(gè)類別劃分一個(gè)維度。影視視頻制作維度的分割應(yīng)該依實(shí)而用。對(duì)于一個(gè)維度的合理劃分是按高、中、企業(yè)宣傳片制作低劃分,而對(duì)另一個(gè)維度的合理劃 分可能是按照百分比來劃分。有的時(shí)候,根據(jù)業(yè)務(wù)規(guī)則來定分割點(diǎn),遵循這些特定的分割點(diǎn)劃分記錄可能那個(gè)比等分劃分更有意義。有監(jiān)督的分割,可以用于確保分 割的有效性。這個(gè)后面在討論維度劃分好以后,在訓(xùn)練集上計(jì)算每個(gè)單元格的得分就簡(jiǎn)單了。對(duì)于數(shù)值型目標(biāo)而言,得分=平均值。對(duì)于類別目標(biāo),每個(gè)類別會(huì)有一個(gè)得分=每個(gè)單元格類標(biāo)簽的比例。這樣對(duì)于每個(gè)類都有一個(gè)概率估計(jì),即待評(píng)分的數(shù)據(jù)記錄屬于該類的概率有些單元格沒有分配到足夠多的數(shù)據(jù),這會(huì)導(dǎo)致目標(biāo)估計(jì)值的置信度較低。對(duì)于這類單元格該怎么辦?一、減少每個(gè)維度上的劃分?jǐn)?shù)量。二、減少定義稀疏單元格的維度數(shù)例如:構(gòu)建某購(gòu)物網(wǎng)站物品清單價(jià)格的競(jìng)爭(zhēng)力模型?;谇鍐问煜じ校c(diǎn)擊吸引力的分析考慮四個(gè)維度:對(duì)于一些比較受歡迎的產(chǎn)品,類似生化危機(jī)或是變形金剛的懸念驚悚,使用這四個(gè)維度是有道理的。而對(duì)于不受歡迎的商品,沒有足夠多的清單來支持所有維度,所以要丟棄一些維度。對(duì)于一些產(chǎn) 品,放棄星期幾這一維度就OK。對(duì)于已協(xié)商產(chǎn)品,只是基于三個(gè)維度而不是基于四個(gè)維度之間的比較。對(duì)于一些產(chǎn)品,甚至只留下一個(gè)維度,對(duì)于這類產(chǎn)品,要做 的就是持續(xù)刪除維度并合并單元格,直到每個(gè)單元格含有足夠的多的數(shù)據(jù)RFM模型,稱為近期、頻率以及貨幣。RFM背后的邏輯很簡(jiǎn)單。近期下單的客戶在不久的將來再次購(gòu)買的概率可能性非常大。在過去有許多購(gòu)買記錄的顧 客更有可能在不久的將來再次購(gòu)買,并且在過去消費(fèi)較多的客戶更有可能在將來消費(fèi)更多。RFM是一種最大化現(xiàn)有客戶收益的技術(shù),而不是吸引新客戶的技術(shù)將客戶分配大RFM單元中,三個(gè)RFM變量需要轉(zhuǎn)化為三個(gè)量化指標(biāo)。近期:距離上次購(gòu)買的天數(shù)或周數(shù),用于得到R的得分第二個(gè)變量頻率,通常是以前下單的總數(shù),記錄F的得分。最后一個(gè)是客戶生存期中的總的花費(fèi),該值用于創(chuàng)建M的得分。每個(gè)維度5等分。由于維度之間具 有相關(guān)性,如F維和M維,所以各個(gè)單元格的客戶數(shù)量并不相等。要做的就是將所有的數(shù)據(jù)都分配到合適的單元格中,而且每個(gè)單元格要有足夠多的記錄,從而目標(biāo) 估計(jì)值具有一個(gè)可以接受的置信度對(duì)于每個(gè)營(yíng)銷活動(dòng),客戶都會(huì)在RFM單元格之間轉(zhuǎn)移。那些做出響應(yīng)的客戶對(duì)增加其消費(fèi)頻率和消費(fèi)總額,并且會(huì)減少距上一次購(gòu)買的時(shí)間。這些新的取值通常都會(huì)遷移到單元格中。沒有響應(yīng)的客戶也可能因距上一次購(gòu)買時(shí)間的增加而轉(zhuǎn)移到新的單元格。其實(shí)這就是定期的數(shù)據(jù)更新,模型更新。數(shù)據(jù)的遷移,會(huì)導(dǎo)致原來的期望的變化,在數(shù)據(jù)單元格遷移過程中,要不斷的了解客戶的需求,及時(shí)的更改數(shù)據(jù)增量響應(yīng)建模的目標(biāo)是識(shí)別那些容易被說服的潛在客戶——受營(yíng)銷影響最大的人。RFM可以看成是對(duì)客戶營(yíng)銷活動(dòng)響應(yīng)能力的預(yù)測(cè)。在定義好的RFM單元 格之后,需要為每個(gè)單元格分配成員,要么是接收營(yíng)銷信息的測(cè)試組成員,要么就是不接受該信息的對(duì)照組成員。基于測(cè)試組和對(duì)照組兩個(gè)分組之間的響應(yīng)率之差決 定了營(yíng)銷活動(dòng)對(duì)于發(fā)現(xiàn)潛在客戶的能力。對(duì)于測(cè)試組和對(duì)照組之間的響應(yīng)率差異最大的單元格,營(yíng)銷獲得產(chǎn)生的影響也是最大的。但這些單元格的響應(yīng)率卻未必是最大的表查詢模型簡(jiǎn)單有效,但是存在一個(gè)問題。隨著輸入數(shù)量的額增加,每個(gè)單元格中訓(xùn)練樣本的數(shù)量會(huì)迅速減少。如果維度為2,且每一維有10個(gè)不同的變 量,那么就需要100個(gè)單元格,而當(dāng)有3個(gè)維度時(shí),就需要1000個(gè)單元格,4個(gè)維度就是10000.這樣成指數(shù)級(jí)的增長(zhǎng),哪怕的傳統(tǒng)數(shù)據(jù)挖掘中都會(huì)遇到 明顯瓶頸當(dāng)試圖預(yù)測(cè)某一個(gè)概率值時(shí),樸素貝葉斯模型就提供這一辦法?;舅枷耄好總€(gè)輸入變量本身就包含一些預(yù)測(cè)需要的信息。這些變量都具有預(yù)測(cè)能力。根據(jù)取消率的顯著差異性,可將每個(gè)變量 劃分在不同的范圍中。

          亚洲精品粉嫩美女一区| 久久99精品久久久久久国产人妖| 色综久久综合桃花网国产精品| 日本第一影院一区二区| 国产精品美女久久久久av福利| 人人妻人人爽人人做夜欢视频九色| 99re6久精品国产首页| 亚洲精品国产av成拍| 性做久久久久久免费观看| 无码人妻丰满熟妇区毛片| 国产女奸网站在线观看| 人妻体体内射精一区中文字幕| 97一期涩涩97片久久久久久久| 丰满人妻av无码一区二区三区 | 亚洲av乱码专区国产乱码| 精品中文字幕精品中文字幕| 国产av熟女一区二区三区 | 老色鬼在线精品视频| 天天躁日日躁狠狠躁人妻 | 老熟妇嗷嗷叫91九色| 激情内射亚洲一区二区三区| 欧美freesex黑人又粗又大| 亚洲片在线视频| 日本a爱视频二区三区| 国产va免费精品高清在线观看| 色丁香色婷婷| 国产精品久久国产三级国| 爽爽影院免费观看| 精品欧洲av无码一区二区三区 | 国产免费人成视频网站在线18| 一本久久伊人热热精品中文字幕| 欧美在线观看一区二区| 亚洲综合中文一区二区| 99久久精品免费看国产| 天天干成人网| 亚洲女同精品久久女同| 中文字幕亚洲熟女av| 99久久久精品免费观看国产| 中出高潮了中文字幕| 国语对白精品在线观看| 国产精品无码久久久久久|