基于CRISP-DM模型的移動GPRS業(yè)務關聯(lián)規(guī)則應用研究
引 言
隨著移動互聯(lián)網(wǎng)的發(fā)展,人們的生活方式發(fā)生了翻天覆地的變化。越來越多的人通過移動互聯(lián)網(wǎng)處理生活中的各個方面,如查找資訊、衣食住行、溝通娛樂、處理工作等 [1]。移動業(yè)務維度多,數(shù)據(jù)量大,關系復雜 [2]。GPRS 業(yè)務是移動運營商價值鏈中最重要的組成部分之一,是移動運營商在移動基本業(yè)務(話音業(yè)務)的基礎上,針對市場需求開通的可供用戶選擇的智能化業(yè)務[3]。中國移動在其GPRS 網(wǎng)絡上推出了彩信、WAP、手機錢包等一系列移動業(yè)務,市場需求極大且前景廣闊。因此各運營商都在積極尋找GPRS 業(yè)務方面的殺手級策略, 試圖以GPRS業(yè)務應用作為發(fā)展契機,確立市場地位。
但移動 GPRS 業(yè)務市場占有率不高,帶來的利潤相當微薄,很多客戶都不了解相關GPRS 業(yè)務,導致 GPRS 業(yè)務的開展工作也不到位。所以必須充分利用移動的海量數(shù)據(jù),運用關聯(lián)規(guī)則挖掘方法,挖掘出GPRS 業(yè)務之間的關聯(lián)關系,將數(shù)據(jù)轉換成有價值的信息和知識,更好地向客戶提供 GPRS 服務, 發(fā)現(xiàn)更多商機,讓企業(yè)在競爭中處于不敗之地。
1 CRISP-DM數(shù)據(jù)挖掘模型
CRISP-DM(Cross Industry Standard Process for Data Mining,CRISP-DM)模型自提出以來,已逐漸發(fā)展成為指導數(shù)據(jù)挖掘活動的標準。CRISP-DM 模型包括商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建立模型、模型評估和模型部署 [4],包含了數(shù)據(jù)挖掘的全過程。
CRISP-DM 模型如圖 1 所示。CRISP-DM 模型定義了六個階段來指導數(shù)據(jù)挖掘過程,但該順序并非一成不變,在實際操作中,根據(jù)每一個環(huán)節(jié)所產(chǎn)生的結果來確認要執(zhí)行的階段或特定環(huán)節(jié),有可能導致循環(huán)往復的情況出現(xiàn) [5]。數(shù)據(jù)挖掘是一個以數(shù)據(jù)為中心,循序漸進的螺旋式數(shù)據(jù)探索過程[6]。
商業(yè)理解階段的任務是明確項目的商業(yè)目標。只有對商業(yè)目標充分理解后,才能將有效的商業(yè)問題轉化為數(shù)據(jù)挖掘解決的問題,并最終將結果轉化為商業(yè)解決方案[7]。
數(shù)據(jù)理解階段,首先收集原始數(shù)據(jù),然后對數(shù)據(jù)作初步分析 [8],熟悉數(shù)據(jù)的特征,識別數(shù)據(jù)的質(zhì)量問題,發(fā)現(xiàn)數(shù)據(jù)庫中各表之間的聯(lián)系,完成數(shù)據(jù)探索。
數(shù)據(jù)準備階段需要對表、記錄和屬性等數(shù)據(jù)做選擇、清洗、重建、合并等工作。這一步驟一般需要反復進行,直至篩選出最終的數(shù)據(jù)集[9]。
建立模型階段是數(shù)據(jù)挖掘中的一個重要過程,需要根據(jù)分析目標選出和應用合適的模型技術,調(diào)整最佳模型參數(shù)。最后通過樣本建立模型對模型進行評估。
模型評估階段旨在徹底評估模型,對整個建模的流程進行梳理,確保模型可以完成業(yè)務目標。若發(fā)現(xiàn)有重要業(yè)務問題沒有考慮周全,甚至還需要返回之前的步驟對挖掘過程重新定義[10,11]。
模型部署階段是客戶用建立的模型去解決實際中遇到的問題,并根據(jù)需求進行監(jiān)督、維持、產(chǎn)生最終報表、重新評估模型等過程。
2 關聯(lián)規(guī)則
關聯(lián)規(guī)則是由R.Agrawal[12] 等人于 1993 年提出的,是數(shù)據(jù)挖掘的重要內(nèi)容之一。它側重于確定數(shù)據(jù)中不同領域之間的關系,即從事務數(shù)據(jù)庫、關系數(shù)據(jù)庫中找出滿足事先給定最小支持度和最小置信度的多個域之間的依賴關系。關聯(lián)規(guī)則強度通過支持度和置信度度量[13]。支持度為規(guī)則中所有項在事務中出現(xiàn)的頻度,表示在整個數(shù)據(jù)庫的重要性,置信度規(guī)則中左邊的項(集)的出現(xiàn)暗示右邊的項(集)出現(xiàn)的頻度,反映其可靠程度。只有支持度和置信度均較高的關聯(lián)規(guī)則才是用戶感興趣的、有用的關聯(lián)規(guī)則[14]。
關聯(lián)規(guī)則作為數(shù)據(jù)挖掘領域的一項關鍵技術,主要用來發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中令人感興趣的聯(lián)系。沃爾瑪超市對其顧客的購物行為進行購物分析,發(fā)現(xiàn)了 啤酒和尿布 的關系。零售業(yè)利用此規(guī)則,幫助他們發(fā)現(xiàn)新的交叉銷售機會[15]。除購物籃外,關聯(lián)規(guī)則也可以應用到其他領域,如生物信息學、藥物治療和提高網(wǎng)絡響應速度等方面。
3 基于 CRISP-DM模型GPRS業(yè)務關聯(lián)規(guī)則應用分析
將CRISP-DM 模型應用于移動GPRS 業(yè)務的數(shù)據(jù)挖掘中, 以移動的GPRS 業(yè)務為分析對象,運用關聯(lián)規(guī)則Apriori 算法來挖掘出GPRS 業(yè)務之間的關系。GPRS 業(yè)務挖掘過程如圖 2 所示。
3.1 商業(yè)理解
根據(jù)移動 GPRS業(yè)務使用總流量少,使用人數(shù)不多等問題,必須開展 GPRS營銷策略,推動GPRS業(yè)務的發(fā)展使用。目前,移動公司主推手機視頻、手機游戲、MobileMarket業(yè)務和手機閱讀四項GPRS業(yè)務,因此要挖掘出客戶特征與這四項業(yè)務之間的關聯(lián)關系。從而發(fā)現(xiàn)支持 GPRS業(yè)務交叉銷售的候選業(yè)務和潛在的客戶群體,對特定客戶群推薦 GPRS業(yè)務, 以進一步提升客戶保有率和滿意度。
3.2 數(shù)據(jù)理解
確定了數(shù)據(jù)挖掘需要解決的問題后,首先收集原始數(shù)據(jù), 充分熟悉各表中的屬性內(nèi)容和各表之間的關系與結構,確定數(shù)據(jù)支持數(shù)學建模的可行性。
本文從移動數(shù)據(jù)庫部分數(shù)據(jù)表中抽取如下數(shù)據(jù)信息:
(1) 個人信息表 :客戶姓名、手機號、客戶屬性、性別、出生日期、聯(lián)系地址、證件號碼、開戶日期、地區(qū)編號、付費方式、銷戶日期等。
(2) 話單數(shù)據(jù)表 :手機號、呼叫類型、對方號碼、通話開始時間、通話時長、地區(qū)號、對方所在區(qū)號、漫游類型、長 途類型、長途分組、IP 電話類型、業(yè)務類型等。
(3)賬單信息 :手機號、賬單開始日期、結束日期、賬單 總金額、月租費、月租功能費、滯納金、最后付費日期、銷賬日期、 積分情況等。
(4)GPRS 業(yè) 務: 終 端 管 理(DM)、 快 訊(DCD)、 widget 平臺、手機報、航信通、手機錢包、手機視頻業(yè)務、 12530WAP 門戶、彩信相冊 WAP 訪問、音樂隨身聽、中央音 樂平臺全曲下載平臺、手機醫(yī)療、手機閱讀、掌上營業(yè)廳、手 機電視 MBBMS、網(wǎng)信平臺試點、手機飛信 WAP 網(wǎng)站、飛信、 WAP 統(tǒng)一門戶、號簿管家、條碼識別、Mobile Market 業(yè)務、 車 e 行及手機導航、游戲業(yè)務。
移動數(shù)據(jù)庫中數(shù)據(jù)表紛繁復雜,而且很多屬性都不是挖 掘目標所需要的。根據(jù) GPRS 業(yè)務挖掘目標,深入分析了移動 數(shù)據(jù)庫中與此次挖掘相關的 18 張表,最終在 11張表中完成屬 性探索,確定了 10 個與此次挖掘主題相關的屬性集。
{ 客戶品牌(attr_name),客戶年齡(age),在網(wǎng)時長(tenure), 性別(sex),三個月平均消費額(all_charge),三個月平均數(shù)據(jù) 業(yè)務費(data_charge),手機視頻(flash),手機閱讀(reader), 手機游戲(game),Mobile Market 業(yè)務 }
用戶品牌中“1”代表全球通品牌“,2”代表神州行品牌“,3” 代表動感地帶品牌。入網(wǎng)時長單位為月。
上述確定的 10 個屬性中的 6 個客戶特征屬性與客戶是否 使用 GPRS 業(yè)務密切相關,這 6 個屬性的信息基本可以描述 一類客戶群的特征。因此選取這 6 個屬性作為分析 GPRS 客 戶特征的關鍵屬性。
3.3 數(shù)據(jù)準備
數(shù)據(jù)準備主要在建模前完成對數(shù)據(jù)的清洗和預處理工作,它在數(shù)據(jù)挖掘中起著至關重要的作用,因為數(shù)據(jù)的質(zhì)量直接影響最終數(shù)據(jù)挖掘的結果。本次挖掘從移動數(shù)據(jù)庫中抽取 1,2,3 月份的數(shù)據(jù),并以 3 月份的數(shù)據(jù)為基準,把 3 月份的數(shù)據(jù)作為樣本集,1,2,3 月份的數(shù)據(jù)作為母本,對比樣本集中各屬性的分布與母本的分布,確定分布相一致,最終將 3 月份的數(shù)據(jù)作為本次關聯(lián)規(guī)則挖掘的基本數(shù)據(jù)。但直接抽取的原始數(shù)據(jù)通常是不完整、有噪聲和冗余的,不適合直接用來進行數(shù)據(jù)挖掘,所以需要對這些數(shù)據(jù)集進行預處理。主要完成以下幾方面的處理:
(1) 缺失值處理。例如客戶年齡,因為很多客戶在辦理業(yè)務時不愿意透露自己的年齡,經(jīng)常隨意填寫或者不填。但移動辦理業(yè)務必須提供自己的身份證號碼,所以通過客戶的身份證號碼使用SQL 語句修正客戶的年齡屬性,這樣客戶年齡屬性的正確率就可以提升到百分之八九十左右??蛻舻男詣e屬性也可以通過客戶的身份證號碼來修正。對于屬性較為重要但含有較多缺失值的數(shù)據(jù),可通過已知數(shù)據(jù)精確計算或用通過統(tǒng)計得到的數(shù)據(jù)替換當前丟失的數(shù)據(jù),均值替代缺失值 ;當屬性不重要且含有很多缺失值時,忽略該屬性 ;當屬性有少量缺失值時可以刪除帶有缺失值的記錄。
(2) 異常值處理。異常值為重復記錄,不正確的屬性值。應直接刪除停機客戶、通話時長為負值的記錄。
(3) 數(shù)據(jù)簡約處理。由于原始數(shù)據(jù)缺乏統(tǒng)一的標準和定義,所以存在大量冗余屬性,冗余屬性是指一個屬性可以從其他屬性中推演出來。例如入網(wǎng)時間和在網(wǎng)時長,顯然在網(wǎng)時長可以通過入網(wǎng)時長推算出來。
(4) 衍生屬性處理。在數(shù)據(jù)理解階段選取的 10個字段中,產(chǎn)生 2 個衍生變量,即三個月平均消費額,三個月平均數(shù)據(jù)業(yè)務費。
(5) 數(shù)據(jù)集成處理。將數(shù)據(jù)庫中多個數(shù)據(jù)表中的數(shù)據(jù)進行合并處理,整合存放到一個一致的數(shù)據(jù)表中。
由于移動公司一個月提取的數(shù)據(jù)量有 31 萬左右,數(shù)據(jù)量過于龐大,從算法的效率考慮,采用隨機采樣原則。最終確定了一個含有 10 維 8 000 條記錄的數(shù)據(jù)集,10 維屬性即為圖 3所確定的屬性。部分數(shù)據(jù)集如圖 3所示。
圖 3 移動原始數(shù)據(jù)集
3.4 建立模型
數(shù)據(jù)挖掘建模就是從歷史數(shù)據(jù)和結果中找出深層的關系和規(guī)律。使用數(shù)據(jù)挖掘關聯(lián)規(guī)則Apriori 算法對數(shù)據(jù)準備階段產(chǎn)生的對象數(shù)據(jù)集進行挖掘。
針對手機視頻,手機閱讀,Mobile Market業(yè)務和游戲業(yè)務,設定最小支持度 min_sup=10%,最小置信度 min_conf=50%, 運用Apriori 算法挖掘這四種業(yè)務之間的關聯(lián)性。最終得到的部分挖掘結果如表 1 所列。
從挖掘結果中可以發(fā)現(xiàn)GPRS 業(yè)務之間有趣的關聯(lián)關系, 同時使用手機視頻和手機閱讀的客戶占總客戶的 18%,同時使用這兩種業(yè)務的客戶占使用手機視頻客戶的 85%。由此說明, 手機視頻業(yè)務和手機閱讀業(yè)務之間的關聯(lián)強度比較大,喜歡手機視頻業(yè)務的客戶也比較喜歡手機閱讀業(yè)務。
3.5 評估模型
模型結果產(chǎn)生后,要對模型結果反映的數(shù)據(jù)關系進行科學的分析與評估,為此對上述關聯(lián)規(guī)則挖掘得到的模型進行全面評估。采用 4 月份的數(shù)據(jù)來檢驗模型,若檢驗后得到一致的挖掘結果,則說明建立的模型得到的結果符合實際客觀規(guī)律。在此基礎上,由移動領域的專家對該模型的有效性進行了評價,證明該模型具有很好的可行性。
3.6 模型發(fā)布
建立的數(shù)學模型不僅要通過指定樣本檢驗,還要通過應用問題的結果評估,即將模型應用到實踐活動中,對模型的挖掘結果展開應用,從而有效促進解決實際問題的決策工作。
通過分析可以看出,基于關聯(lián)規(guī)則的GPRS 業(yè)務數(shù)據(jù)挖掘主要是從業(yè)務角度發(fā)現(xiàn)各業(yè)務之間的關系。通過挖掘結果發(fā)現(xiàn)潛在的高交叉GPRS 業(yè)務,將模型挖掘結果導出為報表文件,幫助營銷策劃人員開展精準營銷活動。
可以開展的營銷策略:
(1) 短信電話營銷。根據(jù)挖掘結果向已開通某一業(yè)務的客戶主動推薦另一種關聯(lián)強度比較高的業(yè)務,引導其開通相關聯(lián)的業(yè)務。
(2) 業(yè)務捆綁銷售。根據(jù)挖掘結果、業(yè)務之間的關聯(lián)關系,設計出相應的業(yè)務捆綁銷售套餐,從而促進業(yè)務的開展使用。
4 結 語
本文使用CRISP-DM 模型進行 GPRS 業(yè)務數(shù)據(jù)挖掘,證明了方法的可行性和實用性,并得到了GPRS 業(yè)務之間的關聯(lián)關系,對營銷實踐和營銷策劃起到重要的指導和輔助決策作用。該挖掘結果模型已應用于某移動公司的GPRS 業(yè)務營銷。實際應用表明,該挖掘結果具有較好的實用性,推動了市場GPRS業(yè)務的需求與發(fā)展,對移動領域的發(fā)展具有較為重要的現(xiàn)實意義。





