什么是數據挖掘?
數據挖掘是搜索和分析大量原始數據以識別模式并提取有用信息的過程。
公司使用數據挖掘軟件來了解有關其客戶的更多信息。它可以幫助他們制定更有效的營銷策略,增加銷售額并降低成本。數據挖掘依賴于有效的數據收集、倉庫和計算機處理。
關鍵要點
數據挖掘是分析大量信息以識別趨勢和模式的過程。
公司可以使用數據挖掘進行從了解客戶感興趣或想要購買的內容到欺詐檢測和垃圾郵件過濾。
數據挖掘程序根據用戶請求或提供的信息來分解數據中的模式和連接。
社交媒體公司使用數據挖掘技術將其用戶商品化以產生利潤。
這種數據挖掘的使用最近受到批評,因為用戶通常不知道他們的個人信息發生數據挖掘,特別是當它被用來影響偏好時。
數據挖掘的工作原理
數據挖掘涉及探索和分析大塊信息,以收集有意義的模式和趨勢。它用于信用風險管理、欺詐檢測和垃圾郵件過濾。它也是一種市場研究工具,有助于揭示特定人群的情緒或意見。數據挖掘過程分為四個步驟:
數據收集并加載到現場或云服務上的數據倉庫中。
業務分析師、管理團隊和信息技術專業人員訪問數據并確定他們希望如何組織數據。
自定義應用軟件對數據進行排序和組織。
最終用戶以易于共享的格式(如圖形或表格)呈現數據。
數據倉庫和挖掘軟件
數據挖掘程序根據用戶請求分析數據中的關系和模式。它將信息組織成類。
例如,一家餐廳可能希望使用數據挖掘來確定它應該提供哪些特色菜以及在什么日期提供。數據可以根據客戶訪問的時間和他們訂購的內容組織成類。在其他情況下,數據挖掘者根據邏輯關系找到信息集群,或者查看關聯和順序模式,以得出有關消費者行為趨勢的結論。
倉儲是數據挖掘的一個重要方面。倉儲是將組織的數據集中到一個數據庫或程序中。它允許組織剝離數據段,供特定用戶根據其需求進行分析和使用。云數據倉庫解決方案使用云提供商的空間和功能來存儲數據。這使較小的公司能夠利用數字解決方案進行存儲、安全和分析。
數據挖掘技術
數據挖掘使用算法和各種其他技術將大量數據轉換為有用的輸出。最流行的數據挖掘技術類型包括:
關聯規則(也稱為市場籃分析)搜索變量之間的關系。這種關系本身在數據集中創造了額外的價值,因為它努力鏈接數據片段。例如,關聯規則將搜索公司的銷售歷史記錄,以查看最常一起購買的產品;有了這些信息,商店就可以計劃、推廣和預測。
分類使用預定義的類分配給對象。這些類描述項目的特征或表示數據點與每個項目的共同點。這種數據挖掘技術允許在類似的功能或產品線中更整齊地對基礎數據進行分類和匯總。
聚類類似于分類。但是,聚類分析可識別對象之間的相似性,然后根據這些項目與其他項目的不同之處對這些項目進行分組。雖然分類可能導致“洗發水”、“護發素”、“肥皂”和“牙膏”等組,但聚類可以識別“頭發護理”和“牙齒健康”等組。
決策樹用于根據一組標準或決策列表對結果進行分類或預測。決策樹用于請求輸入一系列級聯問題,這些問題根據給出的響應對數據集進行排序。決策樹有時被描述為樹狀視覺對象,允許在深入鉆取數據時提供特定的方向和用戶輸入。
K-最近鄰 (KNN) 是一種根據數據與其他數據的接近程度對數據進行分類的算法。KNN 的基礎植根于這樣的假設,即彼此接近的數據點比其他數據位更相似。這種非參數的監督技術用于根據單個數據點預測組的特征。
神經網絡通過使用節點來處理數據。這些節點由輸入、權重和輸出組成。數據通過監督學習進行映射,類似于人腦相互連接的方式。可以對該模型進行編程,以給出閾值以確定模型的準確性。
預測分析致力于利用歷史信息來構建圖形或數學模型來預測未來的結果。與回歸分析重疊,該技術旨在根據當前手頭的數據支持未來的未知數字。
數據挖掘過程
為了最有效,數據分析師通常會在數據挖掘過程中遵循一定的任務流。如果沒有這種結構,分析師可能會在分析過程中遇到問題,如果他們早點做好準備,這個問題本來很容易避免。數據挖掘過程通常分為以下步驟。
第 1 步:了解業務
在接觸、提取、清理或分析任何數據之前,了解基礎實體和手頭的項目非常重要。該公司試圖通過挖掘數據來實現的目標是什么?他們目前的業務狀況如何?SWOT 分析的結果是什么?在查看任何數據之前,挖掘過程首先要了解該過程結束時的成功定義。
步驟 2:了解數據
明確定義業務問題后,就該開始考慮數據了。這包括可用的來源、如何保護和存儲它們、如何收集信息以及最終結果或分析可能是什么樣子。此步驟還包括確定數據、存儲、安全性和收集的限制,并評估這些約束將如何影響數據挖掘過程。
步驟 3:準備數據
收集、上傳、提取或計算數據。然后對其進行清理、標準化、清除異常值、評估錯誤并檢查合理性。在數據挖掘的這個階段,還可以檢查數據的大小,因為過大的信息集合可能會不必要地減慢計算和分析速度。
步驟 4:構建模型
有了我們干凈的數據集,是時候處理數字了。數據科學家使用上述數據挖掘類型來搜索關系、趨勢、關聯或順序模式。數據也可以輸入預測模型,以評估以前的信息位如何轉化為未來的結果。
步驟 5:評估結果
數據挖掘的以數據為中心的方面通過評估一個或多個數據模型的結果來結束。分析的結果可能會被匯總、解釋并呈現給到目前為止基本上被排除在數據挖掘過程之外的決策者。在此步驟中,組織可以選擇根據結果做出決策。
步驟 6:實施更改和監視
數據挖掘過程結束時,管理層根據分析結果采取措施。公司可能會認為信息不夠有力或調查結果不相關,或者公司可能會根據調查結果進行戰略調整。在任何一種情況下,管理層都會審查業務的最終影響,并通過識別新的業務問題或機會來重新創建未來的數據挖掘循環。
不同的數據挖掘處理模型將具有不同的步驟,盡管一般過程通常非常相似。例如,知識發現數據庫模型有九個步驟,CRISP-DM模型有六個步驟,SEMMA過程模型有五個步驟。1
數據挖掘的應用
在當今的信息時代,幾乎任何部門、行業、部門或公司都可以利用數據挖掘。
銷售
數據挖掘鼓勵更智能、更高效地利用資本來推動收入增長。考慮在您最喜歡的當地咖啡店進行銷售點登記。對于每筆銷售,該咖啡館都會收集購買時間和銷售的產品。利用這些信息,商店可以戰略性地制作其產品線。
營銷
一旦上面的咖啡館知道了它的理想陣容,就該實施這些變化了。但是,為了使營銷工作更有效,商店可以使用數據挖掘來了解客戶在哪里看到廣告、定位哪些人口統計數據、在哪里放置數字廣告以及哪些營銷策略最能引起客戶的共鳴。這包括使營銷活動、促銷優惠、交叉銷售優惠和計劃與數據挖掘的結果保持一致。
制造業
對于生產自己產品的公司來說,數據挖掘在分析每種原材料的成本、最有效的材料使用、制造過程中花費的時間以及哪些瓶頸對流程產生負面影響方面起著不可或缺的作用。數據挖掘有助于確保貨物流動不間斷。
欺詐檢測
數據挖掘的核心是查找將數據點鏈接在一起的模式、趨勢和相關性。因此,公司可以使用數據挖掘來識別不應該存在的異常值或相關性。例如,一家公司可能會分析其現金流并找到未知賬戶的重復交易。如果這是出乎意料的,公司可能希望調查資金是否管理不善。
人力資源
人力資源部門通常有廣泛的數據可供處理,包括有關保留、晉升、工資范圍、公司福利、這些福利的使用和員工滿意度調查的數據。數據挖掘可以將這些數據關聯起來,以更好地了解員工離職的原因以及吸引新員工的原因。
顧客服務
客戶滿意度可能由于各種原因而引起(或破壞)。想象一下,一家運送貨物的公司。客戶可能對運輸時間、運輸質量或通信不滿意。同一客戶可能會對電話等待時間過長或電子郵件響應緩慢感到沮喪。數據挖掘收集有關客戶交互的運營信息,并總結調查結果,以查明弱點并突出公司做得對的地方。
數據挖掘的好處
數據挖掘確保公司收集和分析可靠的數據。它通常是一個更僵化、結構化的過程,它正式識別問題,收集與問題相關的數據,并努力制定解決方案。因此,數據挖掘有助于企業變得更有利可圖、更高效或運營更強大。