隨著數字中國建設進程推進以及國家有關大數據戰略文件的頒布,數據上升到前所未有的戰略高度,越來越受到全社會的關注和重視。近年來,大數據在民生服務、經濟決策、風險控制、績效考核等多方面深入應用,通過將累積的數據轉換為有用的信息知識,以此作為重要參考對生產制造、市場分析、科學探索等進行決策,現已取得了諸多成果。
利用數據挖掘工具實現數據到有用信息和知識的轉化是大數據應用中重要的一步,對此,明朝萬達研制了一套便捷高效的數據挖掘工具通用模型,可幫助金融、公安、政府、等行業實現對數據的加工、處理、分析、建模,利用數據引導業務決策,實現價值閉環,讓數據驅動生產力,全面釋放數據價值。
該模型頁面設計以用戶體驗和用戶目標為導向,采用極簡風格的流式建模,可快速實現各種類型的數據挖掘應用,為個人、團隊和企業所做的決策提供支撐依據。
· 提供了豐富的數據預處理操作,支持圖形化建模,支持多種高效的算子組件。
· 提供關于日常數據挖掘處理的通用算子包括:輸入輸出、數據處理、集合操作、關聯分析、統計分析5大類;
· 提供數據挖掘算子20多種,如:輸入源、輸出源、過濾、排序、字段顯示、去重、別名、類型轉換、列運算、字符串函數、數據量、字符串替換、字段拆分、字段映射、日期格式化、交集、并集、差集、左關聯、右關聯、內關聯、單列統計、排名統計、分組統計、窗口函數等;
· 支持根據需要進行靈活擴展,如:數據分析圖表函數、數據治理分析手段等。
△ 數據挖掘建模流程示意圖
該工具主要用于數據挖掘建模,用戶可以在沒有任何編程基礎的情況下,通過頁面拖拽的方式進行操作,將各種數據通過輸入、數據處理、輸出等環節通過流程化的方式進行連接,使用戶可以理解數據,并設計具有特色的業務數據挖掘模型和可重用組件,以達到數據分析的目的。
產品亮點
1、支持豐富的數據源,可以對多種數據庫來源數據進行數據挖掘分析,包括但不限于Mysql、Oracle、GreenPlum、PostgreSQL等關系型數據庫。
2、具有豐富的通用數據處理算子,目前已有算子如:過濾、排序、去重、交集、并集等20多種,后續根據業務需要可進行動態擴展和自定義。
3、支持靈活的數據輸出入庫策略,可直接將挖掘的數據集導入到指定庫表,并且支持多種入庫策略,如:增量寫入、覆蓋寫入、忽略寫入等,可根據需要進行靈活擴展。
4、數據挖掘計算速度快,底層采用Spark計算引擎,并結合Spark-SQL模塊對數據進行挖掘分析。
5、支持超大量數據挖掘分析,結合Spark分布式集群,充分發揮機器性能,提高數據挖掘處理效率。
6、用戶界面操作簡單,易學易用,通過頁面拖拽就可以進行數據挖掘和分析。
7、應用場景廣,該工具可用于在銀行、金融、證券、教育、公安等行業的數據挖掘分析工作。
應用場景示例
01信用貸款分析評估
需求分析
目前我國信用貸款品類多樣,其中個人信用貸款與傳統抵押貸款相比風險較大,對借款人的經濟效益水平,如個人發展情況、社會地位、經濟收入等有較高的要求。因此,如何針對借款人進行有效的信用貸款分析評估就成為各商業銀行開展業務的重點。數據挖掘工具的出現為風險評估提供了一種良好的定量分析方法。
挖掘過程
通過數據挖掘模型挖掘信用貸款用戶的風險評估過程示例如下圖(僅供參考)。
△ 信用貸風險用戶評估
適用場景/行業
適用于保險、銀行、政府企業,需要對用戶群體進行風險評估的企業等。
02客戶營銷精準定位
需求分析
隨著經濟的發展,國民理財意識的增強,銀行理財新產品層出不窮,各銀行業務逐漸向以客戶、數據、信息為中心的經營和服務模式轉變。當前背景下,銀行關注如何利用數據挖掘技術從海量銀行用戶數據中挖掘出潛在客戶,實現針對性的理財產品推薦。
挖掘過程
通過數據挖掘模型挖掘銀行不同年齡段的潛在客戶示例如下圖(僅供參考)。
△ 潛力客戶分析
適用場景/行業
銀行、證券公司等針對特定的產品營銷,需要快速尋找潛在的客戶群體的企業。