● 產(chǎn)品簡介
Chinasec(安元)互聯(lián)網(wǎng)數(shù)據(jù)泄漏監(jiān)測系統(tǒng),針對敏感文檔互聯(lián)網(wǎng)泄漏的監(jiān)測和溯源需求,為政企用戶提供基于云的文檔內(nèi)容監(jiān)測和溯源服務(wù)。用戶可以登錄互聯(lián)網(wǎng)數(shù)據(jù)泄漏監(jiān)測服務(wù)平臺,通過提供監(jiān)測規(guī)則(關(guān)鍵字、正則表達(dá)式、文檔指紋、文檔特征)建立針對特定網(wǎng)站的互聯(lián)網(wǎng)數(shù)據(jù)泄露監(jiān)測任務(wù),平臺可以預(yù)警及隨時(shí)查詢互聯(lián)網(wǎng)上是否有泄漏敏感內(nèi)容的本單位文檔,并了解泄漏的時(shí)間和上傳賬號。
● 產(chǎn)品功能
產(chǎn)品通過SaaS模式對外提供服務(wù)為客戶提供互聯(lián)網(wǎng)上的文檔泄漏監(jiān)測服務(wù),數(shù)據(jù)可以通過服務(wù)接口進(jìn)行調(diào)用。通過文檔內(nèi)容檢索引擎,為企業(yè)用戶提供特定互聯(lián)網(wǎng)網(wǎng)站上文檔內(nèi)容的檢索功能。
l 提供基于關(guān)鍵字、正則表達(dá)式和文檔指紋的監(jiān)測服務(wù)分析挖掘
l 檢索的文檔和內(nèi)容范圍
已經(jīng)支持的:百度文庫、豆丁文庫、CSDN、金鋤頭、IT168文庫、天涯社區(qū)、博客園;計(jì)劃支持的:MBA智庫、愛問知識人、微信公眾號、新浪微博、知乎、今日頭條、抖音短視頻、快手短視頻、小紅書等
l 支持NLP,能夠?qū)A康奈臋n數(shù)據(jù)進(jìn)行訓(xùn)練,形成文檔分類識別模型
● 總體架構(gòu)圖
系統(tǒng)的物理部署架構(gòu)如上圖所示,云端部署大數(shù)據(jù)存儲和檢索平臺,同時(shí)通過網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)重點(diǎn)網(wǎng)站爬取文本內(nèi)容和非結(jié)構(gòu)化文檔內(nèi)容,信息經(jīng)過清洗加工后存儲到云端。通過Web或接口對外提供單次或批量的數(shù)據(jù)檢索服務(wù)。