目前,國際及國內市場上的脫敏系統產品主要面向政府、機關及企業(yè)客戶,提供對生產環(huán)境中數據庫數據的脫敏處理,保護數據在研發(fā)、測試及數據分析過程的隱私數據保護。通過部署數據脫敏系統,對脫離生產環(huán)境的敏感數據進行變形或屏蔽等不同的脫敏操作,并使脫敏后的數據信息保留其原始數據格式和數據屬性的關聯性,以確保業(yè)務數據在數據分析、開發(fā)和測試過程中正常的運行,同時提高測試類、分析類數據使用的安全性。
靜態(tài)脫敏的部署模式非常靈活,脫敏系統部署模式可分為單機部署模式、集群部署模式。
單機部署模式:主要包括單服務器和成對服務器兩種部署模式。
圖示:單機部署模式(含單服務器和成對服務器)
單服務器部署模式,將連接業(yè)務部門的生產數據庫,對生產數據進行抽取和數據脫敏,脫敏后的數據輸出到測試部門的測試數據庫中,供測試部門使用數據。單服務器部署模式用于客戶生產環(huán)境網絡和測試環(huán)境網絡允許通過設備進行連接的使用場景。
成對服務器部署模式,在業(yè)務部門數據出口及測試部門數據入口分別部署脫敏服務器,可將業(yè)務部門的數據進行有效隔離,通過offline的方式,滿足測試部門使用業(yè)務部門脫敏后數據的需求。多服務器模式用于客戶生產環(huán)境網絡和測試環(huán)境網絡需要隔離的使用場景。
集群部署模式:
架構模式設計思路:
圖示:集群部署結構圖
集群部署架構脫敏,需要一個分布式執(zhí)行任務的能力。在任意一臺脫敏設備中執(zhí)行脫敏任務,該任務會運行在壓力最小的機器中(以任務及表為基礎),從而達到可以同時并行運行多任務的能力。
主要構成說明:調度節(jié)點、脫敏節(jié)點(1個以上)、策略中心數據庫有同步機制;調度節(jié)點負責整體的任務調度及脫敏任務監(jiān)控,脫敏節(jié)點負責執(zhí)行脫敏任務,脫敏節(jié)點對用戶是透明的。整個集群部署結構中必須有調度節(jié)點和至少一個脫敏節(jié)點,且在調度節(jié)點中進行脫敏節(jié)點的設置。調度節(jié)點可以通過A/B設備實現調度節(jié)點的高可用。
平臺化應用場景下對脫敏系統的綜合處理能力提出了更高的要求,主要體現在:脫敏性能及吞吐量、數據發(fā)現的準確性、脫敏數據質量、脫敏系統的使用便捷性等方面。其中,尤其以脫敏性能及吞吐量作為核心評價指標。
目前的應用場景中,客戶的數據量越來越大。單次脫敏任務所涉及到的數據量動輒達到數TB的量級,導致脫敏周期非常久,影響了日常開發(fā)、測試工作的開展。下面講一個安華金和的案例。
案例
某商業(yè)銀行總行數據量在20T左右,單表數據可達5億行以上,由于涉及到壓力測試需要導出全量數據進行脫敏,要求脫敏時間周期在72小時內完成,否則將影響測試部門的數據使用。
按單表脫敏處理,要滿足這樣的要求需要保證脫敏的處理(含數據抽取、脫敏和輸出)平均速度在81M/S以上才能滿足需要。同時,需要支持40個以上業(yè)務系統的并發(fā)處理。以工控機4核CPU,32G內存的配置計算,單臺脫敏設備顯然無法滿足客戶的高并發(fā)大數據量的脫敏需求。
表格:脫敏處理性能參數
單臺設備(環(huán)境參數為4核CPU、32G內存)的脫敏性能測試情況,根據以往的測試結果可以看出,單表822G數據量脫敏用時16小時,單位時間的處理能力在14.6M/S。按此配置,增加線程對多表進行同時處理,多表3.2T的數據量理論上處理能力可達43.8M/S。對于81M/S的處理性能,單臺設備遠遠不能達到要求。
通過增加單臺脫敏設備的硬件配置,如采購更高配置的服務器來提高脫敏的處理性能的方式可以解決這一難題,但實際應用中往往因為客戶數據庫及網絡環(huán)境的限制,即便是增加脫敏服務器的配置,同樣很難滿足需求。所以,希望有可能通過集群部署模式解決此問題。
表格:脫敏處理能力估算
在集群部署模式下,通過擴展脫敏節(jié)點數量可提高脫敏處理的并發(fā)能力。在數據總量20T的環(huán)境中,集群部署2個并發(fā)脫敏節(jié)點并行,單位時間的數據處理性能評估可達87.6M/S(此值為評估的理論數據,在實際測試環(huán)境中會有一定的偏差),20T的數據需要處理大約67小時左右,基本上能夠滿足72小時內完成20T數據脫敏的需求場景。但考慮實際的數據庫環(huán)境及網絡環(huán)境差異,會提出3個節(jié)點并發(fā)脫敏節(jié)點并行的方案,單位時間的數據處理性能評估可達131.4M/S(此值為評估的理論數據,在實際測試環(huán)境中會有一定的偏差),20T的數據需要處理大約44小時左右,完全能夠滿足72小時內完成20T數據脫敏的需求場景。
集群部署模式的價值體現:
第一,性能大幅度提升。通過集群部署,增加了脫敏處理的吞吐量,滿足了客戶在有限時間周期內大數據量脫敏處理的應用場景。
第二,系統高可用。彌補了單一脫敏設備在數據處理過程中遇到網絡環(huán)境異常、設備異常等突發(fā)事件帶來的任務中斷無法正常執(zhí)行的不足,保證系統的高可用性。
第三,適用場景擴大。用戶在各種復雜的應用環(huán)境中,涉及與脫敏系統的應用對接滿足流程化脫敏,脫敏后的數據發(fā)送及數據校驗等各種場景,通過集群部署,在調度節(jié)點的配置管理中可充分考慮脫敏節(jié)點對不同的處理場景的處理機制。