欧美乱码精品一区二区三区,风流少妇又紧又爽又丰满,被债主在夫面前人妻被强,国产精品视频永久免费观看

?
內(nèi)容中心
按關(guān)鍵字查找
細談數(shù)據(jù)脫敏產(chǎn)品的價值差異
作者:安華金和 發(fā)布時間:2020-10-15
決定一場比賽最終結(jié)果的
從來不是相差無幾的起跑
而是奔向終點線的每一步
冠軍的每一步都更快更強
數(shù)據(jù)脫敏這場“賽跑”中,產(chǎn)品的強弱快慢也不在表面,本文中安華金和數(shù)據(jù)安全專家將為您解讀個中不同:

微信圖片_20201020093237 副本.jpg

隨著我國信息化建設(shè)的持續(xù)推進,政府、企業(yè)乃至個人對數(shù)據(jù)安全的認(rèn)知與重視程度不斷提升。作為數(shù)據(jù)安全防護工作的重要一環(huán),數(shù)據(jù)脫敏技術(shù)和產(chǎn)品已作為常規(guī)手段,在開發(fā)測試環(huán)境構(gòu)建以及數(shù)據(jù)外發(fā)共享等典型場景中被廣泛普及應(yīng)用。
如果單純從“使用效果”來看,數(shù)據(jù)脫敏所要實現(xiàn)的不過是將用戶真實數(shù)據(jù)遷移至新環(huán)境中,并對敏感數(shù)據(jù)進行變形、遮蔽等處理,達到數(shù)據(jù)“敏感性降低、標(biāo)識化消除”的目的。然而,上述貌似簡單明確的需求,如果沒有數(shù)據(jù)安全廠商專業(yè)、復(fù)雜的技術(shù)支撐,非但無法將安全和便捷帶給客戶,還會在項目交付實施等環(huán)節(jié)造成一系列問題和麻煩!圍繞以上問題,安華金和帶您透過一系列典型數(shù)據(jù)脫敏需求,看清其背后的產(chǎn)品功能與技術(shù)能力差異:

微信圖片_20201020093303 副本.jpg

差異一、敏感數(shù)據(jù)發(fā)現(xiàn)與“精確”敏感數(shù)據(jù)發(fā)現(xiàn)

針對目標(biāo)環(huán)境中的敏感數(shù)據(jù)進行發(fā)現(xiàn),是進行數(shù)據(jù)脫敏公認(rèn)的前提。然而,對這項技術(shù)的應(yīng)用除必須考察數(shù)據(jù)脫敏產(chǎn)品的“發(fā)現(xiàn)性能和準(zhǔn)確度”外,在實際使用過程中還隱藏著對產(chǎn)品更多“深度能力”的要求,這些能力將決定一款數(shù)據(jù)脫敏產(chǎn)品能否真正適用于真實復(fù)雜的場景:

1. 多種內(nèi)容混合的字段脫敏

對于“由多種內(nèi)容混合在一起“的字段,數(shù)據(jù)脫敏產(chǎn)品能否準(zhǔn)確辨別其中每種數(shù)據(jù)的類型,同時給出類型占比以供使用者參考抉擇?
以個人信息收集場景為例,其中一個典型內(nèi)容就是需要有人填寫“聯(lián)系方式”字段。但是由于填寫人員對采集需求的理解不同,導(dǎo)致所填寫的信息可能會由手機號、座機號、地址等五花八門的“個人信息”構(gòu)成。而這些信息會存儲在同一列中,如果單從數(shù)據(jù)特征入手,處理不善的話很容易將此字段當(dāng)做非敏感字段被忽略掉。因此,一款成熟的數(shù)據(jù)脫敏產(chǎn)品的發(fā)現(xiàn)機制,不僅要能將上述字段準(zhǔn)確識別為敏感數(shù)據(jù)字段,還要能根據(jù)采樣數(shù)據(jù)給出各類數(shù)據(jù)在此字段中的發(fā)現(xiàn)占比;此外,在之后的數(shù)據(jù)脫敏運算環(huán)節(jié)中,還應(yīng)能夠根據(jù)每行數(shù)據(jù)的真正類型,對應(yīng)地產(chǎn)生高度仿真的數(shù)據(jù)。

2. 無法判別敏感屬性的字段脫敏

對于“從數(shù)據(jù)特征上無法判別敏感屬性”的字段,在傳統(tǒng)數(shù)據(jù)脫敏產(chǎn)品的發(fā)現(xiàn)邏輯中往往容易被忽略,從而導(dǎo)致敏感數(shù)據(jù)的泄露;其實處理得當(dāng)?shù)脑?,此類?shù)據(jù)是能夠進行識別的,可通過以下兩種方式進行:

其一,對屬于某種集合范圍內(nèi)、能夠被枚舉概括的數(shù)據(jù),可將這些集合全部列出作為數(shù)據(jù)字典保存;當(dāng)遇到這類“落到字典中”的數(shù)據(jù)時,即可以此辨別其是否為敏感數(shù)據(jù)。例如:中國的省市區(qū)劃、企業(yè)和機構(gòu)的行政部門、股票證券行業(yè)的上市公司代碼等,均可通過此類邏輯進行敏感數(shù)據(jù)發(fā)現(xiàn)。

其二,對字段命名具有特征的數(shù)據(jù),可根據(jù)字段名稱特征嘗試進行敏感數(shù)據(jù)發(fā)現(xiàn);通過這種發(fā)現(xiàn)方式得出的結(jié)果雖是基于猜測,但卻能縮減客戶大海撈針般的工作量。例如:保存有密碼的字段,單從數(shù)據(jù)內(nèi)容特征上是很難辨別其敏感性的,但若根據(jù)字段的名稱,卻可利用一條“包含了PWD或PASSWORD等字符串的列名”作為此類數(shù)據(jù)的疑似判別依據(jù)。

微信圖片_20201020093308 副本.jpg

差異二、數(shù)據(jù)脫敏與“高度仿真”數(shù)據(jù)脫敏

數(shù)據(jù)脫敏,看似是描述相關(guān)產(chǎn)品“最基礎(chǔ)能力”的詞語,但在差異化使用場景下卻對其有著不同能力的要求;比如客戶對脫敏后數(shù)據(jù)”仿真”質(zhì)量的要求,就會隨著脫敏后數(shù)據(jù)的實際使用得到驗證,從而對數(shù)據(jù)脫敏產(chǎn)品的“高度仿真”能力提出更多、更高的要求,往往由以下幾個難度層級構(gòu)成:

1. 內(nèi)容仿真

基礎(chǔ)的內(nèi)容仿真,要求脫敏后數(shù)據(jù)從“數(shù)據(jù)類型、長度、格式、內(nèi)在邏輯和語義”等特性上均與原始數(shù)據(jù)保持一致,不會對脫敏后數(shù)據(jù)的使用場景造成無法識別或產(chǎn)生歧義等問題。通常來說,市面上多數(shù)脫敏產(chǎn)品通過內(nèi)置規(guī)則,可針對身份證、姓名、銀行卡、手機號、地址等常見字段實現(xiàn)上述最基礎(chǔ)的仿真要求。但當(dāng)客戶面對五花八門的使用場景時,想要實現(xiàn)脫敏后數(shù)據(jù)的“高度仿真”,就需要更加靈活的產(chǎn)品技術(shù)能力提供支撐。

例如:在某制造行業(yè)中,對于制成品的批次號需要進行脫敏,但批次號是由生產(chǎn)日期、車間號、流水線號和操作者相關(guān)信息共同組成的,這種行業(yè)級的數(shù)據(jù)顯然已超出一般數(shù)據(jù)脫敏產(chǎn)品內(nèi)置規(guī)則的默認(rèn)范圍,這時就需要安全廠商的數(shù)據(jù)脫敏產(chǎn)品能夠?qū)?shù)據(jù)按位數(shù)進行切分,并基于切分的結(jié)果對各段配置脫敏規(guī)則。比如:對于日期段,可采用標(biāo)準(zhǔn)的日期脫敏規(guī)則;對于車間號、流水線號這種有范圍的數(shù)據(jù),要能基于數(shù)據(jù)字典進行脫敏;最終還要將各段組合成完整的脫敏后數(shù)據(jù)。

2. 區(qū)間、比例仿真

進階一步的數(shù)據(jù)仿真,除對內(nèi)容進行仿真外,還要求脫敏后的整列數(shù)據(jù)能夠滿足某些特征,以避免這些脫敏后數(shù)據(jù)被分發(fā)到分析統(tǒng)計場景后,因為失真降低其實用性。

例如:金融行業(yè)客戶需要對儲戶的儲蓄金額進行分析,但若拿到的脫敏后數(shù)據(jù)與原始數(shù)據(jù)相差過大,將會導(dǎo)致統(tǒng)計分析結(jié)果大大失真,因而需要脫敏產(chǎn)品的算法能夠?qū)⒔痤~數(shù)據(jù)劃分區(qū)間長,并能以“就近隨機”的方式完成脫敏;而高??蛻粼诮y(tǒng)計生源分布比例時,即便拿到的已是將“北京市脫敏成上海市,天津市脫敏成江西省”這樣的非真實數(shù)據(jù),也還是希望“同一省市生源數(shù)據(jù)的比例”是不變的等等。

3. 關(guān)聯(lián)仿真

關(guān)聯(lián)仿真則是更進一步的數(shù)據(jù)仿真,要求脫敏后數(shù)據(jù)與其所在行的其他數(shù)據(jù)能夠保留一定的關(guān)聯(lián)關(guān)系或運算關(guān)系。

當(dāng)身份證號、出生日期、年齡三個字段出現(xiàn)在同一個表中,則天然存在“身份證中間8位數(shù)據(jù)與出生日期一致,且當(dāng)前年份減去出生日期即為年齡”這一邏輯關(guān)系。在這種情況下,就要求脫敏后數(shù)據(jù)也要保持這種關(guān)聯(lián)關(guān)系,否則在分發(fā)到開發(fā)測試場景后極易造成業(yè)務(wù)系統(tǒng)出現(xiàn)邏輯異常;

而在制造行業(yè),一張表中常存在“產(chǎn)品單價、折扣率、實際價格”三個字段,且存在“產(chǎn)品單價x折扣率 = 實際價格”這一邏輯關(guān)系。在這種情況下,如果對價格數(shù)據(jù)進行脫敏,那么要求脫敏后數(shù)據(jù)仍能保留上述運算關(guān)系,這就需要脫敏產(chǎn)品能夠通過表達式精確處理此類行業(yè)內(nèi)特定的數(shù)據(jù)邏輯關(guān)系;

再以證券行業(yè)為例,同一張表內(nèi)常存在“證券號碼、上市地區(qū)、企業(yè)名稱”等存在對應(yīng)關(guān)系的數(shù)據(jù),并且要求在對證券號碼或企業(yè)名稱進行脫敏后,三者的邏輯關(guān)系依然能夠?qū)?yīng)。為此,脫敏產(chǎn)品需要能夠針對多列數(shù)據(jù)字典,實現(xiàn)精確且保障效率的關(guān)聯(lián)仿真脫敏運算。

綜上所述,想要真正做到以仿真數(shù)據(jù)滿足不同行業(yè)、不同場景下的客戶使用需求,并不是簡單一句“數(shù)據(jù)脫敏”所能概括的,其背后對廠商產(chǎn)品、技術(shù)有著更多、更高的要求與考驗。

微信圖片_20201020093312 副本.jpg

差異三、脫敏運算與“高性能”脫敏運算

脫敏性能,是客戶極為關(guān)注的產(chǎn)品指標(biāo)!在一些場景下,客戶需要執(zhí)行“一次全量脫敏后每天增量脫敏”的數(shù)據(jù)處理邏輯,這就要求脫敏產(chǎn)品必須在規(guī)定時間內(nèi)處理完前一天的增量數(shù)據(jù),不然就會直接影響到脫敏目標(biāo)環(huán)境中的數(shù)據(jù)一致性;而在另一些場景中,對數(shù)據(jù)脫敏的需求則處于“隨用隨做”的節(jié)奏,且從數(shù)據(jù)脫敏需求被發(fā)出到完成數(shù)據(jù)脫敏環(huán)境的構(gòu)建,留給相關(guān)人員的時間很可能十分緊張。無論面臨以上哪種場景,都對大批量數(shù)據(jù)的脫敏性能提出著新的要求與挑戰(zhàn)。除常規(guī)提升調(diào)度合理性與算法運算效率外,還有兩個關(guān)鍵因素也影響著數(shù)據(jù)脫敏效率的提升:

其一,是利用數(shù)據(jù)庫特性完成數(shù)據(jù)抽取與入庫邏輯。例如:以“數(shù)據(jù)庫并行加載機制或load機制”替換“通過JDBC讀寫數(shù)據(jù)”,這種方式會令數(shù)據(jù)脫敏產(chǎn)品的開發(fā)復(fù)雜程度大幅提升,但與此同時也會帶來大規(guī)模數(shù)據(jù)脫敏性能的提升。

其二,是數(shù)據(jù)脫敏產(chǎn)品能夠提供平行擴展的集群化部署運算能力,從而通過擴展運算節(jié)點的數(shù)量,成倍擴展數(shù)據(jù)脫敏產(chǎn)品的運算能力。

本文中,安華金和數(shù)據(jù)安全專家通過“三大差異”對數(shù)據(jù)脫敏產(chǎn)品能力的“不同之處”進行了詳細介紹,希望這些來自真實使用側(cè)的實踐經(jīng)驗與問題思考,能夠為更多客戶在未來進行產(chǎn)品選型與技術(shù)比對時提供參考和指引,讓數(shù)據(jù)使用自由而安全!


?
科尔| 郁南县| 高邮市| 南雄市| 黑水县| 那坡县| 兖州市| 余江县| 龙游县| 铁岭市| 柞水县| 镇雄县| 平远县| 石台县| 门源| 河源市| 大连市| 赤峰市| 长沙市| 剑河县| 延川县| 台东县| 巨鹿县| 闽侯县| 沂源县| 翁牛特旗| 厦门市| 慈溪市| 威宁| 墨竹工卡县| 大港区| 凉城县| 延吉市| 石城县| 康保县| 宽甸| 上犹县| 巴马| 棋牌| 苍山县| 嘉峪关市|