Çfarë është teknologjia dhe zgjidhja e maskimit të të dhënave në ndërmjetësin e paketave të rrjetit?

1. Koncepti i maskimit të të dhënave

Maskimi i të dhënave njihet edhe si maskimi i të dhënave. Është një metodë teknike për të konvertuar, modifikuar ose mbuluar të dhëna të ndjeshme si numri i telefonit celular, numri i kartës bankare dhe informacione të tjera kur kemi dhënë rregulla dhe politika maskimi. Kjo teknikë përdoret kryesisht për të parandaluar përdorimin e të dhënave të ndjeshme drejtpërdrejt në mjedise jo të besueshme.

Parimi i maskimit të të dhënave: Maskimi i të dhënave duhet të ruajë karakteristikat origjinale të të dhënave, rregullat e biznesit dhe rëndësinë e të dhënave për të siguruar që zhvillimi, testimi dhe analiza e të dhënave pasuese nuk do të ndikohen nga maskimi. Siguroni konsistencën dhe vlefshmërinë e të dhënave para dhe pas maskimit.

2. Klasifikimi i maskimit të të dhënave

Maskimi i të dhënave mund të ndahet në maskim statik të të dhënave (SDM) dhe maskim dinamik të të dhënave (DDM).

Maskimi statik i të dhënave (SDM): Maskimi statik i të dhënave kërkon krijimin e një baze të re të të dhënave të mjedisit joprodhues për izolim nga mjedisi i prodhimit. Të dhënat e ndjeshme nxirren nga baza e të dhënave të prodhimit dhe më pas ruhen në bazën e të dhënave jo-prodhuese. Në këtë mënyrë, të dhënat e desensibilizuara izolohen nga mjedisi i prodhimit, i cili plotëson nevojat e biznesit dhe siguron sigurinë e të dhënave të prodhimit.

SDM

Maskimi dinamik i të dhënave (DDM): Përdoret përgjithësisht në mjedisin e prodhimit për të desensibilizuar të dhënat e ndjeshme në kohë reale. Ndonjëherë, nivele të ndryshme maskimi kërkohen për të lexuar të njëjtat të dhëna të ndjeshme në situata të ndryshme. Për shembull, role dhe leje të ndryshme mund të zbatojnë skema të ndryshme maskimi.

DDM

Aplikacioni për raportimin e të dhënave dhe maskimin e produkteve të të dhënave

Skenarë të tillë përfshijnë kryesisht produkte të monitorimit të brendshëm të të dhënave ose billboard, produkte të të dhënave të shërbimit të jashtëm dhe raporte të bazuara në analizën e të dhënave, të tilla si raportet e biznesit dhe rishikimi i projekteve.

maskimi i produktit të raportimit të të dhënave

3. Zgjidhje për maskimin e të dhënave

Skemat e zakonshme të maskimit të të dhënave përfshijnë: pavlefshmërinë, vlerën e rastësishme, zëvendësimin e të dhënave, enkriptimin simetrik, vlerën mesatare, kompensimin dhe rrumbullakimin, etj.

Pavlefshmëria: Pavlefshmëria i referohet kriptimit, shkurtimit ose fshehjes së të dhënave të ndjeshme. Kjo skemë zakonisht zëvendëson të dhënat reale me simbole të veçanta (si *). Operacioni është i thjeshtë, por përdoruesit nuk mund të dinë formatin e të dhënave origjinale, gjë që mund të ndikojë në aplikacionet e mëvonshme të të dhënave.

Vlera e rastësishme: Vlera e rastësishme i referohet zëvendësimit të rastësishëm të të dhënave të ndjeshme (numrat zëvendësojnë shifrat, shkronjat zëvendësojnë shkronjat dhe karakteret zëvendësojnë karakteret). Kjo metodë maskimi do të sigurojë formatin e të dhënave të ndjeshme në një masë të caktuar dhe do të lehtësojë aplikimin e mëvonshëm të të dhënave. Mund të nevojiten fjalorë maskues për disa fjalë kuptimplote, si për shembull emrat e njerëzve dhe vendeve.

Zëvendësimi i të dhënave: Zëvendësimi i të dhënave është i ngjashëm me maskimin e vlerave null dhe të rastësishme, me përjashtim të faktit që në vend të përdorimit të karaktereve speciale ose vlerave të rastësishme, të dhënat maskuese zëvendësohen me një vlerë specifike.

Kriptimi simetrik: Kriptimi simetrik është një metodë e veçantë maskimi e kthyeshme. Ai kodon të dhënat e ndjeshme përmes çelësave dhe algoritmeve të kriptimit. Formati i tekstit të koduar është në përputhje me të dhënat origjinale në rregullat logjike.

Mesatare: Skema mesatare përdoret shpesh në skenarët statistikorë. Për të dhënat numerike, fillimisht llogarisim mesataren e tyre dhe më pas shpërndajmë rastësisht vlerat e desensibilizuara rreth mesatares, duke mbajtur kështu shumën e të dhënave konstante.

Kompensimi dhe rrumbullakimi: Kjo metodë ndryshon të dhënat dixhitale me zhvendosje të rastësishme. Rrumbullakimi i kompensuar siguron vërtetësinë e përafërt të diapazonit duke ruajtur sigurinë e të dhënave, e cila është më afër të dhënave reale se skemat e mëparshme dhe ka një rëndësi të madhe në skenarin e analizës së të dhënave të mëdha.

ML-NPB-5660-数据脱敏

Modeli i rekomandimit "ML-NPB-5660" për maskimin e të dhënave

4. Teknikat e përdorura zakonisht të maskimit të të dhënave

(1). Teknikat Statistikore

Mostrimi i të dhënave dhe grumbullimi i të dhënave

- Mostra e të dhënave: Analiza dhe vlerësimi i grupit të të dhënave origjinale duke zgjedhur një nëngrup përfaqësues të grupit të të dhënave është një metodë e rëndësishme për të përmirësuar efektivitetin e teknikave të çidentifikimit.

- Grumbullimi i të dhënave: Si një koleksion teknikash statistikore (si përmbledhja, numërimi, mesatarizimi, maksimumi dhe minimumi) të aplikuara për atributet në mikro të dhënat, rezultati është përfaqësues i të gjitha regjistrimeve në grupin origjinal të të dhënave.

(2). Kriptografia

Kriptografia është një metodë e zakonshme për të desensibilizuar ose rritur efektivitetin e desensibilizimit. Lloje të ndryshme të algoritmeve të enkriptimit mund të arrijnë efekte të ndryshme desensibilizimi.

- Kriptimi përcaktues: Një kriptim simetrik jo i rastësishëm. Zakonisht përpunon të dhënat e ID-së dhe mund të deshifrojë dhe rivendosë tekstin e koduar në ID-në origjinale kur është e nevojshme, por çelësi duhet të mbrohet siç duhet.

- Kriptimi i pakthyeshëm: Funksioni hash përdoret për përpunimin e të dhënave, të cilat zakonisht përdoren për të dhënat ID. Nuk mund të deshifrohet drejtpërdrejt dhe lidhja e hartës duhet të ruhet. Përveç kësaj, për shkak të veçorisë së funksionit hash, mund të ndodhë përplasja e të dhënave.

- Kriptimi homomorfik: Përdoret algoritmi homomorfik i tekstit të koduar. Karakteristika e tij është se rezultati i funksionimit të tekstit të shifruar është i njëjtë me atë të funksionimit të tekstit të thjeshtë pas deshifrimit. Prandaj, përdoret zakonisht për të përpunuar fushat numerike, por nuk përdoret gjerësisht për arsye performancës.

(3). Teknologjia e Sistemit

Teknologjia e shtypjes fshin ose mbron artikujt e të dhënave që nuk plotësojnë mbrojtjen e privatësisë, por nuk i publikon ato.

- Maskimi: i referohet metodës më të zakonshme të desensibilizimit për të maskuar vlerën e atributit, siç është numri i kundërshtarit, karta e identitetit shënohet me yll ose adresa është e cunguar.

- Shtypja lokale: i referohet procesit të fshirjes së vlerave specifike të atributeve (kolonave), heqjes së fushave të të dhënave jo thelbësore;

- Mbyllja e të dhënave: i referohet procesit të fshirjes së të dhënave specifike (rreshtave), fshirjes së të dhënave jo thelbësore.

(4). Pseudonimi Teknologji

Pseudomanning është një teknikë çidentifikimi që përdor një pseudonim për të zëvendësuar një identifikues të drejtpërdrejtë (ose identifikues tjetër të ndjeshëm). Teknikat e pseudonimeve krijojnë identifikues unik për çdo subjekt informacioni individual, në vend të identifikuesve të drejtpërdrejtë ose të ndjeshëm.

- Mund të gjenerojë vlera të rastësishme në mënyrë të pavarur që të korrespondojnë me ID-në origjinale, të ruajë tabelën e hartës dhe të kontrollojë rreptësisht aksesin në tabelën e hartës.

- Mund të përdorni gjithashtu enkriptim për të prodhuar pseudonime, por duhet ta mbani siç duhet çelësin e deshifrimit;

Kjo teknologji përdoret gjerësisht në rastin e një numri të madh përdoruesish të pavarur të të dhënave, siç është OpenID në skenarin e platformës së hapur, ku zhvillues të ndryshëm marrin Openids të ndryshëm për të njëjtin përdorues.

(5). Teknikat e përgjithësimit

Teknika e përgjithësimit i referohet një teknike deidentifikimi që zvogëlon granularitetin e atributeve të zgjedhura në një grup të dhënash dhe ofron një përshkrim më të përgjithshëm dhe abstrakt të të dhënave. Teknologjia e përgjithësimit është e lehtë për t'u zbatuar dhe mund të mbrojë vërtetësinë e të dhënave të nivelit të regjistrimit. Zakonisht përdoret në produktet e të dhënave ose raportet e të dhënave.

- Rrumbullakimi: përfshin zgjedhjen e një baze rrumbullakimi për atributin e zgjedhur, siç është mjekësia ligjore lart ose poshtë, duke dhënë rezultate 100, 500, 1K dhe 10K

- Teknikat e kodimit lart dhe poshtë: Zëvendësoni vlerat mbi (ose nën) pragun me një prag që përfaqëson nivelin e sipërm (ose të poshtëm), duke dhënë një rezultat "mbi X" ose "nën X"

(6). Teknikat e randomizimit

Si një lloj teknikë e çidentifikimit, teknologjia e randomizimit i referohet modifikimit të vlerës së një atributi përmes rastësisë, në mënyrë që vlera pas randomizimit të jetë e ndryshme nga vlera reale origjinale. Ky proces zvogëlon aftësinë e një sulmuesi për të nxjerrë një vlerë atributi nga vlerat e tjera të atributeve në të njëjtin rekord të dhënash, por ndikon në vërtetësinë e të dhënave që rezultojnë, gjë që është e zakonshme me të dhënat e testit të prodhimit.


Koha e postimit: Shtator-27-2022