1. Koncepti i maskimit të të dhënave
Maskimi i të dhënave njihet edhe si maskim i të dhënave. Është një metodë teknike për të konvertuar, modifikuar ose mbuluar të dhëna të ndjeshme, të tilla si numri i telefonit celular, numri i kartës bankare dhe informacione të tjera, kur kemi dhënë rregulla dhe politika maskimi. Kjo teknikë përdoret kryesisht për të parandaluar përdorimin e drejtpërdrejtë të të dhënave të ndjeshme në mjedise të pasigurta.
Parimi i maskimit të të dhënave: Maskimi i të dhënave duhet të ruajë karakteristikat origjinale të të dhënave, rregullat e biznesit dhe rëndësinë e të dhënave për të siguruar që zhvillimi, testimi dhe analiza e mëvonshme e të dhënave nuk do të ndikohen nga maskimi. Siguroni qëndrueshmërinë dhe vlefshmërinë e të dhënave para dhe pas maskimit.
2. Klasifikimi i maskimit të të dhënave
Maskimi i të dhënave mund të ndahet në maskim statik të të dhënave (SDM) dhe maskim dinamik të të dhënave (DDM).
Maskimi statik i të dhënave (SDM)Maskimi statik i të dhënave kërkon krijimin e një baze të dhënash të re të mjedisit jo-prodhues për izolim nga mjedisi i prodhimit. Të dhënat e ndjeshme nxirren nga baza e të dhënave e prodhimit dhe më pas ruhen në bazën e të dhënave jo-prodhuese. Në këtë mënyrë, të dhënat e desensibilizuara izolohen nga mjedisi i prodhimit, gjë që përmbush nevojat e biznesit dhe siguron sigurinë e të dhënave të prodhimit.
Maskimi Dinamik i të Dhënave (DDM)Përdoret përgjithësisht në mjedisin e prodhimit për të desensibilizuar të dhënat e ndjeshme në kohë reale. Ndonjëherë, kërkohen nivele të ndryshme maskimi për të lexuar të njëjtat të dhëna të ndjeshme në situata të ndryshme. Për shembull, role dhe leje të ndryshme mund të zbatojnë skema të ndryshme maskimi.
Raportimi i të dhënave dhe aplikacioni i maskimit të produkteve të të dhënave
Skenarë të tillë përfshijnë kryesisht produkte ose tabela reklamash të monitorimit të të dhënave të brendshme, produkte të të dhënave të shërbimeve të jashtme dhe raporte të bazuara në analizën e të dhënave, të tilla si raportet e biznesit dhe rishikimi i projektit.
3. Zgjidhja e maskimit të të dhënave
Skemat e zakonshme të maskimit të të dhënave përfshijnë: pavlefshmërinë, vlerën e rastësishme, zëvendësimin e të dhënave, enkriptimin simetrik, vlerën mesatare, zhvendosjen dhe rrumbullakosjen, etj.
PavlefshmëriPavlefshmëria i referohet enkriptimit, shkurtimit ose fshehjes së të dhënave të ndjeshme. Kjo skemë zakonisht zëvendëson të dhënat reale me simbole të veçanta (si p.sh. *). Operacioni është i thjeshtë, por përdoruesit nuk mund ta dinë formatin e të dhënave origjinale, gjë që mund të ndikojë në aplikacionet pasuese të të dhënave.
Vlerë e rastësishmeVlera e rastësishme i referohet zëvendësimit të rastësishëm të të dhënave të ndjeshme (numrat zëvendësojnë shifrat, shkronjat zëvendësojnë shkronjat dhe karakteret zëvendësojnë karakteret). Kjo metodë maskimi do të sigurojë formatin e të dhënave të ndjeshme në një farë mase dhe do të lehtësojë zbatimin e mëvonshëm të të dhënave. Fjalorët maskues mund të jenë të nevojshëm për disa fjalë kuptimplote, siç janë emrat e njerëzve dhe vendeve.
Zëvendësimi i të dhënaveZëvendësimi i të dhënave është i ngjashëm me maskimin e vlerave null dhe të rastësishme, përveç se në vend të përdorimit të karaktereve speciale ose vlerave të rastësishme, të dhënat maskuese zëvendësohen me një vlerë specifike.
Enkriptimi simetrikEnkriptimi simetrik është një metodë e veçantë maskimi e kthyeshme. Ai enkripton të dhëna të ndjeshme përmes çelësave dhe algoritmeve të enkriptimit. Formati i tekstit të shifruar është në përputhje me të dhënat origjinale në rregullat logjike.
MesatarjaSkema mesatare përdoret shpesh në skenarët statistikorë. Për të dhënat numerike, së pari llogarisim mesataren e tyre dhe më pas shpërndajmë rastësisht vlerat e desensibilizuara rreth mesatares, duke e mbajtur kështu shumën e të dhënave konstante.
Zhvendosje dhe RrumbullakosjeKjo metodë ndryshon të dhënat dixhitale me zhvendosje të rastësishme. Rrumbullakosja e zhvendosjes siguron vërtetësinë e përafërt të diapazonit duke ruajtur sigurinë e të dhënave, e cila është më afër të dhënave reale sesa skemat e mëparshme, dhe ka rëndësi të madhe në skenarin e analizës së të dhënave të mëdha.
Modeli i Rekomanduar "ML-NPB-5660"për maskimin e të dhënave
4. Teknikat e maskimit të të dhënave që përdoren zakonisht
(1). Teknikat Statistikore
Mostrimi i të dhënave dhe grumbullimi i të dhënave
- Marrja e mostrave të të dhënave: Analiza dhe vlerësimi i të dhënave origjinale duke zgjedhur një nëngrup përfaqësues të të dhënave është një metodë e rëndësishme për të përmirësuar efektivitetin e teknikave të deidentifikimit.
- Agregimi i të dhënave: Si një koleksion teknikash statistikore (si mbledhja, numërimi, mesatarizimi, maksimumi dhe minimumi) të aplikuara në atributet në mikrotë dhëna, rezultati është përfaqësues i të gjitha të dhënave në grupin origjinal të të dhënave.
(2). Kriptografia
Kriptografia është një metodë e zakonshme për të desensibilizuar ose rritur efektivitetin e desensibilizimit. Lloje të ndryshme të algoritmeve të enkriptimit mund të arrijnë efekte të ndryshme desensibilizimi.
- Enkriptimi determinist: Një enkriptim simetrik jo i rastësishëm. Zakonisht përpunon të dhëna identifikimi dhe mund të dekriptojë dhe rivendosë tekstin e shifruar në ID-në origjinale kur është e nevojshme, por çelësi duhet të mbrohet siç duhet.
- Enkriptimi i pakthyeshëm: Funksioni hash përdoret për të përpunuar të dhënat, të cilat zakonisht përdoren për të dhënat e identifikimit. Nuk mund të dekriptohet drejtpërdrejt dhe marrëdhënia e mapimit duhet të ruhet. Përveç kësaj, për shkak të veçorisë së funksionit hash, mund të ndodhë përplasje e të dhënave.
- Enkriptimi homomorfik: Përdoret algoritmi homomorfik i tekstit të shifruar. Karakteristika e tij është se rezultati i operacionit të tekstit të shifruar është i njëjtë me atë të operacionit të tekstit të thjeshtë pas dekriptimit. Prandaj, përdoret zakonisht për të përpunuar fushat numerike, por nuk përdoret gjerësisht për arsye performance.
(3). Teknologjia e Sistemit
Teknologjia e shtypjes fshin ose mbron të dhënat që nuk plotësojnë kërkesat e mbrojtjes së privatësisë, por nuk i publikon ato.
- Maskimi: i referohet metodës më të zakonshme të desensibilizimit për të maskuar vlerën e atributit, siç është numri i kundërshtarit, karta e identitetit është shënuar me një yll ose adresa është e cunguar.
- Shtypja lokale: i referohet procesit të fshirjes së vlerave specifike të atributeve (kolonave), duke hequr fushat e të dhënave jo thelbësore;
- Shtypja e të dhënave: i referohet procesit të fshirjes së të dhënave (rreshtave) specifike, fshirjes së të dhënave jo thelbësore.
(4). Teknologjia e Pseudonimeve
Pseudomanning është një teknikë de-identifikimi që përdor një pseudonim për të zëvendësuar një identifikues të drejtpërdrejtë (ose identifikues tjetër të ndjeshëm). Teknikat e pseudonimit krijojnë identifikues unikë për secilin subjekt individual të informacionit, në vend të identifikuesve të drejtpërdrejtë ose të ndjeshëm.
- Mund të gjenerojë vlera të rastësishme në mënyrë të pavarur që korrespondojnë me ID-në origjinale, të ruajë tabelën e hartëzimit dhe të kontrollojë në mënyrë strikte aksesin në tabelën e hartëzimit.
- Mund të përdorni edhe enkriptimin për të krijuar pseudonime, por duhet ta ruani siç duhet çelësin e dekriptimit;
Kjo teknologji përdoret gjerësisht në rastin e një numri të madh përdoruesish të pavarur të të dhënave, siç është OpenID në skenarin e platformës së hapur, ku zhvillues të ndryshëm marrin Openid të ndryshëm për të njëjtin përdorues.
(5). Teknikat e përgjithësimit
Teknika e përgjithësimit i referohet një teknike të deidentifikimit që zvogëlon detajet e atributeve të zgjedhura në një grup të dhënash dhe ofron një përshkrim më të përgjithshëm dhe abstrakt të të dhënave. Teknologjia e përgjithësimit është e lehtë për t’u zbatuar dhe mund të mbrojë vërtetësinë e të dhënave në nivel rekordi. Përdoret zakonisht në produktet e të dhënave ose raportet e të dhënave.
- Rrumbullakosja: përfshin zgjedhjen e një baze rrumbullakosjeje për atributin e zgjedhur, siç është forenzika lart ose poshtë, duke dhënë rezultate 100, 500, 1K dhe 10K.
- Teknikat e kodimit sipër dhe poshtë: Zëvendësoni vlerat mbi (ose nën) pragun me një prag që përfaqëson nivelin sipër (ose poshtë), duke dhënë një rezultat "mbi X" ose "nën X"
(6). Teknikat e Randomizimit
Si një lloj teknike de-identifikimi, teknologjia e rastësimit i referohet modifikimit të vlerës së një atributi përmes rastësimit, në mënyrë që vlera pas rastësimit të jetë e ndryshme nga vlera reale origjinale. Ky proces zvogëlon aftësinë e një sulmuesi për të nxjerrë një vlerë atributi nga vlerat e tjera të atributeve në të njëjtin regjistër të dhënash, por ndikon në vërtetësinë e të dhënave që rezultojnë, gjë që është e zakonshme me të dhënat e testimit të prodhimit.
Koha e postimit: 27 shtator 2022