Folje kryesore
- Problemet teknike të Facebook ishin për të ardhur keq, por problemi ka të ngjarë të ishte zgjidhur shumë më shpejt nëse nuk do të mbështetej në kaq shumë sisteme të ndërlidhura.
- Nuk ka asnjë mënyrë për të parandaluar plotësisht dështimet e sistemit, por ka mënyra për t'i bërë ato më pak të mundshme.
- Të kesh plane rezervë kur (jo nëse, kur) një sistem dështon, mund të bëjë dallimin midis 'i bezdisshëm' dhe 'katastrofik'.'.
Debakli i fundit në Facebook tregon se si sistemet e ndërlidhura mund të dështojnë dhe pse ne nuk duhet t'i përdorim ato për gjithçka.
Humbja e Facebook, WhatsApp dhe Instagram për disa orë të hënën ishte e papërshtatshme, e dëmshme për bizneset dhe në disa raste, pothuajse katastrofike. Sipas Facebook, gjithçka ishte për shkak të ndryshimeve të konfigurimit në ruterat e tij koordinues të rrjetit.
Është një shpjegim i arsyeshëm, por fakti që një gabim i vetëm si ky mund të ndalojë jo vetëm Facebook-un, por edhe sistemet e tjera në pronësi të Facebook-ut, është pak alarmant.
Një ndryshim i gabuar i konfigurimit të ruterit bëri që shumë shërbime, madje edhe kufjet VR, të ndalonin së punuari plotësisht. Për më tepër, me pranimin e vetë Facebook-ut, ai pati gjithashtu një efekt kaskadues në mënyrën se si komunikojnë qendrat e të dhënave të kompanisë, duke i ndalur të gjitha shërbimet e tyre.
"Mbështetja në sistemet e ndërlidhura mbart me vete një rrezik të natyrshëm të dështimit të sistemit apo edhe të shërbimit," tha Francesco Altomare, inxhinier i lartë teknik i shitjeve në GlobalDots, në një intervistë me email me Lifewire, "Për të kundërshtuar këtë rrezik të frikshëm, kompanitë përdorin parimin e SRE (System Reliability Engineering), si dhe mjete të tjera, të cilat të gjitha merren me nivele të ndryshme të tepricës të ndërtuara në çdo shtresë të infrastrukturës së një sistemi."
Çfarë mund të shkojë keq
Vlen të përmendet se kur një sistem i tillë dështon, zakonisht kërkon një stuhi të përsosur gjërash që shkojnë keq. Është më pak si një shtëpi me letra që pret të bjerë dhe më shumë si një port termik i ekspozuar shkarkimi në një stacion hapësinor me madhësinë e një hëne të vogël.
Shumica e kompanive marrin hapa për t'u përpjekur dhe për t'u siguruar që e vetmja gjë që mund të çojë në kaos nuk do të ndodhë kurrë - por pavarësisht, ajo mund të ndodhë.
"Dështimet e papritura janë pjesë e biznesit dhe mund të lindin si rezultat i neglizhencës së punonjësve, gabimeve në rrjetin e ofruesit të shërbimit të internetit, apo edhe shërbimeve të ruajtjes në renë kompjuterike që pësojnë probleme," tha Sally Stevens, bashkëthemeluese e FastPeopleSearch, në një intervistë me email.
"…Përderisa janë vendosur hapat e nevojshëm për të mbrojtur sistemin, të tilla si kopjet rezervë, ruteri në vend dhe aksesi me nivele, këto dështime nuk kanë gjasa." Edhe pse edhe me një ushtri të kasafortave, është ende e mundur që linchpin të dështojë.
Nëse sistemi që kontrollon gjëra të tilla si format kryesore të kontaktit, pajisjet, dyert, etj., dështon, rezultatet mund të jenë të rëndësishme. Nga shqetësimi i lehtë në katastrofik të plotë, në varësi të asaj se sa individët dhe kompanitë mbështeten në të gjitha.
"Ekziston gjithashtu rreziku i hyrjes së hakerëve në sistem nga ndonjë prej pajisjeve më pak të mbrojtura, të tilla si frigoriferët dhe tostierët e furrës," shtoi Stevens, "të cilat mund të çojnë në vjedhje të të dhënave dhe ransomware."
Si Mund të Përgatitemi
Nuk ka asnjë mënyrë për të garantuar se një sistem nuk do të dështojë kurrë, por ka hapa që mund të ndërmerren për ta bërë dështimin më pak të mundshëm ose për të trajtuar dështimin më lehtë. Një kombinim i dy qasjeve që lidh sigurinë e dështimit dhe kundërmasat me planet e emergjencës dhe sistemet rezervë do të ishte ideale.
"Për eliminimin e këtyre rreziqeve të krijuara nga produktet dhe shërbimet e palëve të treta që trajtohen në mënyrë efektive, rolet dhe detyrat në lidhje me Menaxhimin e Riskut të Palës së Tretë duhet të përvijohen rreptësisht," tha Daniela Sawyer, themeluese dhe shefe e teknologjisë e FindPeopleFast. në një intervistë me email, "Për të lulëzuar në këto mjedise të reja, menaxherët e rrezikut duhet të kuptojnë pjesët thelbësore të një ekosistemi kaq të sofistikuar."
Ajo që ndodhi me Facebook-un, WhatsApp-in dhe Instagramin ishte për të ardhur keq, por gjithashtu shpresojmë që të hapte sytë. Njerëzit që mbështeten në sisteme të ndërlidhura duhet të kuptojnë se gjëja e duhur që shkon keq mund të prishë gjithçka. Dhe duhet të vendosen masa (ose të shqyrtohen dhe rafinohen) për t'i bërë ndërprerje të tilla më pak të mundshme dhe më pak me ndikim.
Në rastin e Facebook, problemi i tij nuk ishin problemet e ruterit, por përkundrazi të kishte pothuajse të gjithë ekosistemin e tij të lidhur me gjithçka tjetër. Kështu, me funksionimin e Facebook (shërbimit), Facebook (kompania) duhej të shpenzonte shumë më tepër kohë dhe energji thjesht duke organizuar dhe adresuar çështjen. Nëse ai ose nuk do të përdorte një sistem kaq të rrënjosur, të ndërlidhur ose do të kishte plane rezervë për t'u marrë me një ndërprerje të tillë, ka të ngjarë që do t'i duhej shumë më pak kohë për t'u rregulluar.