newsroom 10/10 '21 posted
• Santosh Janardhan 엔지니어링 및 인프라 부사장에 따르면 화요일 Facebook의 업데이트된 회사 게시물에 따르면, "우리 엔지니어링 팀은 데이터 센터 간의 네트워크 트래픽을 조정하는 백본 라우터의 구성 변경이 이러한 통신을 방해하는 문제를 야기한다는 사실을 알게 되었습니다.
• 또한 이러한 중단 시간으로 인해 사용자 데이터가 손상되었다는 증거는 없습니다."라고 Facebook은 말했습니다.
• Janardhan은 "당사에 의존하는 전 세계 모든 사람들과 기업들에게 오늘 플랫폼 전반의 중단으로 인한 불편에 대해 사과드립니다."라고 설명했습니다.
• 이번 운영 중단의 근본적인 원인은 일상적인 운영에 사용하는 많은 내부 툴과 시스템에도 영향을 미쳐 문제를 신속하게 진단하고 해결하려는 시도를 복잡하게 만들었습니다."라고 Facebook VP는 말했습니다.

DNS는 번역기와 같습니다. 경로가 철회되고, Facebook의 DNS 서버가 오프라인 상태가 되었습니다. 문제가 발생한 지 1분 후, Cloudflare 엔지니어들은 왜 [1.1.1.1, DNS 해석기]가 facebook.com을 해석할 수 없었는지 궁금해하며, 그것이 우리 시스템의 결함이라고 걱정했습니다."라고 Cloudfare는 말했습니다. 인터넷을 구성하는 네트워크의 네트워크는 복원력을 위해 구축되고 IP 트래픽은 DNS 시스템을 사용하여 자동으로 라우팅됩니다.

• "이러한 네트워크 트래픽 중단은 데이터 센터 통신 방식에 계단식 영향을 미쳐 서비스가 중단되었습니다."라고 그는 말했습니다.
• 사실상, 이는 인프라 IP에 연결할 수 없음을 의미했습니다.
• Cloudflare는 블로그 게시물에서 "누군가가 데이터 센터에서 '케이블을 빼내서' 인터넷 연결을 끊은 것 같았다"고 지적했습니다.
• Cloudflare에 따르면, 오프라인 DNS 문제는 인터넷의 자율 시스템(AS) 간 라우팅 정보를 교환하는 메커니즘인 BGP(Border Gateway Protocol)로 인해 악화되었습니다.
• 인터넷은 효과적으로 BGP에 의해 결합된 네트워크의 네트워크입니다.
• 각 네트워크에는 통합된 내부 라우팅 정책을 가진 ASN(자율 시스템 번호)이 있습니다.
• Cloudflare에 따르면 모든 ASN은 BGP를 사용하여 인터넷에 대한 접두사 경로(prefix routes)를 발표해야 합니다. 그렇지 않으면 연결 방법과 인터넷 기반 서비스를 어디서 찾을 수 있는지 아무도 모릅니다.
• "Facebook이 BGP를 통한 DNS 접두사 경로 발표를 중단했기 때문에, 저희와 다른 모든 DNS 확인자는 그들의 네임서버에 연결할 방법이 없었습니다.
• 결과적으로 1.1.1.1, 8.8.8.8 및 기타 주요 공용 DNS 확인자가 SERVFAIL 응답을 발행(및 캐싱)하기 시작했습니다."라고 Cloudflare는 지적했습니다.
• Cloudflare의 설명에 따르면 Facebook의 DNS 이름 확인이 중단되어 인프라 IP에 연결할 수 없습니다.
• 마치 누군가가 데이터 센터에서 "케이블을 한꺼번에 빼내서" 인터넷 연결을 끊은 것 같았습니다.'


Facebook BGP Outage [mjtsai.com]
Just a moment... [blog.cloudflare.com]



Open Wiki - Feel free to edit it. -
10/10 '21 answered

https://twitter.com/WatchandRetweet/status/1445424564696141831


permanent link