banner
홈페이지 / 블로그 / 클라우드 인프라에 대한 Google의 AI 업데이트에 대한 세부정보 • The Register
블로그

클라우드 인프라에 대한 Google의 AI 업데이트에 대한 세부정보 • The Register

Aug 10, 2023Aug 10, 2023

Cloud Next Google은 TPU 업데이트, GPU 옵션, 다양한 소프트웨어 도구를 포함한 수많은 하드웨어 프로젝트를 통해 올해 Cloud Next에서 AI에 매우 중점을 두고 있습니다.

샌프란시스코의 대규모 Moscone Center에서 열린 대유행 이후 첫 번째 대면 행사에서 Google은 최신 Tensor Process Unit AI 가속기인 Cloud TPU v5e와 가상 머신 인스턴스에 대한 세부 정보를 공개했습니다. Nvidia H100 GPU로.

TPU는 기계 학습을 가속화하기 위한 Google의 맞춤형 실리콘이며, Cloud TPU 서비스는 Jax 및 PyTorch를 포함한 다른 프레임워크 외에도 회사의 자체 TensorFlow 기계 학습 프레임워크를 기반으로 합니다.

이전 AI 칩인 TPU v4는 공식적으로 2021년에 출시되었지만 검색 대기업은 몇 년 전에 이를 테스트해 왔습니다.

Google은 Cloud TPU v5e를 통해 Cloud TPU v4와 비교했을 때 LLM(대형 언어 모델) 및 생성 AI에서 달러당 훈련 성능이 2배, 달러당 추론 성능이 2.5배 향상되었다고 주장합니다.

클라우드 거대 기업은 TPUv4 엔진을 사용하여 자체 검색 엔진 및 광고 제공 플랫폼에 대한 추론을 수행합니다.

Google은 TPU 칩 1개부터 단일 슬라이스 내 250개 이상에 이르는 8가지 가상 머신 구성을 제공할 예정입니다.

물론 하드웨어에 관한 전부는 아닙니다. 그들은 Multislice라는 기능을 사용하여 Cloud TPU v5e에서 대규모 AI 워크로드를 처리하기 위한 확장성에 중점을 두고 있습니다. 현재 미리 보기 단계에서는 필요한 경우 사용자가 단일 TPU 포드의 한계를 넘어 모델을 확장하여 수만 개의 TPU 칩을 포함할 수 있도록 개발되었습니다. 이전에는 훈련 작업이 단일 TPU 칩 조각으로 제한되었습니다.

또한 LLM과 같은 까다로운 AI 워크로드를 목표로 하는 Google의 A3 가상 머신 인스턴스는 8개의 Nvidia H100 GPU, 듀얼 4세대 Intel Xeon Scalable 프로세서 및 2TB 메모리를 갖추고 있습니다. 이 인스턴스는 지난 5월 Google IO에서 처음 발표되었지만 이제 다음 달에 출시될 예정이라고 밝혔습니다.

오프로드 네트워크 어댑터와 NCCL(Nvidia Connective Communications Library)로 인해 네트워킹 대역폭이 향상됨에 따라 Google은 A3 가상 머신이 더욱 정교한 AI 모델을 구축하려는 사용자에게 도움이 될 것으로 기대합니다.

Google Next는 또한 컨테이너화된 워크로드를 위한 회사의 관리형 Google Kubernetes Engine(GKE) 서비스의 프리미엄 버전으로 설명되는 GKE Enterprise에 대한 세부 정보를 제공했습니다.

9월 초부터 미리보기로 제공될 GKE Enterprise 에디션은 고객이 유사한 워크로드를 "플릿"으로 그룹화하고 플릿 전체에 맞춤형 구성 및 정책 가드레일을 적용할 수 있는 새로운 멀티 클러스터 기능을 제공한다고 Google은 밝혔습니다.

이 버전에는 워크로드 취약성 통찰력, 거버넌스 및 정책 제어, 관리형 서비스 메시를 포함한 관리형 보안 기능이 함께 제공됩니다. Google의 Anthos 플랫폼에서 가져온 기능을 통해 회사는 GKE Enterprise 에디션이 하이브리드 및 멀티 클라우드 시나리오를 확장하여 사용자가 GKE뿐만 아니라 다른 퍼블릭 클라우드 및 온프레미스에서도 컨테이너 워크로드를 실행할 수 있다고 주장합니다.

또한 GKE 자체는 이제 까다로운 AI 워크로드를 위해 H100 GPU를 갖춘 Cloud TPU v5e와 A3 가상 머신 인스턴스를 모두 지원한다고 Google은 말했습니다.

또한 AI 테마를 이어가면서 Google은 Google 분산 클라우드(GDC) 제품에 추가 기능을 추가하고 클라우드 플랫폼에 대한 온프레미스 확장을 지원하기 위한 업데이트된 하드웨어를 제공하고 있습니다.

세 가지 새로운 AI 및 데이터 제품은 Vertex AI 통합, AlloyDB Omni 및 Dataproc Spark입니다. Vertex 통합을 통해 Vertex Prediction 및 Vertex Pipelines가 GDC 호스팅으로 제공되지만, 이는 2024년 2분기부터 미리보기로만 제공됩니다.

AlloyDB Omni는 새로운 관리형 데이터베이스 엔진으로 트랜잭션 워크로드에 대해 PostgreSQL보다 두 배 빠른 속도를 제공하며 현재 미리 보기로 제공됩니다.

Dataproc Spark는 Apache Spark에서 분석 워크로드를 실행하기 위한 관리형 서비스로, Spark를 직접 배포하는 것보다 사용자에게 더 낮은 비용을 제공한다고 주장됩니다. 4분기부터 미리보기로 제공될 예정입니다.