A Amazon Web Services (AWS), uma empresa da Amazon.com, acaba de anunciar o Redshift Spectrum, um novo recurso que permite que os clientes do Amazon Redshift executem consultas SQL em seus exabytes de dados armazenados no Amazon Simple Storage Service (Amazon S3). Com o Redshift Spectrum, os clientes podem estender o poder analítico do Amazon Redshift para além dos dados armazenados em discos locais em seu data warehouse para consultar grandes quantidades de dados não estruturados que estão armazenados em seu "data lake" no Amazon S3 ? sem ter que carregar ou transformar dados.
O Redshift Spectrum aplica uma sofisticada otimização de consulta, dimensionando o processamento por milhares de nodes, de modo que os resultados são rápidos ? mesmo com grandes conjuntos de dados e consultas complexas.
O Amazon Redshift é um dos serviços de maior crescimento da AWS, porque permite que os clientes realizem, com um desempenho super-rápido, consultas complexas em petabytes de dados estruturados armazenados em discos locais de alto desempenho ? tudo por um décimo do custo dos data warehouses tradicionais. No entanto, como o custo de armazenamento de dados continuou a cair, os clientes estão cada vez mais armazenando grandes quantidades de dados no "data lake" do Amazon S3, incluindo dados não estruturados que talvez poderão nunca serem enviados a um data warehouse.
Agora, com o Redshift Spectrum, analisar todos esses dados é tão fácil quanto executar uma consulta SQL padrão com o Amazon Redshift. O Redshift Spectrum consulta diretamente os dados no Amazon S3, sem necessitar carregá-los ou transformá-los, mantendo os formatos de dados abertos que os clientes já utilizam, como CSV, TSV, Parquet, Sequence e RCFile. Como o Redshift Spectrum suporta a mesma sintaxe SQL do Amazon Redshift, os clientes podem executar consultas sofisticadas usando as mesmas ferramentas de Business Intelligence (BI) que utilizam hoje. Eles também podem executar consultas que abrangem os dados frequentemente acessados que estão armazenados localmente no Amazon Redshift e também os seus conjuntos de dados armazenados de forma econômica no Amazon S3. O Redshift Spectrum dimensiona automaticamente a capacidade de computação de consulta com base nos dados que estão sendo acessados, de modo que as consultas realizadas nos dados armazenados no Amazon S3 são executadas rapidamente, seja no processamento de apenas alguns terabytes, petabytes ou até mesmo de exabytes.
"Clientes como Amgen, Boingo Wireless, Electronic Arts, Hearst, Lyft, Nasdaq, Scholastic, TripAdvisor e Yahoo! estão migrando para o Amazon Redshift porque ele aproveita a escala da AWS para analisar petabytes de dados com dez vezes o desempenho à um décimo do custo dos data warehouses da velha guarda. Muitos desses clientes nos pediram para estender a velocidade e a flexibilidade do Amazon Redshift para além do data warehouse, para analisar todos os dados que possuem no Amazon S3", diz Raju Gulabani, vice-presidente de Bases de Dados, Análises e IA da AWS. "O Redshift Spectrum faz exatamente isso, oferecendo o melhor dos dois mundos, tornando incrivelmente fácil a consulta de exabytes de dados armazenados no Amazon S3 ? diretamente do Amazon Redshift. Estamos entusiasmados por agora tornarmos as análises em escala de exabyte rápidas, simples e acessíveis para empresas de todos os tamanhos".
O NTT DOCOMO, com sede em Tóquio, é o maior provedor de serviços móveis do Japão, atendendo a mais de 68 milhões de clientes. "A nossa plataforma de análise de dados coleta diariamente dezenas de terabytes de dados de registro de uma variedade de fontes internas e externas para nos ajudar a melhorar as nossas operações de logística e marketing. A migração para o Amazon Redshift há dois anos permitiu que escalássemos para mais de dez petabytes de dados descompactados, com uma melhora de desempenho de dez vezes em relação ao nosso sistema anterior que existia no local", diz Mick Etoh, vice-presidente sênior e gerente geral do Departamento de Gestão de Inovação do NTT DOCOMO. "O Redshift Spectrum nos permitirá, com o tempo, expandir para centenas de petabytes o universo dos dados que analisamos. Esta é verdadeiramente uma mudança decisiva, e não conhecemos nenhum outro sistema do mundo que possa nos proporcionar isso".
O Yelp conecta pessoas a grandes empresas locais e lhes fornece opiniões aprofundadas em 32 países. "O Yelp gera bilhões de eventos analíticos todos os dias em nossos 24 milhões em média de usuários únicos mensais de aplicativos móveis, 65 milhões em média de visitantes únicos mensais do site em dispositivos móveis e 73 milhões em média de visitantes únicos mensais em desktops em 31 de dezembro de 2016. A nossa migração para dispositivos móveis sobrecarregou a nossa infraestrutura de análise, já que nossos usuários de aplicativos para dispositivos móveis têm dez vezes mais engajamento do que os usuários do nosso site", diz Justin Cunningham, líder técnico da Equipe de Engenharia de Software do Yelp. "O Redshift Spectrum desbloqueia o acesso analítico aos nossos dados que estão no Amazon S3, reduzindo para segundos o tempo de obtenção de insights de grandes conjuntos de dados. Isso possibilitará muitos mais casos de uso do que os que servimos hoje ? várias equipes diferentes agora podem consultar os mesmos conjuntos de dados no Amazon S3 usando o Amazon Redshift e o Amazon EMR".