Ingestão do Amazon OpenSearch

Realize a ingestão, a transformação e o encaminhamento de dados em grande escala para o Amazon OpenSearch Domains e coleções do Amazon OpenSearch Sem Servidor

Por que usar a ingestão do Amazon OpenSearch Service?

A ingestão do Amazon OpenSearch é um recurso do Amazon OpenSearch Service que permite ingerir, filtrar, transformar, enriquecer e encaminhar dados para um domínio do Amazon OpenSearch ou coleção do Amazon OpenSearch Sem Servidor. A ingestão do Amazon OpenSearch é capaz de ingerir dados de uma grande variedade de fontes e tem um rico ecossistema de processadores integrados para atender às suas necessidades mais complexas de transformação de dados. A ingestão do Amazon OpenSearch usa tecnologia sem servidor e será escalada automaticamente para atender aos requisitos de suas workloads mais exigentes, ajudando você a se concentrar em sua lógica de negócios e, ao mesmo tempo, eliminar a complexidade de gerenciar pipelines de dados complexos para seus casos de uso de observabilidade e segurança.

Benefícios do Amazon OpenSearch Service

Obtenha reduções nos custos de armazenamento desduplicando, obtendo amostras e encaminhando dados ruidosos para reduzir os custos de armazenamento.
Reforce a qualidade dos dados transformando, filtrando e enriquecendo os dados com processadores integrados e adotando esquemas para acelerar a observabilidade e reduzir os tempos de investigação de segurança.
Proteja dados confidenciais editando e ofuscando informações confidenciais antes que elas cheguem ao destino.
Encaminhe dados usando lógica condicional para manter a conformidade com as leis de residência de dados.

Principais recursos

A AWS é uma das principais colaboradoras do projeto OpenSearch, utilizado por muitos clientes. Você obterá todas as inovações do OpenSearch Data Prepper nesse serviço gerenciado. Além desses recursos, que a comunidade promove e com os quais contribui, o Serviço de ingestão do Amazon OpenSearch também traz os seguintes recursos:

  • Instalação de software e aplicação de patches gerenciadas pela AWS
  • A AWS monitora e repara o serviço 24 horas por dia, 7 dias na semana
  • A AWS faz upgrades de versões
  • Nenhum período de inatividade para atualizações e upgrades
  • Acordo de nível de serviço de disponibilidade: 99,9%
  • Sem servidor, com ajuste de escala automático para workloads de ingestão

Clientes e parceiros

Avaliação do cliente CyberArk

"No CyberArk EPM (Endpoint Privilege Manager), um sistema multilocatário baseado em nuvem, gerenciamos milhões de endpoints e coletamos eventos de dados de alto tráfego usando o AWS OpenSearch. Ao aproveitar a ingestão do Amazon OpenSearch, substituímos nosso pipeline autogerenciado anterior do Logstash por um gerenciado pela AWS, o que eliminou a carga de gerenciar nossa própria infraestrutura e nos proporcionou uma arquitetura mais escalável, econômica, confiável e segura para nossa ingestão de dados. Essa decisão foi tomada com a vantagem adicional de o CyberArk EPM alcançar o status FedRAMP High In-Process, enquanto a ingestão do Amazon OpenSearch já está em conformidade com o FedRAMP, o que nos permite manter um alto nível de segurança em nossa oferta."

Ori Doolman, arquiteto de software sênior, CyberArk EPM

Logotipo da CyberArk

Avaliação do cliente Calyptia

"Na Calyptia, trabalhamos com ingestão de dados há mais de 12 anos como criadores e mantenedores do projeto Cloud Native Computing Foundation, Fluentd e Fluent Bit. Com as versões mais recentes desses projetos, estamos entusiasmados com o fato de os usuários obterem mais controle em sua primeira etapa com a combinação dos projetos Fluent e do Serviço de ingestão do OpenSearch. Com o serviço de ingestão, os usuários podem continuar a escalar os agentes e o processamento sem precisar se preocupar com o gerenciamento e a manutenção da infraestrutura.”

Anurag Gupta, cofundador da Calyptia

Logotipo da Calyptia

Avaliação do cliente Confluent

"Estamos entusiasmados com a parceria com a equipe do Amazon OpenSearch conforme o serviço de ingestão do OpenSearch é desenvolvido, i que fornecerá uma integração nativa com o Apache Kafka e o Confluent. Essa integração ajudará nossos clientes conjuntos a acessar dados em tempo real por meio do Apache Kafka dentro do OpenSearch, para que possam repensar as experiências dos clientes, criar operações de back-end em tempo real ou lançar novos produtos e serviços. Como principal colaboradora do Apache Kafka, a Confluent superou o Kafka ao criar uma plataforma de streaming de dados completa e nativa de nuvem que permite mover dados de onde quer que sejam criados para onde as empresas possam agir no mundo multi-SaaS em que todos vivemos. Isso permite que os usuários do OpenSearch se beneficiem das centenas de fontes de dados às quais o Confluent está integrado. Estamos animados em ver o que nossos clientes conjuntos criam à medida que colocam os dados em movimento com o Confluent e o OpenSearch.”

Paul Mac Farland, vice-presidente de parceiros e ecossistema de inovação, Confluent

logotipo da confluent

Perguntas frequentes sobre ingestão

A ingestão do Amazon OpenSearch é um nível de ingestão de dados que permite filtrar, enriquecer, transformar, normalizar e agregar dados para análise e visualização posteriores nos domínios do Amazon OpenSearch e nas coleções do Amazon OpenSearch Sem Servidor. A ingestão do Amazon OpenSearch permite que você crie pipelines de dados personalizados para melhorar a visão operacional de suas aplicações. A natureza sem servidor da ingestão do Amazon OpenSearch elimina as complexidades do autogerenciamento de pipelines de dados e garante que os recursos de processamento de seus pipelines de dados sejam escalados automaticamente de acordo com as demandas de suas workloads. Com a ingestão do Amazon OpenSearch, você pode:

  • Obter reduções nos custos de armazenamento por meio da desduplicação de dados e da amostragem para evitar que dados ruidosos sejam indexados no Amazon OpenSearch.
  • Reforçar a qualidade dos dados e adotar esquemas comuns transformando, formatando e enriquecendo os dados antes de serem indexados nos domínios do Amazon OpenSearch, facilitando a solução de problemas.
  • Remover ou ofuscar informações confidenciais antes que elas cheguem a um destino, permitindo a conformidade com as leis de residência de dados.

Um pipeline de ingestão do Amazon OpenSearch consiste em três componentes principais:

  • A fonte é o componente de entrada de um pipeline. Ela define o mecanismo pelo qual um pipeline consome registros. A fonte pode consumir registros recebendo dados por http/s ou lendo de endpoints externos de tercediros.
  • Os processadores são unidades de processamento intermediárias que podem filtrar, transformar e enriquecer registros no formato desejado antes de publicá-los no coletor. O processador é um componente opcional de um pipeline. Se você não definir um processador, os registros serão publicados no formato definido na fonte. Você pode ter mais de um processador. Os processadores são executados na ordem em que você os define no pipeline.
  • O coletor é o componente de saída de um pipeline. Ele define um ou mais destinos nos quais um pipeline publica registros. Um coletor também pode ser outro pipeline, o que permite que você conecte vários pipelines.

O Amazon OpenSearch suporta a ingestão de todos os tipos de dados que você normalmente indexaria em um domínio do Amazon OpenSearch. Isso inclui, mas não se limita a dados estruturados, não estruturados, textuais, numéricos e geoespaciais. A ingestão do OpenSearch também suporta a ingestão de todos os três pilares dos dados de observabilidade: logs, métricas e rastreamentos. Você pode usar a ingestão do OpenSearch junto com seu suporte a um rico ecossistema de fontes de dados, processadores e coletores para transformar seus dados antes de armazená-los nos domínios do Amazon OpenSearch. Com a ingestão do OpenSearch, você não precisa mais escrever uma função do Lambda personalizada ou autogerenciar os nós de ingestão do Logstash e do Elasticsearch para ingerir dados que precisam ser indexados nos clusters do Amazon OpenSearch. Consulte nossa página de documentação para ver a lista de fontes, processadores e coletores compatíveis com a ingestão do Amazon OpenSearch.

A ingestão do Amazon OpenSearch é um nível de ingestão de dados que pré-processa os dados antes de serem indexados no Amazon OpenSearch Service. A ingestão do OpenSearch foi desenvolvida com o Data Prepper, que é um componente do projeto OpenSearch e oferece suporte a todos os formatos de dados, fontes, processadores e coletores suportados pelo Data Prepper.

Para começar a usar a ingestão do Amazon OpenSearch, você deve definir um pipeline de dados. Um pipeline de ingestão do OpenSearch é o núcleo de sua lógica de negócios e consiste em uma fonte, um único processador ou uma série deles e um coletor. Você define a configuração do pipeline por meio de um arquivo YAML que contenha detalhes de sua fonte, processadores e coletores. A ingestão do OpenSearch também permite que você configure uma capacidade mínima e máxima das Unidades de Computação para Ingestão (OCUs) do OpenSearch que você deseja definir por pipeline. Finalmente, você pode escolher como seus dados chegam aos pipelines de ingestão do OpenSearch:

  • Acesso à VPC: para acesso à VPC, estabelecemos um link privado da sua VPC para o pipeline de ingestão do Amazon OpenSearch. Isso fornece conectividade privada aos seus pipelines sem expor seu tráfego à Internet pública.
  • Acesso público: nessa configuração de rede, seus dados para seus pipelines do OpenSearch fluem pela Internet pública.

Você pode começar a criar um pipeline de dados por meio do console da AWS ou da linha de comando da AWS.