O que é a visão por computador?
A visão computacional é uma tecnologia que as máquinas usam para reconhecer imagens automaticamente e descrevê-las com precisão e eficiência. Hoje, os sistemas de computador têm acesso a um grande volume de imagens e dados de vídeo provenientes ou criados por smartphones, câmeras de trânsito, sistemas de segurança e outros dispositivos. As aplicações de visão computacional usam inteligência artificial e machine learning (IA/ML) para processar esses dados com precisão para identificação de objetos e reconhecimento facial, bem como classificação, recomendação, monitoramento e detecção.
Por que a visão computacional é importante?
Embora a tecnologia de processamento de informações visuais já exista há algum tempo, grande parte do processo exigia intervenção humana, era demorado e propenso a erros. Por exemplo, a implementação de um sistema de reconhecimento facial no passado exigia que os desenvolvedores marcassem manualmente milhares de imagens com pontos de dados importantes, como a largura da ponte nasal e a distância entre os olhos. A automatização dessas tarefas exigia uma grande capacidade computacional porque os dados de imagem são não estruturados e a organização deles pelos computadores é complexa. Portanto, as aplicações de visão eram caras e inacessíveis para a maioria das organizações.
Hoje, o progresso no campo, combinado com um aumento considerável no capacidade computacional, melhorou a escala e a precisão do processamento de dados de imagem. Os sistemas de visão computacional baseados em recursos de computação em nuvem agora estão acessíveis a todos. Qualquer organização pode usar a tecnologia para verificação de identidade, moderação de conteúdo, análise de streaming de vídeo, detecção de falhas e muito mais.
Quais são os casos de uso da visão computacional?
Várias aplicações de visão computacional são usadas em entretenimento, negócios, saúde, transporte e na vida cotidiana. Analisamos alguns casos de uso abaixo:
Segurança e proteção
Governos e empresas usam a visão computacional para melhorar a segurança de ativos, sites e instalações. Por exemplo, câmeras e sensores monitoram espaços públicos, instalações industriais e ambientes de alta segurança. Eles enviam alertas automáticos se algo fora do comum ocorrer, como uma pessoa não autorizada entrar em uma área restrita.
Da mesma forma, a visão computacional pode melhorar a segurança pessoal em casa e no local de trabalho. Por exemplo, a tecnologia de reconhecimento pode monitorar inúmeros problemas relacionados à segurança. Isso inclui transmissões em tempo real do interior das casas para detectar animais de estimação, ou câmeras ao vivo na porta da frente para detectar visitantes ou entrega de encomendas. No local de trabalho, esse monitoramento inclui o uso de equipamento de proteção individual apropriado pelos trabalhadores, sistemas de alerta informativos ou geração de relatórios.
Eficiência operacional
A visão computacional pode analisar imagens e extrair metadados para inteligência de negócios, criando novas oportunidades de receita e eficiências operacionais. Por exemplo, ela pode:
- Identificar automaticamente defeitos de qualidade antes que produtos saiam da fábrica;
- Detectar problemas de manutenção e segurança em máquinas;
- Analisar imagens de mídias sociais para descobrir tendências e padrões no comportamento de clientes;
- Autenticar funcionários com reconhecimento facial automático.
Saúde
O setor de saúde é um dos principais setores que aplicam a tecnologia de visão computacional. Em particular, a análise de imagens médicas cria uma visualização de órgãos e tecidos para ajudar os profissionais da saúde a fazer diagnósticos rápidos e precisos, resultando em melhores resultados de tratamento e expectativa de vida. Por exemplo:
- Detecção de tumores por meio da análise de verrugas e lesões cutâneas;
- Análise automática de raios-X;
- Descoberta de sintomas a partir de exames de ressonância magnética.
Veículos autônomos
A tecnologia de veículos autônomos usa a visão computacional para reconhecer imagens em tempo real e criar mapas 3D a partir de várias câmeras instaladas no transporte autônomo. Ela pode analisar imagens e identificar outros usuários na estrada, sinais de trânsito, pedestres ou obstáculos.
Em veículos semiautônomos, a visão computacional usa machine learning (ML) para monitorar o comportamento do motorista. Por exemplo, ela procura sinais de distração, fadiga e sonolência com base na posição da cabeça do motorista, no rastreamento ocular e nos movimentos da parte superior do corpo. Se a tecnologia detectar certos sinais de alerta, o motorista é alertado e a chance de ocorrer um acidente de trânsito é reduzida.
Agricultura
Desde o aumento da produtividade até a redução de custos com automação inteligente, as aplicações de visão computacional aprimoram o funcionamento geral do setor agrícola. Imagens de satélite e de VANT ajudam a analisar vastas extensões de terra e a melhorar as práticas agrícolas. As aplicações de visão computacional automatizam tarefas como monitorar as condições do campo, identificar doenças nas plantações, verificar a umidade do solo e prever o clima e a produtividade das safras. O monitoramento de animais com visão computacional é outra estratégia fundamental da agricultura inteligente.
Como funciona a visão computacional?
Os sistemas de visão computacional usam a tecnologia de inteligência artificial (IA) para imitar as capacidades do cérebro humano que são responsáveis pelo reconhecimento e classificação de objetos. Cientistas da computação treinam computadores para reconhecer dados visuais inserindo grandes quantidades de informações. Os algoritmos de machine learning (ML) identificam padrões comuns nessas imagens ou vídeos e aplicam esse conhecimento para identificar imagens desconhecidas com precisão. Por exemplo, se os computadores processarem milhões de imagens de carros, eles começarão a criar padrões de identidade que possam detectar com precisão um veículo em uma imagem. A visão computacional usa tecnologias como as apresentadas abaixo.
Aprendizado profundo
O aprendizado profundo é um tipo de ML que usa redes neurais. As redes neurais de aprendizado profundo são compostas de muitas camadas de módulos de software chamados neurônios artificiais que trabalham juntos dentro do computador. Elas usam cálculos matemáticos para processar automaticamente diferentes aspectos dos dados da imagem e desenvolver gradualmente uma compreensão combinada da imagem.
Redes neurais convolucionais
As redes neurais convolucionais (CNNs) utilizam um sistema de rotulagem para categorizar dados visuais e compreender toda a imagem. Elas analisam imagens como pixels e atribuem a cada pixel um valor de rótulo. O valor é inserido para realizar uma operação matemática chamada convolução e fazer previsões sobre a imagem. Como um humano tentando reconhecer um objeto à distância, a CNN primeiro identifica contornos e formas simples antes de preencher detalhes adicionais, como cor, formas internas e textura. Por fim, ela repete o processo de previsão em várias iterações para melhorar a precisão.
Redes neurais recorrentes
As redes neurais recorrentes (RNNs) são semelhantes às CNNs, mas podem processar uma série de imagens para encontrar ligações entre elas. Embora as CNNs sejam usadas para análise de imagem única, as RNNs podem analisar vídeos e entender as relações entre as imagens.
Qual é a diferença entre a visão computacional e o processamento de imagem?
O processamento de imagens usa algoritmos para alterar imagens, incluindo nitidez, suavização, filtragem ou aprimoramento. A visão computacional é diferente, pois não altera uma imagem, mas dá sentido ao que vê e realiza tarefas, como a rotulagem. Em alguns casos, você pode usar o processamento de imagem para modificar uma imagem para que um sistema de visão computacional possa entendê-la melhor. Em outros casos, você usa a visão computacional para identificar imagens ou partes de uma imagem e, em seguida, usa o processamento de imagem para modificá-la ainda mais.
Quais são as tarefas comuns que a visão computacional pode realizar?
Vejamos abaixo alguns exemplos de tarefas de visão computacional que as organizações podem implementar.
Classificação de imagens
A classificação de imagens permite que os computadores vejam uma imagem e classifiquem com precisão em qual classe ela se enquadra. A visão computacional entende as classes e as rotula, por exemplo, como árvores, aviões ou edifícios. Um exemplo prático é uma câmera reconhecer rostos em uma fotografia e focar neles.
Detecção de objetos
A detecção de objetos é uma tarefa de visão computacional para detectar e localizar imagens. Ela usa classificação para reconhecer, classificar e organizar imagens. A detecção de objetos é usada em processos industriais e de fabricação para controlar aplicações autônomas e monitorar linhas de produção. Fabricantes de câmeras domésticas conectadas e prestadores de serviços também contam com a detecção de objetos para processar transmissões de vídeo ao vivo de câmeras para detectar pessoas e objetos em tempo real e fornecer alertas acionáveis aos usuários finais.
Rastreamento de objetos
O rastreamento de objetos usa modelos de aprendizado profundo para identificar e rastrear itens pertencentes a categorias. Ele tem várias aplicações práticas em diversos setores. O primeiro elemento do rastreamento de objetos é a detecção de objetos; uma caixa delimitadora é criada em torno do objeto, que recebe uma ID de objeto e pode ser rastreado por meio de quadros. Por exemplo, o rastreamento de objetos pode ser usado para monitoramento de tráfego em ambientes urbanos, vigilância humana e exames de imagens médicas.
Segmentação
A segmentação é um algoritmo de visão computacional que identifica um objeto dividindo imagens dele em diferentes regiões com base nos pixels detectados. A segmentação também simplifica uma imagem, por exemplo, colocando uma forma ou contorno em um item para determinar o que é. Ao fazer isso, a segmentação também reconhece se há mais de um objeto em uma imagem ou quadro.
Por exemplo, se houver um gato e um cachorro em uma imagem, a segmentação pode ser usada para reconhecer os dois animais. Diferentemente da detecção de objetos, que cria uma caixa ao redor de um objeto, a segmentação rastreia pixels para determinar a forma de um objeto, facilitando a análise e a rotulagem.
Recuperação de imagens baseada em conteúdo
A recuperação de imagens baseada em conteúdo é uma aplicação de técnicas de visão computacional que pode pesquisar imagens digitais específicas em grandes bancos de dados. Ela analisa metadados como tags, descrições, rótulos e palavras-chave. A recuperação semântica usa comandos como “encontrar imagens de edifícios” para recuperar o conteúdo determinado.
Como a AWS ajuda você nas tarefas de visão computacional?
A AWS fornece o conjunto mais amplo e completo de serviços de inteligência artificial e machine learning (IA/ML) conectados a um conjunto abrangente de fontes de dados para clientes de todos os níveis de especialização.
Para clientes que criam estruturas e gerenciam sua própria infraestrutura, otimizamos as versões das estruturas de aprendizado profundo mais populares, incluindo PyTorch, MXNet e TensorFlow. A AWS fornece um portfólio amplo e profundo de serviços de ML de infraestrutura de computação, rede e armazenamento, com uma variedade de processadores e aceleradores para atender às necessidades exclusivas de desempenho e orçamento.
Para clientes que desejam criar uma solução de visão computacional padrão em seus negócios, o Amazon SageMaker facilita a preparação de dados e a criação, treinamento e implantação de modelos de ML para qualquer caso de uso com infraestrutura, ferramentas e fluxos de trabalho totalmente gerenciados, incluindo ofertas sem código para analistas de negócios.
Para clientes que não possuem habilidades de ML, precisam de um tempo de lançamento no mercado mais rápido ou desejam adicionar inteligência a um processo ou aplicação já existente, a AWS oferece uma variedade de serviços de visão computacional baseados em ML. Esses serviços permitem que você adicione facilmente inteligência às suas aplicações de IA por meio de APIs pré-treinadas. A Amazon Rekognition automatiza a análise de imagem e vídeo com ML e analisa milhões de imagens, transmissões ao vivo e vídeos armazenados em segundos. A Amazon Deep Lens é a primeira câmera de vídeo com aprendizado profundo do mundo para que os desenvolvedores aprendam os fundamentos de aprendizado profundo por meio de projetos de visão computacional, tutoriais e exploração prática do mundo real com um dispositivo físico.
Comece a usar a visão computacional criando uma conta gratuita na AWS hoje mesmo.
Próximas etapas na AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.