Nosso blog

Como o Google "traduz" imagens em palavras usando espaço vetorial?

Os engenheiros do Google estão desenvolvendo uma máquina programada com um algoritmo que escreve legendas de imagem usando as mesmas técnicas utilizadas no Google Tradutor.
Traduzir de uma língua para outra, sempre foi uma tarefa difícil. Mas, nos últimos anos o Google transformou este processo pelo desenvolvimento de algoritmos de tradução automática que alteram a natureza das comunicações inter-culturais através do Google Tradutor.

Agora, a empresa está usando a mesma técnica de auto-aprendizado para traduzir imagens em palavras. O resultado é um sistema que gera automaticamente legendas das figuras que descrevem com precisão o teor de imagens. Isso é algo que será útil para os motores de busca, para publicação automatizada e para ajudar os deficientes visuais a navegarem na web.


Imagem de uma barraca de verduras sendo traduzida em palavras


A abordagem convencional para tradução de idiomas é um processo iterativo que começa por traduzir palavras individualmente e, em seguida, reordenando as palavras e frases para melhorar a tradução. Mas nos últimos anos, o Google tem trabalhado em como usar seu enorme banco de dados para traduzir o texto de uma forma totalmente diferente.
A abordagem é essencialmente sobre contar quantas vezes palavras aparecem ao lado, ou perto de outras palavras e, em seguida, defini-las em um espaço abstrato do vetor em relação ao outro. Isso permite cada palavra ser representada por um vetor nesse espaço e sentenças serem representadas por uma combinação de vetores.

Google passa a fazer uma suposição importante: palavras específicas têm a mesma relação uma à outra, independentemente da língua. Por exemplo, o vetor "rei - homem + mulher = rainha" deve ser verdade em todas as línguas.

Isso faz tradução de um problema de matemática de espaço vetorial. O Google Tradutor se aproxima dela, transformando uma frase em um vetor e, em seguida, usando esse vetor para gerar a sentença equivalente em outro idioma.

Agora a Oriol Vinyals e parceiros no Google estão usando uma abordagem semelhante para traduzir as imagens em palavras. A sua técnica é a utilização de uma rede neural para estudar um conjunto de dados de 100.000 imagens e suas legendas e assim aprendem a classificar o conteúdo das imagens.

Mas, em vez de produzir um conjunto de palavras que descrevem a imagem, o seu algoritmo produz um vetor que representa a relação entre as palavras. Este vetor pode ser encaixado num algoritmo de tradução existente do Google para produzir uma legenda em Inglês, ou mesmo em qualquer outra língua. Com efeito, a abordagem de aprendizado de máquina do Google aprendeu a "traduzir" as imagens em palavras.

Para testar a eficácia desta abordagem, eles usaram avaliadores humanos recrutados a partir da Amazon Mechanical Turk para classificar legendas geradas automaticamente juntamente com os gerados por outras abordagens automatizadas e por seres humanos.
Os resultados mostram que o novo sistema chamado "Legenda Neural" claramente superam outras abordagens automatizadas.

Claramente, esta é mais uma tarefa para a qual os dias de supremacia humana sobre as máquinas estão contados.

* Texto adaptado do original "How Google Translates Pictures into Words Using Vector Space Mathematics" do MIT Technology Review, por Leonardo Arnauld, Programador Sênior da Go2web.

comentários via Disqus