Consultório MenosFios: Saiba tudo sobre a IA DeepSeek

109

A startup chinesa DeepSeek lançou um modelo de IA capaz de rivalizar com a tecnologia da OpenAI e Google, mas com um orçamento muito inferior. A tecnologia coloca em causa os avultados investimentos no treino da inteligência artificial e o preço dos modelos de negócio.

O DeepSeek se destaca pela qualidade semelhante ao que a OpenAI, Google e Meta têm apresentado ao mundo, no entanto, apresenta uma capacidade para reduzir custos de treino e maior eficiência, o que pode redefinir as verdadeiras regras do jogo da IA.

Tudo indica que o mundo ocidental foi apanhado de surpresa pela capacidade da startup chinesa, levando mesmo as principais gigantes tecnológicas a darem um trambolhão em Wall Street. Pior ficou a Nvidia, que depois do crescimento meteórico, ultrapassando a Apple em valorização, caiu de forma aparatosa, perdendo 600 mil milhões de dólares numa única sessão, ou seja, 17% do seu valor, batendo o recorde da maior queda de sempre de uma empresa dos Estados Unidos, aponta a CNBC.

Esta parece ser a resposta da China, poucos dias depois dos Estados Unidos terem imposto restrições às exportações de chips de inteligência artificial produzidos no país. A Rússia e a China estão numa lista negra restrita, mas a administração de Trump decidiu trancar ainda mais o acesso ao resto do mundo, excetuando um grupo de países que considera aliados estratégicos, onde Portugal e muitos Estados da União Europeia estão de fora.

Por outro lado, o executivo dos Estados Unidos pretende investir 500 mil milhões de dólares na tecnologia. A questão que se coloca agora é se será necessário tanto dinheiro para alcançar a supremacia da IA pelos Estados Unidos.

Afinal quem é a DeepSeek? Quanto custam os modelos de treino? E como veio abalar o mundo tecnológico? No Consultório MenosFios de hoje fique a conhecer melhor a startup chinesa que promete continuar a dar que falar.

Quem é a DeepSeek?

A DeepSeek é uma empresa privada chinesa, fundada apenas em julho de 2023 por Liang Wenfeng, formado na Universidade de Zhejiang, em engenharia eletrónica. Segundo o MIT Technology Review, a sua startup foi incubada na High-Flyer, um fundo hedge (fundos de protecção ou cobertura de risco) que o próprio fundou em 2015.

O objetivo da DeepSeek, à semelhança da OpenAI de Sam Altaman, é construir um modelo AGI (Inteligência artificial Geral), uma forma de IA capaz de igualar e até ultrapassar a inteligência humana em diversas tarefas.

A equipa é composta por jovens recém-formados nas melhores universidades chinesas, fomentando uma cultura de inovação. É apontado que a empresa dá prioridade às habilidades técnicas do que a tradicional experiência de trabalho. Isso garante a união de um grupo composto por indivíduos com muita habilidade, mas igualmente com uma perspetiva refrescante no desenvolvimento de inteligência artificial.

Como é que a DeepSeek contornou as sanções dos Estados Unidos?

Por incrível que pareça, apesar do anúncio do modelo DeepSeek R1 ter afundado a Nvidia em Wall Street, para conseguir obter a capacidade de processamento para treinar o modelo a startup tem como base os chips A100 da Nvidia. Liang Wenfeng terá conseguido assegurar um stock de processadores antes dos Estados Unidos proibirem a Nvidia de exportar os chips para a China em setembro de 2022.

Estima-se que a DeepSeek tenha conseguido juntar 10 mil chips A100, mas o número parece bem superior, cerca de 50 mil, segundo o analista Dylan Patel, fundador da empresa de consultaria de IA, SemiAnalysis.

Como evoluíram os modelos de IA da DeepSeek?

Um dos pontos de destaque do DeepSeek R1, o modelo que tem estado na boca do mundo, é a sua melhor capacidade de aprendizagem e maior eficiência no uso de memória. Mas até aqui chegar, a empresa lançou outros modelos. O primeiro foi o DeepSeek Coder em novembro de 2023, um modelo open source desenhado para programar tarefas. Seguiu-se o modelo DeepSeek LLM com 67 mil milhões de parâmetros, criado para competir com outros modelos de linguagem de grande escala.

Em maio de 2024 foi lançado o DeepSeek-V2, que já tinha sido elogiado pela grande performance e baixo custo. Este modelo gerou mesmo uma agitação da concorrência na China, em que o preço disruptivo enfrentou as gigantes tecnológicas como a ByteDance, Tencent, Baidu e Alibaba, levando-as a baixarem o preço das suas ofertas para se manterem competitivas.

A evolução dos modelos da DeepSeek é palpável, com o DeepSeek-Coder-V2 a conseguir gerar 236 mil milhões de parâmetros. Como explica a Forbes, o modelo foi desenhado para ultrapassar desafios complexos de programação.

Atualmente, a empresa está a desenvolver os seus mais recentes modelos, o DeepSeek-V3 e o DeepSeek-R1. O V3 tem capacidade de 671 mil milhões de parâmetros, sendo apontado como muito eficiente em relação à concorrência e uma grande performance.

Já o DeepSeek-R1, lançado esta semana, assume-se a par com a performance do OpenAI 01. Estes são modelos de “outro campeonato”, os tais que procuram alcançar o AGI: são mais lentos a processar, mas oferecem respostas mais eficientes.

A empresa também tem na sua lista de oferta o DeepSeek-R1 Distill, versões mais ligeiras em open source, mas altamente capazes. A empresa oferece modelos até 32 e 70 mil milhões de parâmetros, referindo que estão a par com o OpenAI 01 mini.

Ao contrário dos métodos tradicionais que se baseiam em afinações supervisionadas, o DeepSeek utiliza a chamada aprendizagem reforçada. Os modelos aprendem através de tentativa e erro, melhorando automaticamente através de recompensas algorítmicas. O modelo aprende através da interação com o seu ambiente, recebendo feedback das suas ações, um pouco semelhante ao processo dos humanos que aprendem através da experiência.

Como aponta a Forbes, este formato permite desenvolver maiores capacidades de raciocínio e adaptar-se a novas situações de forma mais eficiente. Esta técnica aproxima-se da nova abordagem de treino dos modelos  com computação de inferência (inference-time computing), que pode ser a solução para a questão de os dados úteis da internet para treino terem sido esgotados.

Esta nova computação é uma técnica que fatia os pedidos em tarefas mais pequenas, transformando cada uma numa nova prompt para o modelo resolver. Cada passo obriga a um novo pedido, que aqui é conhecido como fase de inferência.

No caso da DeepSeek-R1, é explicado que o modelo ativa apenas uma pequena fração dos seus parâmetros para determinada tarefa, tal como na computação de inference-time. Esta ativação seletiva permite uma redução significativa de custos computacionais, melhorando a sua eficiência.

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui