Domingo, 02 de fevereiro de 2025

Porto Alegre

CADASTRE-SE E RECEBA NOSSA NEWSLETTER

Receba gratuitamente as principais notícias do dia no seu E-mail ou WhatsApp.
cadastre-se aqui

RECEBA NOSSA NEWSLETTER
GRATUITAMENTE

cadastre-se aqui

Tecnologia Pesquisador brasileiro de inteligência artificial explica por que o DeepSeek impressionou: “Fizeram de forma totalmente diferente da maioria das empresas de teconologia”

Compartilhe esta notícia:

A startup chinesa de IA DeepSeek colocou em xeque algumas das principais big techs norte-americanas, como Nvidia, Microsoft e Meta. (Foto: Getty Images)

Poucos dias depois, a equipe por trás da plataforma publicou um relatório técnico de 22 páginas em que avaliava seu desempenho e a colocava no mesmo patamar dos rivais americanos ChatGPT, da OpenAI, e Claude, da Anthropic.

O mundo da tecnologia reagiu inicialmente com ceticismo: quem garantia que o que estava escrito ali era verdade e que não se tratava de mera propaganda do governo chinês?

Esse momento foi breve. À medida que os especialistas foram testando o modelo e entendendo como tinha sido construído, perceberam que de fato rivalizava com os das big techs americanas — e embaralhava a disputa entre EUA e China pelo posto de superpotência da tecnologia.

Uma semana depois, o Vale do Silício entrou em pânico. As ações das 7 principais empresas de tecnologia dos Estados Unidos desidrataram e as Magnificent 7 (Apple, Microsoft, Alphabet (Google), Amazon, Nvidia, Tesla e Meta) perderam US$ 1 trilhão em valor de mercado em 27 de janeiro.

Depois vieram os questionamentos, de que os US$ 5,5 milhões que a empresa afirma ter investido para treinar o modelo eram subestimados, de que o número de chips usados no projeto era maior do que os dois mil divulgados pela companhia.

Na quinta-feira (29), a OpenAI alegou que a DeepSeek usou dados do ChatGPT para treinar seu chatbot, sem dar mais detalhes sobre o caso.

Também repercutiu a autocensura da plataforma, que desconversa e dá respostas como “Desculpe, isso está além do meu escopo atual. Vamos falar de outra coisa” quando questionada sobre temas considerados controversos do ponto de vista da ideologia Partido Comunista Chinês — “O que foi o massacre da Praça Celestial?”, por exemplo.

Mas, para além da alta tensão na arena dos negócios e da geopolítica, a inovação em si trazida pela plataforma impressionou a comunidade científica, ressalta o pesquisador brasileiro Cleber Zanchettin.

Apesar de ter sido comparado ao ChatGPT do ponto de vista da experiência do usuário, por trás das cortinas o DeepSeek é bem distinto do concorrente americano.

“A forma como eles fizeram foi totalmente diferente da maioria das empresas de tecnologia”, diz o professor do Centro de Informática da Universidade Federal de Pernambuco (CIn-UFPE), montado na década de 1980 e hoje um dos líderes em pesquisa em inteligência artificial na América Latina.

Em entrevista à BBC News Brasil, o especialista mergulhou em quatro características que explicam porque o DeepSeek impressionou.

Código aberto

A primeira coisa que chamou atenção foi o código aberto. “Eles contaram coisas que não haviam sido divulgadas por outros fabricantes”, ressalta o professor.

Até então, predominavam entre os modelos de linguagem de grande escala (LLM na sigla em inglês, de “large language models”) os de código fechado, caso do ChatGPT e do Claude, em que toda a engrenagem por trás da interface é mantida em sigilo, e os de pesos abertos, em que alguns dos parâmetros são divulgados, caso do LLaMA, da Meta.

O DeepSeek, segundo Zanchettin, foi além.

“Eles de certa forma publicaram a receita de como você treina o modelo, que é um negócio protegido a sete chaves mesmo por quem publica os modelos em formato de open weights (pesos abertos). Acho que é um diferencial muito grande.”

Antes da chegada do chatbot, os pesquisadores não tinham uma noção muito clara da cadeia de raciocínio para se chegar a modelos mais avançados de inteligência artificial.

Raciocínio explícito

Nesse sentido, ele também aponta como diferencial o mecanismo que detalha o passo a passo do raciocínio em cada uma das respostas que o DeepSeek dá quando o botão “DeepThink” está ativo.

“A maioria das empresas não queria que a gente entendesse direito [como o modelo raciocina], porque isso pode levar você a perceber que ele está fazendo as coisas direito ou que não entendeu nada, e que o resultado é mais ou menos aleatório”, argumenta.

Em um teste feito pela reportagem com uma questão de matemática da segunda fase do vestibular do Instituto Tecnológico da Aeronáutica (ITA) de 2024, o DeepSeek testou uma série de caminhos até chegar no que considerou a resposta correta.

Foi e voltou na linha de pensamento, com expressões como “Calma”, “Espere aí”, “Mas como?”, “Espere, talvez haja um caminho melhor”, “Deixe-me tentar essa abordagem”, “Outra ideia:”, “Isso parece demais, vamos checar novamente”, “Vamos nessa direção”.

Enxergar esse processo, segundo Zanchettin, é útil para os especialistas entenderem melhor a robustez e interpretarem as habilidades do modelo.

“Essa é uma informação bastante relevante do ponto de vista de como o modelo toma decisões.”

Compartilhe esta notícia:

Voltar Todas de Tecnologia

O Uruguai é referência em educação digital; veja o que deu certo
https://www.osul.com.br/pesquisador-brasileiro-em-inteligencia-artificial-explicar-por-que-o-deepseek-impressionou-fizeram-de-forma-totalmente-diferente-da-maioria-das-empresas-de-teconologia/ Pesquisador brasileiro de inteligência artificial explica por que o DeepSeek impressionou: “Fizeram de forma totalmente diferente da maioria das empresas de teconologia” 2025-02-01
Deixe seu comentário
Pode te interessar