Domingo, 02 de fevereiro de 2025
Por Redação O Sul | 1 de fevereiro de 2025
Poucos dias depois, a equipe por trás da plataforma publicou um relatório técnico de 22 páginas em que avaliava seu desempenho e a colocava no mesmo patamar dos rivais americanos ChatGPT, da OpenAI, e Claude, da Anthropic.
O mundo da tecnologia reagiu inicialmente com ceticismo: quem garantia que o que estava escrito ali era verdade e que não se tratava de mera propaganda do governo chinês?
Esse momento foi breve. À medida que os especialistas foram testando o modelo e entendendo como tinha sido construído, perceberam que de fato rivalizava com os das big techs americanas — e embaralhava a disputa entre EUA e China pelo posto de superpotência da tecnologia.
Uma semana depois, o Vale do Silício entrou em pânico. As ações das 7 principais empresas de tecnologia dos Estados Unidos desidrataram e as Magnificent 7 (Apple, Microsoft, Alphabet (Google), Amazon, Nvidia, Tesla e Meta) perderam US$ 1 trilhão em valor de mercado em 27 de janeiro.
Depois vieram os questionamentos, de que os US$ 5,5 milhões que a empresa afirma ter investido para treinar o modelo eram subestimados, de que o número de chips usados no projeto era maior do que os dois mil divulgados pela companhia.
Na quinta-feira (29), a OpenAI alegou que a DeepSeek usou dados do ChatGPT para treinar seu chatbot, sem dar mais detalhes sobre o caso.
Também repercutiu a autocensura da plataforma, que desconversa e dá respostas como “Desculpe, isso está além do meu escopo atual. Vamos falar de outra coisa” quando questionada sobre temas considerados controversos do ponto de vista da ideologia Partido Comunista Chinês — “O que foi o massacre da Praça Celestial?”, por exemplo.
Mas, para além da alta tensão na arena dos negócios e da geopolítica, a inovação em si trazida pela plataforma impressionou a comunidade científica, ressalta o pesquisador brasileiro Cleber Zanchettin.
Apesar de ter sido comparado ao ChatGPT do ponto de vista da experiência do usuário, por trás das cortinas o DeepSeek é bem distinto do concorrente americano.
“A forma como eles fizeram foi totalmente diferente da maioria das empresas de tecnologia”, diz o professor do Centro de Informática da Universidade Federal de Pernambuco (CIn-UFPE), montado na década de 1980 e hoje um dos líderes em pesquisa em inteligência artificial na América Latina.
Em entrevista à BBC News Brasil, o especialista mergulhou em quatro características que explicam porque o DeepSeek impressionou.
Código aberto
A primeira coisa que chamou atenção foi o código aberto. “Eles contaram coisas que não haviam sido divulgadas por outros fabricantes”, ressalta o professor.
Até então, predominavam entre os modelos de linguagem de grande escala (LLM na sigla em inglês, de “large language models”) os de código fechado, caso do ChatGPT e do Claude, em que toda a engrenagem por trás da interface é mantida em sigilo, e os de pesos abertos, em que alguns dos parâmetros são divulgados, caso do LLaMA, da Meta.
O DeepSeek, segundo Zanchettin, foi além.
“Eles de certa forma publicaram a receita de como você treina o modelo, que é um negócio protegido a sete chaves mesmo por quem publica os modelos em formato de open weights (pesos abertos). Acho que é um diferencial muito grande.”
Antes da chegada do chatbot, os pesquisadores não tinham uma noção muito clara da cadeia de raciocínio para se chegar a modelos mais avançados de inteligência artificial.
Raciocínio explícito
Nesse sentido, ele também aponta como diferencial o mecanismo que detalha o passo a passo do raciocínio em cada uma das respostas que o DeepSeek dá quando o botão “DeepThink” está ativo.
“A maioria das empresas não queria que a gente entendesse direito [como o modelo raciocina], porque isso pode levar você a perceber que ele está fazendo as coisas direito ou que não entendeu nada, e que o resultado é mais ou menos aleatório”, argumenta.
Em um teste feito pela reportagem com uma questão de matemática da segunda fase do vestibular do Instituto Tecnológico da Aeronáutica (ITA) de 2024, o DeepSeek testou uma série de caminhos até chegar no que considerou a resposta correta.
Foi e voltou na linha de pensamento, com expressões como “Calma”, “Espere aí”, “Mas como?”, “Espere, talvez haja um caminho melhor”, “Deixe-me tentar essa abordagem”, “Outra ideia:”, “Isso parece demais, vamos checar novamente”, “Vamos nessa direção”.
Enxergar esse processo, segundo Zanchettin, é útil para os especialistas entenderem melhor a robustez e interpretarem as habilidades do modelo.
“Essa é uma informação bastante relevante do ponto de vista de como o modelo toma decisões.”