SABERES TRANSDISCIPLINARES E ORGÂNICOS.
quinta-feira, 4 de junho de 2026
Gartner: Arquiteturas de roteadores reduziram os custos de IA em 85%
Gartner: Arquiteturas de roteadores reduziram os custos de IA em 85%A IA corporativa gastou 37 bilhões de dólares no ano passado. A maior parte foi para os modelos errados. As empresas estão usando inteligência de $20 para tarefas de $0,02. Aqui está o plano que resolve isso: O Projeto do Roteador LLM. Ele direciona cada tarefa de IA para o modelo mais adequado ao menor custo possível. Local GRATUITO quando possível. Baixo custo quando suficiente. Fronteira só quando necessário. A maioria das pessoas ainda usa IA como se fosse 2023. Um modelo. Uma caixa de prompt. Um padrão caro. Tudo é direcionado para o mesmo lugar. Resumos das reuniões. Envie rascunhos por e-mail. Pesquise sobre limpeza. Formatação. Análise simples. Codificação leve. Raciocínio estratégico. Tudo direcionado para o maior modelo. O modelo mais caro. O modelo padrão. Isso não é estratégia. Isso é desperdício de tokens em escala. Implementei isso dentro do nosso próprio fluxo de trabalho. O custo dos tokens caiu 86%. Não porque usamos menos IA. Porque paramos de enviar todas as tarefas para o modelo mais caro. Impacto: • Redução de 86% nos custos dos tokens • Economia anual potencial de $215 mil (Benchmark de tokens de $250K do CEO da NVIDIA) • Mesmos fluxos de trabalho • Mesma capacidade • Roteamento mais inteligente Os operadores mais inteligentes não estão dizendo para as equipes usarem menos IA. Eles estão construindo roteadores de custo/capacidade. Aqui está a arquitetura. 1️⃣ O FILTRO Cada pedido é classificado antes mesmo de tocar em um modelo. É simples? É repetitivo? É sensível? É muito motivativo? É muito exigente em programação? Vale a pena inteligência premium? A maioria das equipes pula essa etapa. É aí que começa o desperdício. 2️⃣ O ROTEADOR O roteador envia cada tarefa para o modelo que melhor se encaixa e pelo menor custo. Trabalho simples é local. Trabalho padrão é de baixo custo. O trabalho privado permanece no dispositivo. Raciocínio complexo vai para a fronteira. A programação avançada se torna especializada. O objetivo não é IA mais barata. O objetivo é inteligência do tamanho certo. 3️⃣ A CAMADA DE ESCALADA Modelos de fronteira ainda importam. Mas eles não deveriam ser a primeira parada. Eles deveriam ser a camada de escalada. Use-os quando o trabalho exigir julgamento. Use-os quando o custo de uma resposta ruim for alto. Use-os quando a complexidade realmente exigir. É assim que você corta gastos sem cortar a capacidade. Não menos IA. Roteamento de IA mais inteligente. Veja o que o Plano do Roteador LLM inclui: • Matriz de decisão de roteamento de modelos • Lógica de classificação de prompts • Pilha local de arranque de modelos • Lista de verificação de escalonamento do modelo fronteira • Lista de repo para as ferramentas que importam • Framework de controle de custos para equipes que usam IA em escala A promessa é simples. Pare de pagar preços de modelo fronteiriço por tarefas de nível estagiário.
Assinar:
Postar comentários (Atom)
Nenhum comentário:
Postar um comentário