Comece a construir com Gemini 2.5 Flash

Comece a construir com Gemini 2.5 Flash

Hoje estamos lançando uma versão inicial de Gêmeos 2.5 Flash em visualização Através da API de Gemini via Google AI Studio e Vértice ai. Com base na base popular do 2.0 Flash, esta nova versão oferece uma grande atualização nos recursos de raciocínio, enquanto prioriza a velocidade e o custo. O Gemini 2.5 Flash é o nosso primeiro modelo de raciocínio totalmente híbrido, dando aos desenvolvedores a capacidade de ativar ou desativar o pensamento. O modelo também permite que os desenvolvedores defina orçamentos de pensamento para encontrar a troca certa entre qualidade, custo e latência. Mesmo com pensando, Os desenvolvedores podem manter as velocidades rápidas do flash 2.0 e melhorar o desempenho.

Nossos modelos Gemini 2.5 são modelos de pensamento, capazes de raciocinar através de seus pensamentos antes de responder. Em vez de gerar imediatamente uma saída, o modelo pode executar um processo de “pensamento” para entender melhor o prompt, dividir tarefas complexas e planejar uma resposta. Em tarefas complexas que exigem várias etapas de raciocínio (como resolver problemas de matemática ou análise de perguntas de pesquisa), o processo de pensamento permite que o modelo chegue a respostas mais precisas e abrangentes. De fato, o Gemini 2.5 Flash tem um desempenho fortemente em prompts difíceis em Lmarena, perdendo apenas para 2,5 Pro.

Tabela de comparação mostrando métricas de preço e desempenho para LLMS

2.5 Flash possui métricas comparáveis ​​a outros modelos principais para uma fração do custo e tamanho.

Nosso modelo de pensamento mais econômico

2.5 O Flash continua a liderar como modelo com a melhor relação preço / desempenho.

Comparação de preço a desempenho de Gemini 2.5 Flash

O Gemini 2.5 Flash adiciona outro modelo à fronteira Pareto do Google de custo à qualidade.*

Controles de grão fino para gerenciar o pensamento

Sabemos que diferentes casos de uso têm diferentes trocas em qualidade, custo e latência. Para dar aos desenvolvedores flexibilidade, permitimos a configuração de um orçamento de pensamento Isso oferece controle de granulação fina sobre o número máximo de tokens que um modelo pode gerar enquanto pensa. Um orçamento mais alto permite que o modelo raciocine ainda mais para melhorar a qualidade. É importante ressaltar que, porém, o orçamento define um limite de quanto 2,5 flash pode pensar, mas o modelo não usa o orçamento completo se o prompt não exigir.

Gráficos de enredo mostram melhorias na qualidade do raciocínio à medida que o orçamento de pensamento aumenta

Melhorias na qualidade do raciocínio à medida que o orçamento de pensamento aumenta.

O modelo é treinado para saber quanto tempo pensar para um determinado prompt e, portanto, decide automaticamente quanto pensar com base na complexidade da tarefa percebida.

Se você deseja manter o menor custo e a latência enquanto ainda melhora o desempenho em mais de 2.0 flash, Defina o orçamento de pensamento para 0. Você também pode optar por Defina um orçamento de token específico Para a fase de pensamento, usando um parâmetro na API ou no slider no Google AI Studio e no Vertex AI. O orçamento pode variar de 0 a 24576 tokens para 2,5 flash.

Os avisos a seguir demonstram quanto raciocínio pode ser usado no modo padrão do 2.5 Flash.


Avisos que exigem baixo raciocínio:

Exemplo 1: “Obrigado” em espanhol

Exemplo 2: Quantas províncias o Canadá tem?


Avisos que exigem raciocínio médio:

Exemplo 1: Você rola dois dados. Qual é a probabilidade que eles somam 7?

Exemplo 2: Minha academia tem horário de coleta para basquete entre as 21h e as 15h no MWF e entre as 14h às 20h na terça e sábado. Se eu trabalhar das 9h às 18h 5 dias por semana e quiser jogar 5 horas de basquete durante a semana, crie um cronograma para que tudo funcione.


Avisos que exigem alto raciocínio:

Exemplo 1: Um feixe cantilever de comprimento l = 3m tem uma seção transversal retangular (largura B = 0,1m, altura H = 0,2m) e é feita de aço (E = 200 gPa). É submetido a uma carga uniformemente distribuída w = 5 kN/m ao longo de todo o seu comprimento e uma carga pontual p = 10 kN na extremidade livre. Calcule a tensão de flexão máxima (σ_max).

Exemplo 2: Escreva uma função evaluate_cells(cells: Dict(str, str)) -> Dict(str, float) que calcula os valores das células da planilha.

Cada célula contém:

  • Ou uma fórmula como "=A1 + B1 * 2" usando +Assim, -Assim, *Assim,/ e outras células.

Requisitos:

  • Resolva dependências entre células.
  • Manipular precedência do operador (*/ antes +-).
  • Detectar ciclos e elevar ValueError("Cycle detected at ").
  • Não eval(). Use apenas bibliotecas embutidas.

Comece a construir com Gemini 2.5 Flash hoje

Gemini 2.5 Flash com recursos de pensamento agora está disponível na pré -visualização via API de Gêmeos em Google AI Studio e em Vértice aie em um suspensão dedicado no Aplicativo Gemini. Nós o encorajamos a experimentar o thinking_budget Parâmetro e explorar como o raciocínio controlável pode ajudá -lo a resolver problemas mais complexos.

from google import genai

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.generate_content(
  model="gemini-2.5-flash-preview-04-17",
  contents="You roll two dice. What’s the probability they add up to 7?",
  config=genai.types.GenerateContentConfig(
    thinking_config=genai.types.ThinkingConfig(
      thinking_budget=1024
    )
  )
)

print(response.text)

Encontre referências detalhadas da API e guias de pensamento em nosso Docs do desenvolvedor ou começar com Exemplos de código do Livro de receitas de Gêmeos.

Continuaremos a melhorar o Gemini 2.5 Flash, com mais em breve, antes de torná -lo geralmente disponível para uso completo da produção.

*O preço do modelo é proveniente da análise artificial e documentação da empresa

Fonte da Publicação