Cada vez mais pessoas estão executando LLMs (Large Language Models) diretamente em seus PCs para reduzir custos com assinaturas externas e obter mais privacidade e controle sobre seus projetos de inteligência artificial. Com os novos e avançados modelos abertos e ferramentas gratuitas para rodá-los localmente, cresce o interesse em experimentar a IA diretamente em notebooks ou desktops. As GPUs GeForce RTX aceleram essas experiências, oferecendo respostas rápidas e fluidas. Com as atualizações do Project G-Assist, os usuários de notebooks já podem começar a usar comandos de voz e texto baseados em IA para controlar seus computadores.
O novo blogpost da NVIDIA destaca como estudantes, entusiastas de IA e desenvolvedores podem começar a utilizar LLMs localmente em seus PCs a partir de agora:
- Ollama: Uma das formas mais acessíveis de começar. Esta ferramenta de código aberto oferece uma interface simples para executar e interagir com LLMs. Permite arrastar e soltar PDFs em prompts, manter conversas interativas e até experimentar fluxos de trabalho multimodais que combinam texto e imagens.
- AnythingLLM: Crie um assistente de IA pessoal. Esta ferramenta funciona em conjunto com o Ollama, possibilitando carregar anotações, apresentações ou documentos para criar um tutor que gera questionários e cartões para estudos. Privado, rápido e gratuito.
- LM Studio: Explore dezenas de modelos. Baseado no popular framework llama.cpp, fornece uma interface amigável para executar modelos localmente. Usuários podem carregar diferentes LLMs, conversar em tempo real e até os disponibilizar como endpoints de API local para integração em projetos personalizados.
- Project G-Assist: Controle seu PC com IA. Com as últimas atualizações, os usuários podem ajustar bateria, ventoinha e configurações de desempenho usando somentecontrole por voz ou texto.
As atualizações mais recentes em PCs com GeForce RTX AI incluem:
- Ollama com grande aumento de desempenho em Geforce RTX: As atualizações mais recentes oferecem até 50% de otimização de performance para o modelo gpt-oss-20B da OpenAI e até 60% mais rapidez nos modelos Gemma 3, além de um agendamento de modelos mais inteligente para reduzir problemas de memória e melhorar a eficiência em múltiplas GPUs.
- Llama.cpp e GGML otimizados para GeForce RTX: Agora entregam inferência mais rápida e eficiente em GPUs GeForce RTX, incluindo suporte ao modelo NVIDIA Nemotron Nano v2 9B, Flash Attention habilitado por padrão e otimizações de kernel CUDA.
- Atualização do G-Assist v0.1.18 disponível no NVIDIA App, trazendo novos comandos para usuários de notebook e melhor qualidade nas respostas.
- Microsoft lança o Windows ML com NVIDIA TensorRT para aceleração RTX, oferecendo até 50% de ganho de desempenho em inferência, implantação simplificada e suporte para LLMs, modelos de difusão e outros tipos no Windows 11.