PixelRAG: Pixel-Native Search for Visual Retrieval-Augmented Generation

Introdução

PixelRAG é um projeto inovador que redefine como a informação é recuperada, passando da análise tradicional baseada em texto para uma abordagem pixel-nativa. Ele se concentra em renderizar documentos, como páginas da web e PDFs, como capturas de tela e realizar a recuperação diretamente sobre essas imagens. Este método garante que a estrutura visual, incluindo tabelas, gráficos e layout, permaneça intacta, permitindo que grandes modelos de linguagem (LLMs) respondam a perguntas com precisão com base no contexto visual. Desenvolvido por pesquisadores do Berkeley SkyLab, BAIR e Berkeley NLP, o PixelRAG visa fornecer capacidades de busca visual escaláveis.

Instalação

Começar com o PixelRAG é simples. Você pode instalar a biblioteca principal usando pip:

pip install pixelrag

Para funcionalidades adicionais, como incorporação ou serviço, extras específicos podem ser instalados, por exemplo: pip install 'pixelrag[embed]' ou pip install 'pixelrag[serve]'.

Exemplos

O PixelRAG oferece várias maneiras de interagir com suas capacidades, desde a renderização de páginas até a busca em índices pré-construídos e a integração com agentes VLM.

Renderizar uma página em blocos de captura de tela:

pixelshot https://en.wikipedia.org/wiki/Python --output ./tiles

Buscar em um índice hospedado:

Você pode consultar um índice pré-construído de 8,28 milhões de páginas da Wikipédia sem nenhuma configuração:

curl -X POST https://api.pixelrag.ai/search \
  -H "Content-Type: application/json" \
  -d '{"queries": [{"text": "What is the capital of France?"}], "n_docs": 5}'

Integrar com Claude Code (habilidade pixelbrowse):

Conceda a Claude a capacidade de "ver" páginas da web instalando a habilidade pixelbrowse:

pip install pixelrag
claude plugin marketplace add StarTrail-org/PixelRAG
claude plugin install pixelbrowse@pixelrag-plugins

Em seguida, peça a Claude para capturar a tela e resumir:

claude -p "screenshot https://news.ycombinator.com and summarize the top stories"

Construir um índice a partir de seus próprios documentos:

O PixelRAG suporta a construção de índices a partir de documentos locais, incluindo PDFs, no Linux (CUDA) e macOS (Apple Silicon):

# Exemplo de configuração pixelrag.yaml
cat > pixelrag.yaml << 'EOF'
source:
  type: local
  path: ./my_docs

embed:
  model: Qwen/Qwen3-VL-Embedding-2B
  device: auto

output: ./my_index
EOF

# Construir o índice
pixelrag index build

# Servir o índice local
pixelrag serve --index-dir ./my_index --port 30001

Porquê usar

O PixelRAG aborda uma limitação fundamental dos sistemas tradicionais de Geração Aumentada por Recuperação (RAG): a perda de contexto visual durante a análise de texto. Ao renderizar documentos como capturas de tela, o PixelRAG garante que informações visuais cruciais, como dados em tabelas, detalhes em gráficos e o layout geral da página, sejam preservadas. Isso permite que agentes VLM (Vision-Language Model) interpretem e respondam a perguntas que dependem de pistas visuais, levando a respostas mais precisas e abrangentes. Ele permite um novo paradigma para a busca, onde a "aparência" de um documento é tão importante quanto seu texto, tornando-o ideal para páginas da web complexas, artigos científicos e outros conteúdos visualmente ricos.