PixelRAG: Pixel-Native Search for Visual Retrieval-Augmented Generation

This repository profile is provided by osrepos.com, an open source repository discovery platform.

PixelRAG: Pixel-Native Search for Visual Retrieval-Augmented Generation

Summary

PixelRAG revolutionizes search by enabling pixel-native retrieval, moving beyond traditional text parsing. It renders documents as screenshots, preserving visual context like tables and charts, which is crucial for accurate answers from reader models. This allows for searching any document based on its visual appearance, not just its textual content.

Repository Information

Analyzed by OSRepos on June 22, 2026

Topics

Click on any tag to explore related repositories

Use at your own risk

OSRepos shares public repositories for knowledge and discovery only. Any installation, execution, configuration, or use of code from these repositories is the user's own responsibility. Always review the repository, source code, dependencies, licenses, and security implications before running or installing anything. OSRepos is not responsible for issues, damages, or losses resulting from third-party repositories.

Introdução

PixelRAG é um projeto inovador que redefine como a informação é recuperada, passando da análise tradicional baseada em texto para uma abordagem pixel-nativa. Ele se concentra em renderizar documentos, como páginas da web e PDFs, como capturas de tela e realizar a recuperação diretamente sobre essas imagens. Este método garante que a estrutura visual, incluindo tabelas, gráficos e layout, permaneça intacta, permitindo que grandes modelos de linguagem (LLMs) respondam a perguntas com precisão com base no contexto visual. Desenvolvido por pesquisadores do Berkeley SkyLab, BAIR e Berkeley NLP, o PixelRAG visa fornecer capacidades de busca visual escaláveis.

Instalação

Começar com o PixelRAG é simples. Você pode instalar a biblioteca principal usando pip:

pip install pixelrag

Para funcionalidades adicionais, como incorporação ou serviço, extras específicos podem ser instalados, por exemplo: pip install 'pixelrag[embed]' ou pip install 'pixelrag[serve]'.

Exemplos

O PixelRAG oferece várias maneiras de interagir com suas capacidades, desde a renderização de páginas até a busca em índices pré-construídos e a integração com agentes VLM.

Renderizar uma página em blocos de captura de tela:

pixelshot https://en.wikipedia.org/wiki/Python --output ./tiles

Buscar em um índice hospedado:

Você pode consultar um índice pré-construído de 8,28 milhões de páginas da Wikipédia sem nenhuma configuração:

curl -X POST https://api.pixelrag.ai/search \
  -H "Content-Type: application/json" \
  -d '{"queries": [{"text": "What is the capital of France?"}], "n_docs": 5}'

Integrar com Claude Code (habilidade pixelbrowse):

Conceda a Claude a capacidade de "ver" páginas da web instalando a habilidade pixelbrowse:

pip install pixelrag
claude plugin marketplace add StarTrail-org/PixelRAG
claude plugin install pixelbrowse@pixelrag-plugins

Em seguida, peça a Claude para capturar a tela e resumir:

claude -p "screenshot https://news.ycombinator.com and summarize the top stories"

Construir um índice a partir de seus próprios documentos:

O PixelRAG suporta a construção de índices a partir de documentos locais, incluindo PDFs, no Linux (CUDA) e macOS (Apple Silicon):

# Exemplo de configuração pixelrag.yaml
cat > pixelrag.yaml << 'EOF'
source:
  type: local
  path: ./my_docs

embed:
  model: Qwen/Qwen3-VL-Embedding-2B
  device: auto

output: ./my_index
EOF

# Construir o índice
pixelrag index build

# Servir o índice local
pixelrag serve --index-dir ./my_index --port 30001

Porquê usar

O PixelRAG aborda uma limitação fundamental dos sistemas tradicionais de Geração Aumentada por Recuperação (RAG): a perda de contexto visual durante a análise de texto. Ao renderizar documentos como capturas de tela, o PixelRAG garante que informações visuais cruciais, como dados em tabelas, detalhes em gráficos e o layout geral da página, sejam preservadas. Isso permite que agentes VLM (Vision-Language Model) interpretem e respondam a perguntas que dependem de pistas visuais, levando a respostas mais precisas e abrangentes. Ele permite um novo paradigma para a busca, onde a "aparência" de um documento é tão importante quanto seu texto, tornando-o ideal para páginas da web complexas, artigos científicos e outros conteúdos visualmente ricos.

Links

Related repositories

Similar repositories that may be relevant next.

Tiny8: An Educational 8-bit CPU Simulator with Interactive Visualization

Tiny8: An Educational 8-bit CPU Simulator with Interactive Visualization

June 19, 2026

Tiny8 is a lightweight and educational 8-bit CPU simulator written in Python. It offers an interactive terminal debugger and graphical animation to visualize program execution, making it ideal for learning computer architecture and assembly programming.

8-bit-computerassemblervisualization
AutoHedge: Build Your Autonomous AI Hedge Fund with Swarm Intelligence

AutoHedge: Build Your Autonomous AI Hedge Fund with Swarm Intelligence

June 15, 2026

AutoHedge is an enterprise-grade autonomous agent hedge fund that leverages swarm intelligence and specialized AI agents. This powerful Python project automates end-to-end market analysis, risk management, and trade execution. It allows users to build and deploy their own AI-driven trading strategies with minimal human intervention.

PythonAIHedge Fund
IPSpot: A Python Library for IP and Geolocation Data Retrieval

IPSpot: A Python Library for IP and Geolocation Data Retrieval

June 13, 2026

IPSpot is a powerful Python library designed to retrieve both public and private IPv4 and IPv6 addresses. It also provides detailed geolocation data, such as region, longitude, and latitude, using a reliable fallback mechanism across multiple API providers. This makes it an essential tool for network monitoring and location-based lookups directly from your system.

PythonIP AddressGeolocation
MOSS-TTS Family: Open-Source High-Fidelity Speech and Sound Generation

MOSS-TTS Family: Open-Source High-Fidelity Speech and Sound Generation

May 31, 2026

The MOSS-TTS Family offers an open-source suite of models for high-fidelity, highly expressive speech and sound generation. Designed for complex real-world scenarios, it covers stable long-form speech, multi-speaker dialogue, voice design, environmental sound effects, and real-time streaming TTS. This comprehensive family of models from MOSI.AI and OpenMOSS team provides robust solutions for diverse audio generation needs.

audioaudio-tokenizerllm

Source repository

Open the original repository on GitHub.

View on GitHub
OS
OSRepos

Analysis and discovery of open source repositories. Find interesting projects and follow their updates.

Monitor your website with YourWebsiteScore

OSRepos shares public repositories for knowledge and discovery only. Any installation, execution, configuration, or use of third-party repository code is at your own risk. Always review source code, dependencies, licenses, and security implications before running anything.

© 2025 OSRepos. Built with Nuxt 3 and lots of ❤️