PixelRAG: Pixel-Native Search for Visual Retrieval-Augmented Generation
This repository profile is provided by osrepos.com, an open source repository discovery platform.
Summary
PixelRAG revolutionizes search by enabling pixel-native retrieval, moving beyond traditional text parsing. It renders documents as screenshots, preserving visual context like tables and charts, which is crucial for accurate answers from reader models. This allows for searching any document based on its visual appearance, not just its textual content.
Repository Information
Topics
Click on any tag to explore related repositories
Use at your own risk
OSRepos shares public repositories for knowledge and discovery only. Any installation, execution, configuration, or use of code from these repositories is the user's own responsibility. Always review the repository, source code, dependencies, licenses, and security implications before running or installing anything. OSRepos is not responsible for issues, damages, or losses resulting from third-party repositories.
Introdução
PixelRAG é um projeto inovador que redefine como a informação é recuperada, passando da análise tradicional baseada em texto para uma abordagem pixel-nativa. Ele se concentra em renderizar documentos, como páginas da web e PDFs, como capturas de tela e realizar a recuperação diretamente sobre essas imagens. Este método garante que a estrutura visual, incluindo tabelas, gráficos e layout, permaneça intacta, permitindo que grandes modelos de linguagem (LLMs) respondam a perguntas com precisão com base no contexto visual. Desenvolvido por pesquisadores do Berkeley SkyLab, BAIR e Berkeley NLP, o PixelRAG visa fornecer capacidades de busca visual escaláveis.
Instalação
Começar com o PixelRAG é simples. Você pode instalar a biblioteca principal usando pip:
pip install pixelrag
Para funcionalidades adicionais, como incorporação ou serviço, extras específicos podem ser instalados, por exemplo: pip install 'pixelrag[embed]' ou pip install 'pixelrag[serve]'.
Exemplos
O PixelRAG oferece várias maneiras de interagir com suas capacidades, desde a renderização de páginas até a busca em índices pré-construídos e a integração com agentes VLM.
Renderizar uma página em blocos de captura de tela:
pixelshot https://en.wikipedia.org/wiki/Python --output ./tiles
Buscar em um índice hospedado:
Você pode consultar um índice pré-construído de 8,28 milhões de páginas da Wikipédia sem nenhuma configuração:
curl -X POST https://api.pixelrag.ai/search \
-H "Content-Type: application/json" \
-d '{"queries": [{"text": "What is the capital of France?"}], "n_docs": 5}'
Integrar com Claude Code (habilidade pixelbrowse):
Conceda a Claude a capacidade de "ver" páginas da web instalando a habilidade pixelbrowse:
pip install pixelrag
claude plugin marketplace add StarTrail-org/PixelRAG
claude plugin install pixelbrowse@pixelrag-plugins
Em seguida, peça a Claude para capturar a tela e resumir:
claude -p "screenshot https://news.ycombinator.com and summarize the top stories"
Construir um índice a partir de seus próprios documentos:
O PixelRAG suporta a construção de índices a partir de documentos locais, incluindo PDFs, no Linux (CUDA) e macOS (Apple Silicon):
# Exemplo de configuração pixelrag.yaml
cat > pixelrag.yaml << 'EOF'
source:
type: local
path: ./my_docs
embed:
model: Qwen/Qwen3-VL-Embedding-2B
device: auto
output: ./my_index
EOF
# Construir o índice
pixelrag index build
# Servir o índice local
pixelrag serve --index-dir ./my_index --port 30001
Porquê usar
O PixelRAG aborda uma limitação fundamental dos sistemas tradicionais de Geração Aumentada por Recuperação (RAG): a perda de contexto visual durante a análise de texto. Ao renderizar documentos como capturas de tela, o PixelRAG garante que informações visuais cruciais, como dados em tabelas, detalhes em gráficos e o layout geral da página, sejam preservadas. Isso permite que agentes VLM (Vision-Language Model) interpretem e respondam a perguntas que dependem de pistas visuais, levando a respostas mais precisas e abrangentes. Ele permite um novo paradigma para a busca, onde a "aparência" de um documento é tão importante quanto seu texto, tornando-o ideal para páginas da web complexas, artigos científicos e outros conteúdos visualmente ricos.
Links
- Repositório GitHub: https://github.com/StarTrail-org/PixelRAG
- Demo ao Vivo: https://pixelrag.ai
- Referência da API: https://pixelrag.ai/docs
- Junte-se ao Slack: https://join.slack.com/t/leann-e2u9779/shared_invite/zt-3ol2ww9ic-Eg_kB8omwe6xmYVd0epr4Q
- Artigo de Pesquisa: https://github.com/StarTrail-org/PixelRAG/blob/main/assets/pixelrag-paper.pdf
Related repositories
Similar repositories that may be relevant next.

Tiny8: An Educational 8-bit CPU Simulator with Interactive Visualization
June 19, 2026
Tiny8 is a lightweight and educational 8-bit CPU simulator written in Python. It offers an interactive terminal debugger and graphical animation to visualize program execution, making it ideal for learning computer architecture and assembly programming.

AutoHedge: Build Your Autonomous AI Hedge Fund with Swarm Intelligence
June 15, 2026
AutoHedge is an enterprise-grade autonomous agent hedge fund that leverages swarm intelligence and specialized AI agents. This powerful Python project automates end-to-end market analysis, risk management, and trade execution. It allows users to build and deploy their own AI-driven trading strategies with minimal human intervention.

IPSpot: A Python Library for IP and Geolocation Data Retrieval
June 13, 2026
IPSpot is a powerful Python library designed to retrieve both public and private IPv4 and IPv6 addresses. It also provides detailed geolocation data, such as region, longitude, and latitude, using a reliable fallback mechanism across multiple API providers. This makes it an essential tool for network monitoring and location-based lookups directly from your system.

MOSS-TTS Family: Open-Source High-Fidelity Speech and Sound Generation
May 31, 2026
The MOSS-TTS Family offers an open-source suite of models for high-fidelity, highly expressive speech and sound generation. Designed for complex real-world scenarios, it covers stable long-form speech, multi-speaker dialogue, voice design, environmental sound effects, and real-time streaming TTS. This comprehensive family of models from MOSI.AI and OpenMOSS team provides robust solutions for diverse audio generation needs.
Source repository
Open the original repository on GitHub.