# PixelRAG: Pixel-Native Search for Visual Retrieval-Augmented Generation

This repository profile is provided by osrepos.com, an open source repository discovery platform.

Source: osrepos.com
Repository profile: https://osrepos.com/repo/startrail-org-pixelrag
Generated for open source discovery and AI-assisted research.

PixelRAG revolutionizes search by enabling pixel-native retrieval, moving beyond traditional text parsing. It renders documents as screenshots, preserving visual context like tables and charts, which is crucial for accurate answers from reader models. This allows for searching any document based on its visual appearance, not just its textual content.

GitHub: https://github.com/StarTrail-org/PixelRAG
OSRepos URL: https://osrepos.com/repo/startrail-org-pixelrag

## Summary

PixelRAG revolutionizes search by enabling pixel-native retrieval, moving beyond traditional text parsing. It renders documents as screenshots, preserving visual context like tables and charts, which is crucial for accurate answers from reader models. This allows for searching any document based on its visual appearance, not just its textual content.

## Topics

- Python
- AI
- RAG
- Multimodal
- Vision
- Search Engine
- Agent
- VLM

## Repository Information

Last analyzed by OSRepos: Mon Jun 22 2026 08:32:53 GMT+0100 (Western European Summer Time)
Detail views: 1
GitHub clicks: 2

## Safety Notice

OSRepos shares public repositories for knowledge and discovery only. Review source code, dependencies, licenses, and security implications before running or installing anything.

## Content

## Introdução

PixelRAG é um projeto inovador que redefine como a informação é recuperada, passando da análise tradicional baseada em texto para uma abordagem pixel-nativa. Ele se concentra em renderizar documentos, como páginas da web e PDFs, como capturas de tela e realizar a recuperação diretamente sobre essas imagens. Este método garante que a estrutura visual, incluindo tabelas, gráficos e layout, permaneça intacta, permitindo que grandes modelos de linguagem (LLMs) respondam a perguntas com precisão com base no contexto visual. Desenvolvido por pesquisadores do Berkeley SkyLab, BAIR e Berkeley NLP, o PixelRAG visa fornecer capacidades de busca visual escaláveis.

## Instalação

Começar com o PixelRAG é simples. Você pode instalar a biblioteca principal usando pip:

bash
pip install pixelrag


Para funcionalidades adicionais, como incorporação ou serviço, extras específicos podem ser instalados, por exemplo: `pip install 'pixelrag[embed]'` ou `pip install 'pixelrag[serve]'`.

## Exemplos

O PixelRAG oferece várias maneiras de interagir com suas capacidades, desde a renderização de páginas até a busca em índices pré-construídos e a integração com agentes VLM.

**Renderizar uma página em blocos de captura de tela:**

bash
pixelshot https://en.wikipedia.org/wiki/Python --output ./tiles


**Buscar em um índice hospedado:**

Você pode consultar um índice pré-construído de 8,28 milhões de páginas da Wikipédia sem nenhuma configuração:

bash
curl -X POST https://api.pixelrag.ai/search \
  -H "Content-Type: application/json" \
  -d '{"queries": [{"text": "What is the capital of France?"}], "n_docs": 5}'


**Integrar com Claude Code (habilidade pixelbrowse):**

Conceda a Claude a capacidade de "ver" páginas da web instalando a habilidade `pixelbrowse`:

bash
pip install pixelrag
claude plugin marketplace add StarTrail-org/PixelRAG
claude plugin install pixelbrowse@pixelrag-plugins


Em seguida, peça a Claude para capturar a tela e resumir:

bash
claude -p "screenshot https://news.ycombinator.com and summarize the top stories"


**Construir um índice a partir de seus próprios documentos:**

O PixelRAG suporta a construção de índices a partir de documentos locais, incluindo PDFs, no Linux (CUDA) e macOS (Apple Silicon):

bash
# Exemplo de configuração pixelrag.yaml
cat > pixelrag.yaml << 'EOF'
source:
  type: local
  path: ./my_docs

embed:
  model: Qwen/Qwen3-VL-Embedding-2B
  device: auto

output: ./my_index
EOF

# Construir o índice
pixelrag index build

# Servir o índice local
pixelrag serve --index-dir ./my_index --port 30001


## Porquê usar

O PixelRAG aborda uma limitação fundamental dos sistemas tradicionais de Geração Aumentada por Recuperação (RAG): a perda de contexto visual durante a análise de texto. Ao renderizar documentos como capturas de tela, o PixelRAG garante que informações visuais cruciais, como dados em tabelas, detalhes em gráficos e o layout geral da página, sejam preservadas. Isso permite que agentes VLM (Vision-Language Model) interpretem e respondam a perguntas que dependem de pistas visuais, levando a respostas mais precisas e abrangentes. Ele permite um novo paradigma para a busca, onde a "aparência" de um documento é tão importante quanto seu texto, tornando-o ideal para páginas da web complexas, artigos científicos e outros conteúdos visualmente ricos.

## Links

*   **Repositório GitHub:** [https://github.com/StarTrail-org/PixelRAG](https://github.com/StarTrail-org/PixelRAG)
*   **Demo ao Vivo:** [https://pixelrag.ai](https://pixelrag.ai)
*   **Referência da API:** [https://pixelrag.ai/docs](https://pixelrag.ai/docs)
*   **Junte-se ao Slack:** [https://join.slack.com/t/leann-e2u9779/shared_invite/zt-3ol2ww9ic-Eg_kB8omwe6xmYVd0epr4Q](https://join.slack.com/t/leann-e2u9779/shared_invite/zt-3ol2ww9ic-Eg_kB8omwe6xmYVd0epr4Q)
*   **Artigo de Pesquisa:** [https://github.com/StarTrail-org/PixelRAG/blob/main/assets/pixelrag-paper.pdf](https://github.com/StarTrail-org/PixelRAG/blob/main/assets/pixelrag-paper.pdf)