{"name":"PixelRAG: Pixel-Native Search for Visual Retrieval-Augmented Generation","description":"PixelRAG revolutionizes search by enabling pixel-native retrieval, moving beyond traditional text parsing. It renders documents as screenshots, preserving visual context like tables and charts, which is crucial for accurate answers from reader models. This allows for searching any document based on its visual appearance, not just its textual content.","github":"https://github.com/StarTrail-org/PixelRAG","url":"https://osrepos.com/repo/startrail-org-pixelrag","source":"osrepos.com","sourceDescription":"This repository profile is provided by osrepos.com, an open source repository discovery platform.","repositoryProfile":"https://osrepos.com/repo/startrail-org-pixelrag","generatedFor":"open source discovery and AI-assisted research","markdown":"https://osrepos.com/repo/startrail-org-pixelrag.md","json":"https://osrepos.com/repo/startrail-org-pixelrag.json","topics":["Python","AI","RAG","Multimodal","Vision","Search Engine","Agent","VLM"],"keywords":["Python","AI","RAG","Multimodal","Vision","Search Engine","Agent","VLM"],"stars":null,"summary":"PixelRAG revolutionizes search by enabling pixel-native retrieval, moving beyond traditional text parsing. It renders documents as screenshots, preserving visual context like tables and charts, which is crucial for accurate answers from reader models. This allows for searching any document based on its visual appearance, not just its textual content.","content":"## Introdução\n\nPixelRAG é um projeto inovador que redefine como a informação é recuperada, passando da análise tradicional baseada em texto para uma abordagem pixel-nativa. Ele se concentra em renderizar documentos, como páginas da web e PDFs, como capturas de tela e realizar a recuperação diretamente sobre essas imagens. Este método garante que a estrutura visual, incluindo tabelas, gráficos e layout, permaneça intacta, permitindo que grandes modelos de linguagem (LLMs) respondam a perguntas com precisão com base no contexto visual. Desenvolvido por pesquisadores do Berkeley SkyLab, BAIR e Berkeley NLP, o PixelRAG visa fornecer capacidades de busca visual escaláveis.\n\n## Instalação\n\nComeçar com o PixelRAG é simples. Você pode instalar a biblioteca principal usando pip:\n\nbash\npip install pixelrag\n\n\nPara funcionalidades adicionais, como incorporação ou serviço, extras específicos podem ser instalados, por exemplo: `pip install 'pixelrag[embed]'` ou `pip install 'pixelrag[serve]'`.\n\n## Exemplos\n\nO PixelRAG oferece várias maneiras de interagir com suas capacidades, desde a renderização de páginas até a busca em índices pré-construídos e a integração com agentes VLM.\n\n**Renderizar uma página em blocos de captura de tela:**\n\nbash\npixelshot https://en.wikipedia.org/wiki/Python --output ./tiles\n\n\n**Buscar em um índice hospedado:**\n\nVocê pode consultar um índice pré-construído de 8,28 milhões de páginas da Wikipédia sem nenhuma configuração:\n\nbash\ncurl -X POST https://api.pixelrag.ai/search \\\n  -H \"Content-Type: application/json\" \\\n  -d '{\"queries\": [{\"text\": \"What is the capital of France?\"}], \"n_docs\": 5}'\n\n\n**Integrar com Claude Code (habilidade pixelbrowse):**\n\nConceda a Claude a capacidade de \"ver\" páginas da web instalando a habilidade `pixelbrowse`:\n\nbash\npip install pixelrag\nclaude plugin marketplace add StarTrail-org/PixelRAG\nclaude plugin install pixelbrowse@pixelrag-plugins\n\n\nEm seguida, peça a Claude para capturar a tela e resumir:\n\nbash\nclaude -p \"screenshot https://news.ycombinator.com and summarize the top stories\"\n\n\n**Construir um índice a partir de seus próprios documentos:**\n\nO PixelRAG suporta a construção de índices a partir de documentos locais, incluindo PDFs, no Linux (CUDA) e macOS (Apple Silicon):\n\nbash\n# Exemplo de configuração pixelrag.yaml\ncat > pixelrag.yaml << 'EOF'\nsource:\n  type: local\n  path: ./my_docs\n\nembed:\n  model: Qwen/Qwen3-VL-Embedding-2B\n  device: auto\n\noutput: ./my_index\nEOF\n\n# Construir o índice\npixelrag index build\n\n# Servir o índice local\npixelrag serve --index-dir ./my_index --port 30001\n\n\n## Porquê usar\n\nO PixelRAG aborda uma limitação fundamental dos sistemas tradicionais de Geração Aumentada por Recuperação (RAG): a perda de contexto visual durante a análise de texto. Ao renderizar documentos como capturas de tela, o PixelRAG garante que informações visuais cruciais, como dados em tabelas, detalhes em gráficos e o layout geral da página, sejam preservadas. Isso permite que agentes VLM (Vision-Language Model) interpretem e respondam a perguntas que dependem de pistas visuais, levando a respostas mais precisas e abrangentes. Ele permite um novo paradigma para a busca, onde a \"aparência\" de um documento é tão importante quanto seu texto, tornando-o ideal para páginas da web complexas, artigos científicos e outros conteúdos visualmente ricos.\n\n## Links\n\n*   **Repositório GitHub:** [https://github.com/StarTrail-org/PixelRAG](https://github.com/StarTrail-org/PixelRAG)\n*   **Demo ao Vivo:** [https://pixelrag.ai](https://pixelrag.ai)\n*   **Referência da API:** [https://pixelrag.ai/docs](https://pixelrag.ai/docs)\n*   **Junte-se ao Slack:** [https://join.slack.com/t/leann-e2u9779/shared_invite/zt-3ol2ww9ic-Eg_kB8omwe6xmYVd0epr4Q](https://join.slack.com/t/leann-e2u9779/shared_invite/zt-3ol2ww9ic-Eg_kB8omwe6xmYVd0epr4Q)\n*   **Artigo de Pesquisa:** [https://github.com/StarTrail-org/PixelRAG/blob/main/assets/pixelrag-paper.pdf](https://github.com/StarTrail-org/PixelRAG/blob/main/assets/pixelrag-paper.pdf)","metrics":{"detailViews":1,"githubClicks":2},"dates":{"published":null,"modified":"2026-06-22T07:32:53.000Z"}}