Eget Crawler

Python Scrapy AI RAG

Crawler especializado para alimentar aplicacoes de IA. Extrai conteudo web de forma estruturada, otimizado para RAG (Retrieval Augmented Generation) e treinamento de modelos.

Features

Extracao Inteligente

Deteccao automatica de conteudo principal
Remocao de boilerplate (menus, footers, ads)
Extracao de metadados estruturados
Suporte a JavaScript rendering

Formatos de Saida

Markdown limpo para LLMs
JSON estruturado
Chunks otimizados para embeddings
Formato compativel com LangChain/LlamaIndex

Controle de Crawling

Rate limiting configuravel
Respeito a robots.txt
Deteccao de duplicatas
Filtros por tipo de conteudo

Casos de Uso

RAG Applications

Alimentar bases de conhecimento
Atualizar documentacao automaticamente
Monitorar concorrentes

Data Collection

Datasets para fine-tuning
Analise de sentimento em reviews
Agregacao de noticias

Integracao

Pipeline direto para vector databases
Webhook para novos conteudos
API REST para triggers

Arquitetura

Scrapy como engine principal
Playwright para sites JavaScript
Redis para filas de URLs
MongoDB para armazenamento

Stack

Python 3.10+
Scrapy framework
Playwright para JS rendering
BeautifulSoup para parsing
Docker para deploy