Eget Crawler
Python Scrapy AI RAG
Crawler especializado para alimentar aplicacoes de IA. Extrai conteudo web de forma estruturada, otimizado para RAG (Retrieval Augmented Generation) e treinamento de modelos.
Features
Extracao Inteligente
- Deteccao automatica de conteudo principal
- Remocao de boilerplate (menus, footers, ads)
- Extracao de metadados estruturados
- Suporte a JavaScript rendering
Formatos de Saida
- Markdown limpo para LLMs
- JSON estruturado
- Chunks otimizados para embeddings
- Formato compativel com LangChain/LlamaIndex
Controle de Crawling
- Rate limiting configuravel
- Respeito a robots.txt
- Deteccao de duplicatas
- Filtros por tipo de conteudo
Casos de Uso
RAG Applications
- Alimentar bases de conhecimento
- Atualizar documentacao automaticamente
- Monitorar concorrentes
Data Collection
- Datasets para fine-tuning
- Analise de sentimento em reviews
- Agregacao de noticias
Integracao
- Pipeline direto para vector databases
- Webhook para novos conteudos
- API REST para triggers
Arquitetura
- Scrapy como engine principal
- Playwright para sites JavaScript
- Redis para filas de URLs
- MongoDB para armazenamento
Stack
- Python 3.10+
- Scrapy framework
- Playwright para JS rendering
- BeautifulSoup para parsing
- Docker para deploy