--- language: - pt metrics: - rouge base_model: - unicamp-dl/ptt5-base-portuguese-vocab library_name: transformers tags: - text-generation-inference --- # 🧠 CronosFlowAI (T5 Instruct PT-BR) Este é um modelo **T5 Instruct em português** treinado pela **SophiaMind**, utilizando como base o modelo `unicamp-dl/ptt5-base-portuguese-vocab`. O modelo foi ajustado para compreender **instruções explícitas** (`instruction + input → output`), permitindo uso em tarefas de NLP como reformulação de textos. --- ## 📊 Métricas do Modelo O modelo foi treinado com **50 mil exemplos** (aprox. 10% do dataset privado da SophiaMind CronosFlowAI) em cima do modelo base da Unicamp. Resultados após 3 épocas: - **Loss (treino):** `0.083` - **Eval Loss:** `0.0037` - **ROUGE-1:** `86.43` - **ROUGE-2:** `82.30` - **ROUGE-L:** `85.09` Esses números mostram que o modelo já apresenta **alto alinhamento com as referências** e está pronto para aplicações reais. --- ## 🚀 Como usar Instale as dependências: ```bash pip install transformers accelerate torch ``` Carregue o modelo: ```python from transformers import AutoTokenizer, AutoModelForSeq2SeqLM MODEL_NAME = "IMNascimento/CronosFlowAI" tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME) model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME) # Exemplo de inferência instruction = "Reescreva a frase para WhatsApp com o mesmo sentido." inp = "Promoção válida só hoje para novos clientes." input_text = f"{instruction}: {inp}" inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True) outputs = model.generate(**inputs, max_length=128) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` --- ## 📂 Dataset - **Base utilizada:** `unicamp-dl/ptt5-base-portuguese-vocab` - **Dataset privado SophiaMind CronosFlowAI:** 500 mil amostras em **74 categorias diferentes**, contendo exemplos de reformulação, resumo, instrução e diversas aplicações de NLP. - **Modelo público CronosFlowAI:** treinado com apenas **10% dos dados (50 mil registros)**. --- ## 💡 Aplicações - Reformulação de frases e mensagens (WhatsApp, marketing, etc) --- ## Teste ```bash (venv-t5) nascimento@SophiaMind:~$ python cronos_flow_ai_public.py Digite uma frase (ou ENTER para sair): > Boa semana, equipe! Reescrita: Boa semana pra equipe! > Olá, tudo bem! Reescrita: Oi, tudo bem! > loja online em oferta cupom válido hoje. Quer aproveitar? solicite mais detalhes. Reescrita: Cupom válido hoje para loja online com valor novo. Solicite mais detalhes. > Olá boa tarde. Reescrita: Olá! > oi, bom dia como vai ? Reescrita: Bom dia pra você! ``` --- ## 🙏 Agradecimentos - **Unicamp** pelo modelo base `ptt5`. - **SophiaMind** pelo dataset privado usado neste fine-tuning. - **SophiaLabs** pela infraestrutura de treinamento. - **IMNascimento** pelo desenvolvimento e publicação. --- ## 📌 Autor 👤 **Desenvolvedor principal:** [IMNascimento](https://github.com/IMNascimento) 🌐 **Infraestrutura:** [SophiaLabs](https://sophialabs.com.br) 🔬 **Pesquisa e dataset:** [SophiaMind](https://sophiamind.com.br) --- ## 📢 Observações Importantes Este modelo **CronosFlowAI** é a versão **pública**, treinada com apenas **10% do dataset privado** da SophiaMind para o CronosFlowAI. O modelo **privado** possui **mais de 74 categorias** e **500 mil registros**, oferecendo capacidades ainda mais amplas. ⚠️ Este modelo é experimental e não deve ser usado em cenários de missão crítica sem avaliação humana. --- license: apache-2.0 ---