File size: 3,644 Bytes

---
language:
- pt
metrics:
- rouge
base_model:
- unicamp-dl/ptt5-base-portuguese-vocab
library_name: transformers
tags:
- text-generation-inference
---
# 🧠 CronosFlowAI (T5 Instruct PT-BR)

Este é um modelo **T5 Instruct em português** treinado pela **SophiaMind**, utilizando como base o modelo `unicamp-dl/ptt5-base-portuguese-vocab`.  
O modelo foi ajustado para compreender **instruções explícitas** (`instruction + input → output`), permitindo uso em tarefas de NLP como reformulação de textos.  

---

## 📊 Métricas do Modelo

O modelo foi treinado com **50 mil exemplos** (aprox. 10% do dataset privado da SophiaMind CronosFlowAI) em cima do modelo base da Unicamp.  
Resultados após 3 épocas:

- **Loss (treino):** `0.083`  
- **Eval Loss:** `0.0037`  
- **ROUGE-1:** `86.43`  
- **ROUGE-2:** `82.30`  
- **ROUGE-L:** `85.09`  

Esses números mostram que o modelo já apresenta **alto alinhamento com as referências** e está pronto para aplicações reais.  

---

## 🚀 Como usar

Instale as dependências:

```bash
pip install transformers accelerate torch
```

Carregue o modelo:

```python
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

MODEL_NAME = "IMNascimento/CronosFlowAI"

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)

# Exemplo de inferência
instruction = "Reescreva a frase para WhatsApp com o mesmo sentido."
inp = "Promoção válida só hoje para novos clientes."
input_text = f"{instruction}: {inp}"

inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True)
outputs = model.generate(**inputs, max_length=128)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))
```

---

## 📂 Dataset

- **Base utilizada:** `unicamp-dl/ptt5-base-portuguese-vocab`  
- **Dataset privado SophiaMind CronosFlowAI:** 500 mil amostras em **74 categorias diferentes**, contendo exemplos de reformulação, resumo, instrução e diversas aplicações de NLP.  
- **Modelo público CronosFlowAI:** treinado com apenas **10% dos dados (50 mil registros)**.  

---

## 💡 Aplicações

- Reformulação de frases e mensagens (WhatsApp, marketing, etc)  

---

## Teste

```bash
(venv-t5) nascimento@SophiaMind:~$ python cronos_flow_ai_public.py 
Digite uma frase (ou ENTER para sair):
> Boa semana, equipe!
Reescrita: Boa semana pra equipe!

> Olá, tudo bem!
Reescrita: Oi, tudo bem!

> loja online em oferta cupom válido hoje. Quer aproveitar? solicite mais detalhes.
Reescrita: Cupom válido hoje para loja online com valor novo. Solicite mais detalhes.

> Olá boa tarde.
Reescrita: Olá!

> oi, bom dia como vai ?
Reescrita: Bom dia pra você!
```

---


## 🙏 Agradecimentos

- **Unicamp** pelo modelo base `ptt5`.  
- **SophiaMind** pelo dataset privado usado neste fine-tuning.  
- **SophiaLabs** pela infraestrutura de treinamento.  
- **IMNascimento** pelo desenvolvimento e publicação.  

---

## 📌 Autor

👤 **Desenvolvedor principal:** [IMNascimento](https://github.com/IMNascimento)  
🌐 **Infraestrutura:** [SophiaLabs](https://sophialabs.com.br)  
🔬 **Pesquisa e dataset:** [SophiaMind](https://sophiamind.com.br)  

---

## 📢 Observações Importantes

Este modelo **CronosFlowAI** é a versão **pública**, treinada com apenas **10% do dataset privado** da SophiaMind para o CronosFlowAI.  
O modelo **privado** possui **mais de 74 categorias** e **500 mil registros**, oferecendo capacidades ainda mais amplas.  

⚠️ Este modelo é experimental e não deve ser usado em cenários de missão crítica sem avaliação humana.  


---
license: apache-2.0
---