File size: 3,644 Bytes
3fc1485
 
 
 
 
 
 
 
 
 
 
35db3c5
 
 
 
 
 
 
 
 
2827622
35db3c5
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
19b0c0a
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
35db3c5
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3fc1485
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
---
language:
- pt
metrics:
- rouge
base_model:
- unicamp-dl/ptt5-base-portuguese-vocab
library_name: transformers
tags:
- text-generation-inference
---
# 🧠 CronosFlowAI (T5 Instruct PT-BR)

Este é um modelo **T5 Instruct em português** treinado pela **SophiaMind**, utilizando como base o modelo `unicamp-dl/ptt5-base-portuguese-vocab`.  
O modelo foi ajustado para compreender **instruções explícitas** (`instruction + input → output`), permitindo uso em tarefas de NLP como reformulação de textos.  

---

## 📊 Métricas do Modelo

O modelo foi treinado com **50 mil exemplos** (aprox. 10% do dataset privado da SophiaMind CronosFlowAI) em cima do modelo base da Unicamp.  
Resultados após 3 épocas:

- **Loss (treino):** `0.083`  
- **Eval Loss:** `0.0037`  
- **ROUGE-1:** `86.43`  
- **ROUGE-2:** `82.30`  
- **ROUGE-L:** `85.09`  

Esses números mostram que o modelo já apresenta **alto alinhamento com as referências** e está pronto para aplicações reais.  

---

## 🚀 Como usar

Instale as dependências:

```bash
pip install transformers accelerate torch
```

Carregue o modelo:

```python
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

MODEL_NAME = "IMNascimento/CronosFlowAI"

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)

# Exemplo de inferência
instruction = "Reescreva a frase para WhatsApp com o mesmo sentido."
inp = "Promoção válida só hoje para novos clientes."
input_text = f"{instruction}: {inp}"

inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True)
outputs = model.generate(**inputs, max_length=128)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))
```

---

## 📂 Dataset

- **Base utilizada:** `unicamp-dl/ptt5-base-portuguese-vocab`  
- **Dataset privado SophiaMind CronosFlowAI:** 500 mil amostras em **74 categorias diferentes**, contendo exemplos de reformulação, resumo, instrução e diversas aplicações de NLP.  
- **Modelo público CronosFlowAI:** treinado com apenas **10% dos dados (50 mil registros)**.  

---

## 💡 Aplicações

- Reformulação de frases e mensagens (WhatsApp, marketing, etc)  

---

## Teste

```bash
(venv-t5) nascimento@SophiaMind:~$ python cronos_flow_ai_public.py 
Digite uma frase (ou ENTER para sair):
> Boa semana, equipe!
Reescrita: Boa semana pra equipe!

> Olá, tudo bem!
Reescrita: Oi, tudo bem!

> loja online em oferta cupom válido hoje. Quer aproveitar? solicite mais detalhes.
Reescrita: Cupom válido hoje para loja online com valor novo. Solicite mais detalhes.

> Olá boa tarde.
Reescrita: Olá!

> oi, bom dia como vai ?
Reescrita: Bom dia pra você!
```

---


## 🙏 Agradecimentos

- **Unicamp** pelo modelo base `ptt5`.  
- **SophiaMind** pelo dataset privado usado neste fine-tuning.  
- **SophiaLabs** pela infraestrutura de treinamento.  
- **IMNascimento** pelo desenvolvimento e publicação.  

---

## 📌 Autor

👤 **Desenvolvedor principal:** [IMNascimento](https://github.com/IMNascimento)  
🌐 **Infraestrutura:** [SophiaLabs](https://sophialabs.com.br)  
🔬 **Pesquisa e dataset:** [SophiaMind](https://sophiamind.com.br)  

---

## 📢 Observações Importantes

Este modelo **CronosFlowAI** é a versão **pública**, treinada com apenas **10% do dataset privado** da SophiaMind para o CronosFlowAI.  
O modelo **privado** possui **mais de 74 categorias** e **500 mil registros**, oferecendo capacidades ainda mais amplas.  

⚠️ Este modelo é experimental e não deve ser usado em cenários de missão crítica sem avaliação humana.  


---
license: apache-2.0
---