File size: 3,644 Bytes
3fc1485 35db3c5 2827622 35db3c5 19b0c0a 35db3c5 3fc1485 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 |
---
language:
- pt
metrics:
- rouge
base_model:
- unicamp-dl/ptt5-base-portuguese-vocab
library_name: transformers
tags:
- text-generation-inference
---
# 🧠 CronosFlowAI (T5 Instruct PT-BR)
Este é um modelo **T5 Instruct em português** treinado pela **SophiaMind**, utilizando como base o modelo `unicamp-dl/ptt5-base-portuguese-vocab`.
O modelo foi ajustado para compreender **instruções explícitas** (`instruction + input → output`), permitindo uso em tarefas de NLP como reformulação de textos.
---
## 📊 Métricas do Modelo
O modelo foi treinado com **50 mil exemplos** (aprox. 10% do dataset privado da SophiaMind CronosFlowAI) em cima do modelo base da Unicamp.
Resultados após 3 épocas:
- **Loss (treino):** `0.083`
- **Eval Loss:** `0.0037`
- **ROUGE-1:** `86.43`
- **ROUGE-2:** `82.30`
- **ROUGE-L:** `85.09`
Esses números mostram que o modelo já apresenta **alto alinhamento com as referências** e está pronto para aplicações reais.
---
## 🚀 Como usar
Instale as dependências:
```bash
pip install transformers accelerate torch
```
Carregue o modelo:
```python
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
MODEL_NAME = "IMNascimento/CronosFlowAI"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
# Exemplo de inferência
instruction = "Reescreva a frase para WhatsApp com o mesmo sentido."
inp = "Promoção válida só hoje para novos clientes."
input_text = f"{instruction}: {inp}"
inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True)
outputs = model.generate(**inputs, max_length=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
```
---
## 📂 Dataset
- **Base utilizada:** `unicamp-dl/ptt5-base-portuguese-vocab`
- **Dataset privado SophiaMind CronosFlowAI:** 500 mil amostras em **74 categorias diferentes**, contendo exemplos de reformulação, resumo, instrução e diversas aplicações de NLP.
- **Modelo público CronosFlowAI:** treinado com apenas **10% dos dados (50 mil registros)**.
---
## 💡 Aplicações
- Reformulação de frases e mensagens (WhatsApp, marketing, etc)
---
## Teste
```bash
(venv-t5) nascimento@SophiaMind:~$ python cronos_flow_ai_public.py
Digite uma frase (ou ENTER para sair):
> Boa semana, equipe!
Reescrita: Boa semana pra equipe!
> Olá, tudo bem!
Reescrita: Oi, tudo bem!
> loja online em oferta cupom válido hoje. Quer aproveitar? solicite mais detalhes.
Reescrita: Cupom válido hoje para loja online com valor novo. Solicite mais detalhes.
> Olá boa tarde.
Reescrita: Olá!
> oi, bom dia como vai ?
Reescrita: Bom dia pra você!
```
---
## 🙏 Agradecimentos
- **Unicamp** pelo modelo base `ptt5`.
- **SophiaMind** pelo dataset privado usado neste fine-tuning.
- **SophiaLabs** pela infraestrutura de treinamento.
- **IMNascimento** pelo desenvolvimento e publicação.
---
## 📌 Autor
👤 **Desenvolvedor principal:** [IMNascimento](https://github.com/IMNascimento)
🌐 **Infraestrutura:** [SophiaLabs](https://sophialabs.com.br)
🔬 **Pesquisa e dataset:** [SophiaMind](https://sophiamind.com.br)
---
## 📢 Observações Importantes
Este modelo **CronosFlowAI** é a versão **pública**, treinada com apenas **10% do dataset privado** da SophiaMind para o CronosFlowAI.
O modelo **privado** possui **mais de 74 categorias** e **500 mil registros**, oferecendo capacidades ainda mais amplas.
⚠️ Este modelo é experimental e não deve ser usado em cenários de missão crítica sem avaliação humana.
---
license: apache-2.0
--- |