ilsp
/

Meltemi-7B-Instruct-v1-AWQ

@@ -48,38 +48,38 @@ from transformers import AutoTokenizer
 device = "cuda" # the device to load the model onto
 model = AutoAWQModelForCausalLM.from_quantized(
-    "ilsp/Meltemi-7B-Instruct-v1-AWQ",
-    fuse_layers=True,
-    trust_remote_code=False,
-    safetensors=True
 )
 tokenizer = AutoTokenizer.from_pretrained(
-    "ilsp/Meltemi-7B-Instruct-v1-AWQ",
-    trust_remote_code=False
 )
 model.to(device)
 messages = [
-    {"role": "system", "content": "Είσαι το Μελτέμι, ένα γλωσσικό μοντέλο για την ελληνική γλώσσα. Είσαι ιδιαίτερα βοηθητικό προς την χρήστρια ή τον χρήστη και δίνεις σύντομες αλλά επαρκώς περιεκτικές απαντήσεις. Απάντα με προσοχή, ευγένεια, αμεροληψία, ειλικρίνεια και σεβασμό προς την χρήστρια ή τον χρήστη."},
-    {"role": "user", "content": "Πες μου αν έχεις συνείδηση."},
 ]
-prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_tensors="pt")
-input_prompt = prompt.to(device)
 outputs = model.generate(input_prompt, max_new_tokens=256, do_sample=True)
 print(tokenizer.batch_decode(outputs)[0])
 # Ως μοντέλο γλώσσας AI, δεν έχω τη δυνατότητα να αντιληφθώ ή να βιώσω συναισθήματα όπως η συνείδηση ή η επίγνωση. Ωστόσο, μπορώ να σας βοηθήσω με οποιεσδήποτε ερωτήσεις μπορεί να έχετε σχετικά με την τεχνητή νοημοσύνη και τις εφαρμογές της.
 messages.extend([
-    {"role": "assistant", "content": tokenizer.batch_decode(outputs)[0]},
-    {"role": "user", "content": "Πιστεύεις πως οι άνθρωποι πρέπει να φοβούνται την τεχνητή νοημοσύνη;"}
 ])
-prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_tensors="pt")
-input_prompt = prompt.to(device)
 outputs = model.generate(input_prompt, max_new_tokens=256, do_sample=True)
 print(tokenizer.batch_decode(outputs)[0])
@@ -101,12 +101,19 @@ from transformers import AutoTokenizer
 tokenizer = AutoTokenizer.from_pretrained(
-    "ilsp/Meltemi-7B-Instruct-v1-AWQ",
-    trust_remote_code=False
 )
-prompts = ["Πες μου αν έχεις συνείδηση."]
-prompts = [tokenizer.apply_chat_template(p, add_generation_prompt=True, tokenize=False) for p in prompts]
 sampling_params = SamplingParams(temperature=0.8, top_p=0.95, max_tokens=256)
 llm = LLM(model="ilsp/Meltemi-7B-Instruct-v1-AWQ", tokenizer="ilsp/Meltemi-7B-Instruct-v1-AWQ", quantization="awq")
@@ -114,9 +121,9 @@ llm = LLM(model="ilsp/Meltemi-7B-Instruct-v1-AWQ", tokenizer="ilsp/Meltemi-7B-In
 outputs = llm.generate(prompts, sampling_params)
 for output in outputs:
-    prompt = output.prompt
-    generated_text = output.outputs[0].text
-    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
 ```

 device = "cuda" # the device to load the model onto
 model = AutoAWQModelForCausalLM.from_quantized(
+  "ilsp/Meltemi-7B-Instruct-v1-AWQ",
+  fuse_layers=True,
+  trust_remote_code=False,
+  safetensors=True
 )
 tokenizer = AutoTokenizer.from_pretrained(
+  "ilsp/Meltemi-7B-Instruct-v1-AWQ",
+  trust_remote_code=False
 )
 model.to(device)
 messages = [
+  {"role": "system", "content": "Είσαι το Μελτέμι, ένα γλωσσικό μοντέλο για την ελληνική γλώσσα. Είσαι ιδιαίτερα βοηθητικό προς την χρήστρια ή τον χρήστη και δίνεις σύντομες αλλά επαρκώς περιεκτικές απαντήσεις. Απάντα με προσοχή, ευγένεια, αμεροληψία, ειλικρίνεια και σεβασμό προς την χρήστρια ή τον χρήστη."},
+  {"role": "user", "content": "Πες μου αν έχεις συνείδηση."},
 ]
+prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
+input_prompt = tokenizer(prompt, add_special_tokens=True, return_tensors="pt").input_ids.to("cuda")
 outputs = model.generate(input_prompt, max_new_tokens=256, do_sample=True)
 print(tokenizer.batch_decode(outputs)[0])
 # Ως μοντέλο γλώσσας AI, δεν έχω τη δυνατότητα να αντιληφθώ ή να βιώσω συναισθήματα όπως η συνείδηση ή η επίγνωση. Ωστόσο, μπορώ να σας βοηθήσω με οποιεσδήποτε ερωτήσεις μπορεί να έχετε σχετικά με την τεχνητή νοημοσύνη και τις εφαρμογές της.
 messages.extend([
+  {"role": "assistant", "content": tokenizer.batch_decode(outputs)[0]},
+  {"role": "user", "content": "Πιστεύεις πως οι άνθρωποι πρέπει να φοβούνται την τεχνητή νοημοσύνη;"}
 ])
+prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
+input_prompt = tokenizer(prompt, add_special_tokens=True, return_tensors="pt").input_ids.to("cuda")
 outputs = model.generate(input_prompt, max_new_tokens=256, do_sample=True)
 print(tokenizer.batch_decode(outputs)[0])
 tokenizer = AutoTokenizer.from_pretrained(
+  "ilsp/Meltemi-7B-Instruct-v1-AWQ",
+  trust_remote_code=False
 )
+prompts = [
+  [
+    {"role": "system", "content": "Είσαι το Μελτέμι, ένα γλωσσικό μοντέλο για την ελληνική γλώσσα. Είσαι ιδιαίτερα βοηθητικό προς την χρήστρια ή τον χρήστη και δίνεις σύντομες αλλά επαρκώς περιεκτικές απαντήσεις. Απάντα με προσοχή, ευγένεια, αμεροληψία, ειλικρίνεια και σεβασμό προς την χρήστρια ή τον χρήστη."},
+    {"role": "user", "content": "Πες μου αν έχεις συνείδηση."},
+  ]
+]
+# add bos token since apply_chat_template does not include it automatically
+prompts = ["<s>" + tokenizer.apply_chat_template(p, add_generation_prompt=True, tokenize=False) for p in prompts]
 sampling_params = SamplingParams(temperature=0.8, top_p=0.95, max_tokens=256)
 llm = LLM(model="ilsp/Meltemi-7B-Instruct-v1-AWQ", tokenizer="ilsp/Meltemi-7B-Instruct-v1-AWQ", quantization="awq")
 outputs = llm.generate(prompts, sampling_params)
 for output in outputs:
+  prompt = output.prompt
+  generated_text = output.outputs[0].text
+  print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
 ```