Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2306.08543

Language Models - Essential Research Papers

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 115
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 19
LLaMA: Open and Efficient Foundation Language Models

Paper • 2302.13971 • Published Feb 27, 2023 • 20
Llama 2: Open Foundation and Fine-Tuned Chat Models

Paper • 2307.09288 • Published Jul 18, 2023 • 250

Addition is All You Need for Energy-efficient Language Models

Paper • 2410.00907 • Published Oct 1, 2024 • 151
Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 22
facebook/MobileLLM-350M

Text Generation • Updated May 5, 2025 • 18 • 36

Papers Mini Models

Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 22
recobo/agriculture-bert-uncased

Fill-Mask • Updated Oct 8, 2021 • 236 • 22

Detecting Pretraining Data from Large Language Models

Paper • 2310.16789 • Published Oct 25, 2023 • 11
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

Paper • 2310.13671 • Published Oct 20, 2023 • 19
AutoMix: Automatically Mixing Language Models

Paper • 2310.12963 • Published Oct 19, 2023 • 14
An Emulator for Fine-Tuning Large Language Models using Small Language Models

Paper • 2310.12962 • Published Oct 19, 2023 • 13

Retentive Network: A Successor to Transformer for Large Language Models

Paper • 2307.08621 • Published Jul 17, 2023 • 173
Sparks of Artificial General Intelligence: Early experiments with GPT-4

Paper • 2303.12712 • Published Mar 22, 2023 • 5
GPT-4 Technical Report

Paper • 2303.08774 • Published Mar 15, 2023 • 7
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Paper • 2201.11903 • Published Jan 28, 2022 • 15

I add and I forget to read

Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training

Paper • 2502.03460 • Published Feb 5, 2025
Pruning as a Domain-specific LLM Extractor

Paper • 2405.06275 • Published May 10, 2024 • 1
LLM-Pruner: On the Structural Pruning of Large Language Models

Paper • 2305.11627 • Published May 19, 2023 • 3
KnowTuning: Knowledge-aware Fine-tuning for Large Language Models

Paper • 2402.11176 • Published Feb 17, 2024 • 2

LLM Post Training

Instruction Tuning for Large Language Models: A Survey

Paper • 2308.10792 • Published Aug 21, 2023 • 1
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

Paper • 2403.14608 • Published Mar 21, 2024
Efficient Large Language Models: A Survey

Paper • 2312.03863 • Published Dec 6, 2023 • 4
ReFT: Reasoning with Reinforced Fine-Tuning

Paper • 2401.08967 • Published Jan 17, 2024 • 31

Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 22

Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 22

Language Models - Essential Research Papers

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 115
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 19
LLaMA: Open and Efficient Foundation Language Models

Paper • 2302.13971 • Published Feb 27, 2023 • 20
Llama 2: Open Foundation and Fine-Tuned Chat Models

Paper • 2307.09288 • Published Jul 18, 2023 • 250

I add and I forget to read

Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training

Paper • 2502.03460 • Published Feb 5, 2025
Pruning as a Domain-specific LLM Extractor

Paper • 2405.06275 • Published May 10, 2024 • 1
LLM-Pruner: On the Structural Pruning of Large Language Models

Paper • 2305.11627 • Published May 19, 2023 • 3
KnowTuning: Knowledge-aware Fine-tuning for Large Language Models

Paper • 2402.11176 • Published Feb 17, 2024 • 2

Addition is All You Need for Energy-efficient Language Models

Paper • 2410.00907 • Published Oct 1, 2024 • 151
Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 22
facebook/MobileLLM-350M

Text Generation • Updated May 5, 2025 • 18 • 36

LLM Post Training

Instruction Tuning for Large Language Models: A Survey

Paper • 2308.10792 • Published Aug 21, 2023 • 1
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

Paper • 2403.14608 • Published Mar 21, 2024
Efficient Large Language Models: A Survey

Paper • 2312.03863 • Published Dec 6, 2023 • 4
ReFT: Reasoning with Reinforced Fine-Tuning

Paper • 2401.08967 • Published Jan 17, 2024 • 31

Papers Mini Models

Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 22
recobo/agriculture-bert-uncased

Fill-Mask • Updated Oct 8, 2021 • 236 • 22

Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 22

Detecting Pretraining Data from Large Language Models

Paper • 2310.16789 • Published Oct 25, 2023 • 11
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

Paper • 2310.13671 • Published Oct 20, 2023 • 19
AutoMix: Automatically Mixing Language Models

Paper • 2310.12963 • Published Oct 19, 2023 • 14
An Emulator for Fine-Tuning Large Language Models using Small Language Models

Paper • 2310.12962 • Published Oct 19, 2023 • 13

Knowledge Distillation of Large Language Models

Paper • 2306.08543 • Published Jun 14, 2023 • 22

Retentive Network: A Successor to Transformer for Large Language Models

Paper • 2307.08621 • Published Jul 17, 2023 • 173
Sparks of Artificial General Intelligence: Early experiments with GPT-4

Paper • 2303.12712 • Published Mar 22, 2023 • 5
GPT-4 Technical Report

Paper • 2303.08774 • Published Mar 15, 2023 • 7
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Paper • 2201.11903 • Published Jan 28, 2022 • 15

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs