ਲੋਕਲ LLM ਮਾਡਲਾਂ ਦਾ ਬੈਂਚਮਾਰਕ
ਪਿਛੋਕੜ
ਮੈਂ LLM Speed Benchmark (LLMSB) ਆਪਣੀ ਨੌਕਰੀ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਇੰਜੀਨੀਅਰਿੰਗ ਇੰਟਰਨ ਦੇ ਤੌਰ ‘ਤੇ Anarchy (YC W23) ਵਿੱਚ ਕੰਮ ਕਰਦੇ ਸਮੇਂ ਬਣਾਇਆ ਸੀ। LLMSB ਇੱਕ ਬੈਂਚਮਾਰਕਿੰਗ ਟੂਲ ਹੈ ਜੋ LLM ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਮਾਪਦਾ ਹੈ। ਇਹ HuggingFace ਦੀਆਂ transformers ਲਾਇਬ੍ਰੇਰੀ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ LLM ਮਾਡਲ ਨੂੰ ਲੋਡ ਅਤੇ ਚਲਾਉਂਦਾ ਹੈ ਅਤੇ ਇਹ ਮਾਪਦਾ ਹੈ:
- ਕੁੱਲ ਰਨਟਾਈਮ
- ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ
- ਜਨਰਲ ਹਾਰਡਵੇਅਰ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ
- CPU ਉਪਯੋਗ (ਮੌਜੂਦਾ ਫ੍ਰੀਕਵੈਂਸੀ & ਕੋਰਾਂ ਦੀ ਉਪਯੋਗਤਾ % ਸਮੇਂ ਦੇ ਨਾਲ)
- ਰੈਮ ਉਪਯੋਗ (ਰੈਮ & ਸਵੈਪ ਸਮੇਂ ਦੇ ਨਾਲ)
- GPU ਉਪਯੋਗ (ਲੋਡ, ਮੈਮੋਰੀ ਉਪਯੋਗਤਾ, ਅਤੇ ਤਾਪਮਾਨ ਸਮੇਂ ਦੇ ਨਾਲ)
ਇੱਥੇ ਇੱਕ ਉਦਾਹਰਨ ਹੈ ਇੱਕ ਬੈਂਚਮਾਰਕ ਰਨ ਦੀ ਲਈ ਮਾਡਲ codellama-13b-oasst-sft-v10 ਜੋ H100 ‘ਤੇ ਚੱਲ ਰਿਹਾ ਸੀ। ਮੇਰੇ ਕੋਲ ਨਿੱਜੀ ਤੌਰ ‘ਤੇ ਇੱਕ Nvidia RTX 2070 Ti ਹੈ, ਜਿਸ ਵਿੱਚ 8 GB VRAM ਹੈ। ਦੁਖ ਦੀ ਗੱਲ ਹੈ ਕਿ ਬਹੁਤ ਸਾਰੇ ਆਧੁਨਿਕ LLM ਮਾਡਲਾਂ ਲਈ 8 GB VRAM ਮਾਡਲ ਨਾਲ ਇੰਟਰਫੇਸ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਨਹੀਂ ਹੁੰਦਾ। ਇਸ ਲਈ, ਮੈਂ ਕੁਝ ਮਾਡਲਾਂ ‘ਤੇ ਆਪਣੇ ਬੈਂਚਮਾਰਕ ਚਲਾਉਣ ਲਈ GPU(s) “ਕਿਰਾਏ” ‘ਤੇ ਲੈਣ ਲਈ RunPod ਦੀ ਵਰਤੋਂ ਕੀਤੀ।
ਇਹ LLMSB ਦੀ ਪਿਛੋਕੜ/ਉਤਪੱਤੀ ਕਹਾਣੀ ਸੀ। ਪ੍ਰੋਜੈਕਟ open-source ਹੈ, ਤੁਸੀਂ ਕੋਡ ਨੂੰ ਇੱਥੇ ਵੇਖ ਸਕਦੇ ਹੋ। ਹੇਠਾਂ, ਮੈਂ ਰੇਪੋ ਤੋਂ README ਸ਼ਾਮਲ ਕੀਤਾ ਹੈ ਜੇ ਤੁਸੀਂ ਇਸਨੂੰ ਚੈੱਕ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ।
ਬਾਰੇ
🚧 LLM Speed Benchmark (LLMSB) ਇਸ ਵੇਲੇ ਬੀਟਾ (v0) ਵਿੱਚ ਹੈ। ਕਿਰਪਾ ਕਰਕੇ ਇਸਨੂੰ ਉਤਪਾਦਨ ਵਿੱਚ ਵਰਤੋਂ ਨਾ ਕਰੋ, ਜਾਂ ਆਪਣੀ ਜੋਖਮ ‘ਤੇ ਵਰਤੋਂ ਕਰੋ। ਅਸੀਂ ਹਾਲੇ ਕੁਝ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਠੀਕ ਕਰ ਰਹੇ ਹਾਂ ਅਤੇ ਫੰਕਸ਼ਨਾਲਟੀ ਨੂੰ ਸੁਧਾਰ ਰਹੇ ਹਾਂ। ਜੇ ਤੁਸੀਂ ਕਿਸੇ ਬੱਗ ਨੂੰ ਦੇਖੋ ਜਾਂ ਕਿਸੇ ਸੁਝਾਅ ਹੋਵੇ, ਕਿਰਪਾ ਕਰਕੇ ਉਹਨਾਂ ਨੂੰ ISSUES ਵਿੱਚ ਰਿਪੋਰਟ ਕਰੋ। ਤੁਹਾਡਾ ਫੀਡਬੈਕ ਬੇਹੱਦ ਕੀਮਤੀ ਹੈ!
LLM Speed Benchmark (LLMSB) ਇੱਕ ਬੈਂਚਮਾਰਕਿੰਗ ਟੂਲ ਹੈ ਜੋ ਵੱਖ-ਵੱਖ ਹਾਰਡਵੇਅਰ ਪਲੇਟਫਾਰਮਾਂ ‘ਤੇ LLM ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਮਾਪਣ ਲਈ ਹੈ। ਇਸ ਦਾ ਅੰਤਿਮ ਲਕੜੀ ਇਹ ਹੈ ਕਿ ਵੱਖ-ਵੱਖ ਸਿਸਟਮਾਂ ‘ਤੇ LLM ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦੀ ਇੱਕ ਵਿਸਤ੍ਰਿਤ ਡੇਟਾਸੈੱਟ ਤਿਆਰ ਕਰਨਾ, ਤਾਂ ਜੋ ਯੂਜ਼ਰ ਆਪਣੇ ਪ੍ਰੋਜੈਕਟਾਂ ਲਈ ਸਹੀ LLM ਮਾਡਲ(ਆਂ) ਨੂੰ ਜ਼ਿਆਦਾ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਚੁਣ ਸਕਣ।
ਸੀਮਾਵਾਂ
LLMSB v0 ‘ਤੇ ਹੈ, ਇਸ ਲਈ ਇਸ ਦੀਆਂ ਕੁਝ ਸੀਮਾਵਾਂ ਹਨ:
- ਸਿਰਫ Debian ਆਧਾਰਿਤ ਓਪਰੇਟਿੰਗ ਸਿਸਟਮਾਂ ‘ਤੇ ਚੱਲਾਉਣ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਹੈ, ਦੂਜੀ ਸ਼ਰਤ ਇਹ ਹੈ ਕਿ ਇਹ Windows ‘ਤੇ ਚੱਲਾਉਣ ਲਈ ਡਿਜ਼ਾਈਨ ਨਹੀਂ ਕੀਤਾ ਗਿਆ। ਇਹ ਇਸ ਲਈ ਹੈ ਕਿ LLMSB ਹੇਠਾਂ ਮੈਟਰਿਕਸ ਇਕੱਠਾ ਕਰਨ ਲਈ neofetch ਅਤੇ nvidia-smi ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਅਤੇ ਫਾਈਲਪਾਥ ਲਾਜਿਕ ਯੂਨਿਕਸ ਓਪਰੇਟਿੰਗ ਸਿਸਟਮਾਂ ‘ਤੇ ਆਧਾਰਿਤ ਹੈ।
- ਜਿਵੇਂ ਕਿ ਮੈਟਰਿਕਸ ਰਿਕਾਰਡ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ, ਮੈਟਰਿਕਸ ਕਲੇਕਟਰ ਨੂੰ ਇਕ ਕਲੇਕਸ਼ਨ ਕਰਨ ਵਿੱਚ ਲਗਭਗ 1 ਸਕਿੰਟ ਲੱਗ ਸਕਦਾ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਇਹ ਹੈ ਕਿ ਸਭ ਤੋਂ ਤੇਜ਼ ਤਰੀਕੇ ਨਾਲ ਅਸੀਂ ਹਰ 1 ਸਕਿੰਟ ‘ਤੇ ਹਾਰਡਵੇਅਰ ਮੈਟਰਿਕਸ ਇਕੱਠੇ ਕਰ ਸਕਦੇ ਹਾਂ।
- LLMSB ਸਿਰਫ HuggingFace ਨੂੰ ਮਾਡਲ ਲੋਡ ਅਤੇ ਚਲਾਉਣ ਲਈ ਵਰਤਦਾ ਹੈ। ਇਹ ਹੁਣ ਲਈ ਚੱਲਦਾ ਹੈ, ਪਰ ਲਕੜੀ ਇਹ ਹੈ ਕਿ LLMSB ਨੂੰ ਇੱਕ ਤੋਂ ਵੱਧ ਫਰੇਮਵਰਕਾਂ ਲਈ ਸਹਾਇਤਾ ਦੇਣੀ ਚਾਹੀਦੀ ਹੈ, ਸਿਰਫ HuggingFace ਹੀ ਨਹੀਂ।
- ਇਸ ਵੇਲੇ, ਸਾਰੇ ਮਾਡਲ src/hf.py ਵਿੱਚ ਮੌਜੂਦ run_llm() ਫੰਕਸ਼ਨ ਵਿੱਚ ਦਿੱਖਾਈ ਦੇਣ ਵਾਲੀ ਲੌਜਿਕ ਰਾਹੀਂ ਚਲਾਏ ਜਾਂਦੇ ਹਨ, ਜਿੱਥੇ AutoTokenizer() ਅਤੇ AutoModelForCausalLM() ਫੰਕਸ਼ਨਾਂ ਦੀ ਵਰਤੋਂ ਮਾਡਲ ਲੋਡ ਅਤੇ ਚਲਾਉਣ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਹ ਕੰਮ ਕਰਦਾ ਹੈ ਪਰ ਇਹ ਸਾਡੇ ਲਈ ਕੁਝ ਮੁਦਦਾਂ ਵਿੱਚ ਹੱਦਬੱਧ ਕਰਦਾ ਹੈ ਕਿ ਅਸੀਂ ਕਿਸ ਤਰ੍ਹਾਂ ਖਾਸ ਮਾਡਲਾਂ ਦੀ ਕਨਫਿਗ/ਅੱਪਟੀਮਾਈਜ਼ ਕਰ ਸਕਦੇ ਹਾਂ। ਇਸ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦੇ ਹੋਏ, ਲਕੜੀ ਇਹ ਹੈ ਕਿ ਹਰ ਪ੍ਰਸਿੱਧ ਮਾਡਲ ਲਈ ਵੱਖ-ਵੱਖ ਕਲਾਸਾਂ ਬਣਾਈਆਂ ਜਾਣ ਅਤੇ HuggingFace ਦੀਆਂ ਮਾਡਲ ਵਿਸ਼ੇਸ਼ ਕਲਾਸਾਂ ਵਰਤੀ ਜਾਣ, ਜਿਵੇਂ LlamaTokenizer & LlamaForCausalLM।
- LLMSB ਸਿਰਫ ਸਧਾਰਨ, ਉੱਚ-ਪੱਧਰੀ ਮੈਟਰਿਕਸ ਇਕੱਠੇ ਕਰਦਾ ਹੈ। ਭਵਿੱਖ ਵਿੱਚ, ਅਸੀਂ ਥੱਲੇ-ਪੱਧਰੀ ਮੈਟਰਿਕਸ ਵੀ ਇਕੱਠੇ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ। ਸਾਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਇਹ ਹਿੱਸਾ-ਤਰ ਸਾਨੂੰ PyTorch ਦੇ profiler wrapper ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਨਮੂਨਾ ਨਿਕਾਸ
22 ਨਵੰਬਰ, 2023
LLMSB ਨੂੰ RunPod ਰਾਹੀਂ ਇੱਕ L40 ਅਤੇ H100 GPU ‘ਤੇ ਚਲਾਇਆ/ਟੈਸਟ ਕੀਤਾ ਗਿਆ ਸੀ। ਉਹਨਾਂ ਬੈਂਚਮਾਰਕਾਂ ਵਿੱਚ ਮਾਡਲ llama-2-7b-hf, codellama-13b-oasst-sft-v10, ਅਤੇ mpt-7b ਦੀ ਜਾਂਚ ਕੀਤੀ ਗਈ। ਨਤੀਜੇ ਵੇਖੋ ਇੱਥੇ। ਜੇ ਕਿਸੇ ਤਰ੍ਹਾਂ ਦੀਆਂ ਗਲਤੀਆਂ/ਮਸਲੇ ਨੋਟਿਸ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਕਿਰਪਾ ਕਰਕੇ ਉਹਨਾਂ ਨੂੰ ISSUES ‘ਤੇ ਰਿਪੋਰਟ ਕਰੋ।
ਸੈਟਅੱਪ
-
ਪਾਇਥਨ ਵਾਤਾਵਰਨ ਬਣਾਓ ਅਤੇ ਐਕਟੀਵੇਟ ਕਰੋ:
python3 -m venv env source env/bin/activate -
ਪੈਕੇਜ ਡਿਪੈਂਡੇੰਸੀਜ਼ ਇੰਸਟਾਲ ਕਰੋ (APT ਦੀ ਵਰਤੋਂ ਕਰਕੇ):
apt -y update apt install -y vim apt install -y neofetch -
ਪਾਇਥਨ ਡਿਪੈਂਡੇੰਸੀਜ਼ ਇੰਸਟਾਲ ਕਰੋ:
pip3 install transformers pip3 install psutil pip3 install gputil pip3 install tabulate pip3 install sentencepiece pip3 install protobuf -
Pytorch ਇੰਸਟਾਲ ਕਰੋ
# install pytorch stable build, for linux, using CUDA 12.1: pip3 install torch torchvision torchaudio -
LLM-VM ਇੰਸਟਾਲ ਕਰੋ:
pip install llm-vm -
(ਵੈਿਕਲਪਿਕ) ਜੇ ਤੁਸੀਂ LLAMA ਵਰਗੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰ ਰਹੇ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ HuggingFace ਐਕਸੈਸ ਟੋਕਨ ਦੀ ਲੋੜ ਹੋਏਗੀ। ਆਪਣਾ ਐਕਸੈਸ ਟੋਕਨ ਸੈਟਅੱਪ ਕਰੋ ਇੱਥੇ ਫਿਰ ਆਪਣਾ ਟੋਕਨ ਆਪਣੇ ਕੰਸੋਲ ‘ਚ ਸੇਵ ਕਰਨ ਲਈ ਹੇਠਾਂ ਦਿੱਤਾ ਕمانਡ ਚਲਾਓ:
huggingface-cli login
ਚਲਾਉਣ ਦਾ ਢੰਗ
-
ਸੈਟਅੱਪ ਸੈਕਸ਼ਨ ਵਿੱਚ ਦਿੱਤੇ ਕਦਮਾਂ ਨੂੰ ਪੂਰਾ ਕਰੋ।
-
ਆਪਣੀ ਸੈਟ ਨੂੰ ਕੰਫਿਗਰ ਕਰਨ ਲਈ, ਤੁਹਾਨੂੰ ਹੇਠਾਂ ਦਿੱਤੇ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲੀ ਇੱਕ json ਫਾਇਲ ਬਣਾਉਣ ਦੀ ਲੋੜ ਹੈ (ਇੱਥੇ ਇਕ ਉਦਾਹਰਨ ਹੈ):
- ਨੋਟ: ਹਰ ਫਰੇਮਵਰਕ ਇੱਕੋ ਜਿਹੇ ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਸਹਾਇਤ ਨਹੀਂ ਕਰਦਾ
{ "model": "bigscience/bloom-560m", # the model's path/repo on HuggingFace (https://huggingface.co/models) "prompt": "Hello World!", # the prompt you want to input into the LLM model "device": "cuda:0", # the device you want to run the LLM model on (GPU/CPU) "max_length": 50, # the maximun length of the generated tokens "temperature": 0.9, # temperatue value for the LLM model "top_k": 50, # top-k value for the LLM model "top_p": 0.9, # top-p value for the LLM model "num_return_sequences": 1, # the number of independently ran instances of the model "time_delay": 0, # the time delay (seconds) the metrics-collecter will wait per interation "model_start_pause": 1, # the time (seconds) the test will wait BEFORE running the LLM model "model_end_pause": 1 # the time (seconds) the test will wait AFTER the LLM model is done running, "framework": "llm-vm" # the name of the framework/library you want to use to run the model } -
ਪਿਛਲੇ ਕਦਮ ਵਿੱਚ ਬਣਾਈ ਗਈ config ਫਾਈਲ ਦੇ ਪਾਥ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਬenchਮਾਰਕ ਸ਼ੁਰੂ ਕਰਨ ਲਈ ਹੇਠਾਂ ਦਿੱਤਾ ਚੁਣੋ ਅਤੇ ਚਲਾਓ (ਇੱਕ ਵਿਕਲਪ ਚੁਣੋ):
# run one benchmark python3 run.py --config ./configs/llmvm_test.json # run more then one benchmark (in this case 3) python3 run.py --config ./configs/llmvm_test.json --loops 3 -
ਬenchਮਾਰਕ ਦੇ ਚਲ ਕੇ ਖਤਮ ਹੋਣ ਤੋਂ ਬਾਅਦ, ਅੰਤਿਮ ਨਤੀਜੇ ਇੱਕ ਫਾਇਲ ਵਿੱਚ ਚੈਕ ਕਰੋ ਜੋ ਕੁਝ ਇਸ ਤਰ੍ਹਾਂ ਦਿਖਾਈ ਦੇ ਸਕਦੀ ਹੈ:
report_2023-11-25_05:55:04.207515_utc_1ffc4fa7-3aa9-4878-b874-1ff445e1ff8a.json
RunPod ਸੈਟਅੱਪ:
-
RunPod ਸੈੱਟਅੱਪ ਕਰੋ, ਆਪਣਾ ssh ਸਰਟੀ/ਕੁੰਜੀ ਸੈਟ ਕਰੋ, ਅਤੇ ਇੱਕ ਪੋਡ ਚਲਾਓ। ਤੁਸੀਂ ਆਪਣੇ ਪੋਡ(ਸ) ਨੂੰ RunPod ਦਾ ਕਨਸੋਲ ਪੇਜ ‘ਤੇ ਐਕਸੈਸ ਕਰ ਸਕਦੇ ਹੋ।
-
SSH ਕੁਨੈਕਸ਼ਨ ਇੰਫੋ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ “Connect” ਬਟਨ ‘ਤੇ ਕਲਿੱਕ ਕਰੋ। ਇਹ ਜਾਣਕਾਰੀ ਕੁਝ ਇਸ ਤਰ੍ਹਾਂ ਦਿਖਾਈ ਦੇਵੇਗੀ:
ssh root&12.345.678.90 -p 12345 -i ~/.ssh/id_example-
ਇਹ ਕਮਾਂਡ ਇਸ ਫਾਰਮੈਟ ਵਿੱਚ ਤੁਯਾਰ ਹੋਵੇਗੀ:
ssh <user>@<ip-address> -p <port> -i <local-path-to-ssh-cert>
-
-
ਕਦਮ #2 ਵਿੱਚ ਦਿੱਤੀ ਕਮਾਂਡ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਤੁਸੀਂ ਪੋਡ ਵਿੱਚ ssh ਕਰ ਸਕਦੇ ਹੋ ਅਤੇ ਉਸ RunPod ਪੋਡ ਵਿੱਚ ਚੁਣਿਆ ਗਿਆ GPU ਵਰਤ ਸਕਦੇ ਹੋ।
-
ਜੇ ਤੁਸੀਂ ਪੋਡ ਤੋਂ ਆਪਣੀ ਲੋਕਲ ਮਸ਼ੀਨ ‘ਤੇ ਕੋਈ ਫਾਇਲ ਕਾਪੀ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਹੇਠਾਂ ਦਿੱਤੇ ਫਾਰਮੈਟ ਵਿੱਚ ਕਮਾਂਡ ਚਲਾਵੋਗੇ (ਇਹ ਕਦਮ #2 ਵਿੱਚ ਦਿੱਤੇ ਵੈਰੀਏਬਲਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ):
scp -P <port> -i <local-path-to-ssh-cert> <user>@<ip-address>:<path-to-file-in-pod> <path-to-local-directory>-
ਹੇਠਾਂ ਇੱਕ ਉਦਾਹਰਨ ਦਿੱਤੀ ਗਈ ਹੈ:
scp -P 12345 -i ~/.ssh/id_example <user>@<ip-address>:/root/test.txt /home/user1/Downloads/
-
-
ਜਦੋਂ ਤੁਸੀਂ ਪੋਡ ਨਾਲ ਕੰਮ ਮੁਕੰਮਲ ਕਰ ਲਵੋ, ਤਾਂ ਉਸਨੂੰ ਸ਼ਟਡਾਊਨ ਜਾਂ ਪੌਜ਼ ਕਰੋ। ਪਰ ਚੇਤਾਵਨੀ: ਜੇ ਤੁਸੀਂ ਪੌਜ਼ ਕਰਦੇ ਹੋ ਤਾਂ ਵੀ ਤੁਹਾਨੂੰ ਚਾਰਜ ਕੀਤਾ ਜਾਵੇਗਾ, ਸਿਰਫ਼ ਬਹੁਤ ਘੱਟ।
ਸ਼ਾਨਦਾਰ ਸਰੋਤ:
- ਪ੍ਰਾਂਪਟ ਡੇਟਾਸੈਟ: awesome-chatgpt-prompts, bigscience/P3, & writing-prompts
- LLM ਪੈਰਾਮੀਟਰਾਂ ਬਾਰੇ ਹੋਰ ਜਾਣੋ
- ਕਲਾਉਡ-ਅਧਾਰਤ LLM ਮਾਡਲਾਂ ਨੂੰ ਬੈਂਚਮਾਰਕ ਕਰਨ ਲਈ ਮਹਾਨ ਬenchਮਾਰਕ
- ਸ਼ਾਨਦਾਰ LLM ਇੰਟੈਲਿਜੈਂਸ ਲੀਡਰਬੋਰਡ: FastEval & open_llm_leaderboard