লোকাল LLM মডেলগুলোর বেঞ্চমার্ক
পটভূমি
আমি LLM Speed Benchmark (LLMSB) তৈরি করেছি আমার পার্ট-টাইম ইঞ্জিনিয়ারিং ইন্টার্ন থাকার সময় Anarchy (YC W23)-এ। LLMSB একটি বেঞ্চমার্কিং টুল যা একটি LLM মডেলের পারফরম্যান্স নির্ণয় করে। এটি HuggingFace-এর transformers লাইব্রেরি ব্যবহার করে একটি LLM মডেল লোড এবং চালায় এবং এটি পরিমাপ করে:
- মোট রানটাইম
- সেকেন্ড প্রতি টোকেন্স
- সাধারণ হার্ডওয়্যার স্পেসিফিকেশন
- CPU ব্যবহার (বর্তমান ফ্রিকোয়েন্সি ও কোরগুলোর ব্যবহার % সময়ের ওপর)
- RAM ব্যবহার (RAM ও swap সময় অনুযায়ী)
- GPU ব্যবহার (লোড, মেমোরি ব্যবহার, ও তাপমাত্রা সময় অনুযায়ী)
এখানে একটি উদাহরণ বেঞ্চমার্ক রান আছে codellama-13b-oasst-sft-v10 মডেলের জন্য যা একটি H100-এ চালানো হয়েছে। আমার ব্যক্তিগত মালিকানায় একটি Nvidia RTX 2070 Ti আছে, যার VRAM 8 GB। দুঃখজনকভাবে, আধুনিক বেশিরভাগ LLM মডেলের জন্য 8 GB VRAM মডেলের সাথে ইন্টারফেস করার জন্য পর্যাপ্ত নয়। এই কারণে, আমি কিছু মডেলে বেঞ্চমার্ক চালাতে GPU “ভাড়া” নিতে RunPod ব্যবহার করেছি।
এটাই LLMSB-এর উৎপত্তি/পটভূমি গল্প ছিল। প্রকল্পটি ওপেন-সোর্স হওয়ায়, আপনি কোড এখানে দেখতে পারবেন। নীচে, যদি আপনি আগ্রহী হন তবে আমি রিপো থেকে README অন্তর্ভুক্ত করেছি।
সম্পর্কে
🚧 LLM Speed Benchmark (LLMSB) বর্তমানে বিটা (v0) অবস্থায় রয়েছে। অনুগ্রহ করে এটি প্রোডাকশনে ব্যবহার করবেন না, বা ব্যবহার করলে আপনার নিজস্ব ঝুঁকি নিন। আমরা এখনও কিছু ত্রুটি ঠিক করছি এবং কার্যকারিতা উন্নত করছি। যদি আপনি কোনো বাগ দেখতে পান বা পরামর্শ থাকে, অনুগ্রহ করে ISSUES-এ রিপোর্ট করুন। আপনার প্রতিক্রিয়া অমূল্য!
LLM Speed Benchmark (LLMSB) একটি বেঞ্চমার্কিং টুল যা বিভিন্ন হার্ডওয়্যার প্ল্যাটফর্ম জুড়ে LLM মডেলগুলোর কর্মক্ষমতা মূল্যায়ন করে। এর চূড়ান্ত লক্ষ্য হলো একটি ব্যাপক ডেটাসেট সংকলন করা যা বিভিন্ন সিস্টেমে LLM মডেলগুলোর কার্যকারিতা বর্ণনা করবে, যাতে ব্যবহারকারীরা তাদের প্রকল্পের জন্য আরও কার্যকরভাবে সঠিক LLM মডেল(গুলি) নির্বাচন করতে পারে।
সীমাবদ্ধতা
LLMSB v0-এ আছে, তাই এর কিছু সীমাবদ্ধতা রয়েছে:
- শুধুমাত্র Debian ভিত্তিক অপারেটিং সিস্টেমে চালানোর জন্য ডিজাইন করা হয়েছে, অর্থাৎ এটি Windows-এ চালানোর জন্য ডিজাইন করা হয়নি। এর কারণ হলো LLMSB আন্ডার দ্য হুড metrics সংগ্রহের জন্য neofetch ও nvidia-smi ব্যবহার করে এবং ফাইলপাথ লজিক ইউনিক্স অপারেটিং সিস্টেম ভিত্তিক।
- কিভাবে metrics রেকর্ড করা হয় তার কারণে, metrics সংগ্রাহককে একটি সংগ্রহ করার জন্য সর্বোচ্চ 1 সেকেন্ড লাগতে পারে। এর মানে হলো দ্রুতগতিতে আমরা প্রতি 1 সেকেন্ডে হার্ডওয়্যার metrics সংগ্রহ করতে পারি।
- LLMSB বর্তমানে শুধু HuggingFace ব্যবহার করে মডেল লোড ও চালায়। এটি এখনকার জন্য কাজ করে, তবে লক্ষ্য হলো LLMSB-কে একাধিক ফ্রেমওয়ার্ক সমর্থন করতে সক্ষম করা, শুধু HuggingFace নয়।
- বর্তমানে, সব মডেল run_llm() ফাংশনে প্রদত্ত লজিক দিয়ে চালানো হয়, যা src/hf.py-তে অবস্থিত, যেখানে AutoTokenizer() এবং AutoModelForCausalLM() ফাংশনগুলো ব্যবহার করে একটি মডেল লোড এবং চালানো হয়। এটি কাজ করে কিন্তু এটি নির্দিষ্ট মডেলগুলো কনফিগার/অপটিমাইজ করার ক্ষেত্রে সীমাবদ্ধতা তোলে। এটি জেনে, লক্ষ্য হলো প্রতিটি জনপ্রিয় মডেলের জন্য আলাদা ক্লাস তৈরি করা এবং HuggingFace-এর মডেল স্পেসিফিক ক্লাসগুলো ব্যবহার করা, যেমন LlamaTokenizer & LlamaForCausalLM, ইত্যাদি।
- LLMSB শুধুমাত্র সাধারণ, উচ্চ স্তরের metrics সংগ্রহ করে। ভবিষ্যতে, আমরা নিম্ন স্তরের metrics সংগ্রহ করতে চাই। আমরা মনে করি এটি আংশিকভাবে Pytorch-এর profiler wrapper ব্যবহার করে করা যায়।
নমুনা আউটপুট
২২ নভেম্বর, ২০২৩
LLMSB RunPod ব্যবহার করে একটি L40 ও H100 GPU-এ চালানো/পরীক্ষা করা হয়েছে। ওই বেঞ্চমার্কগুলোতে মডেলগুলো llama-2-7b-hf, codellama-13b-oasst-sft-v10, & mpt-7b পরীক্ষা করা হয়। ফলাফলগুলো দেখুন এখানে। যদি কোনো ত্রুটি/সমস্যা লক্ষ্য করা যায়, অনুগ্রহ করে এগুলো ISSUES-এ রিপোর্ট করুন।
সেটআপ
-
পাইথন পরিবেশ তৈরি করুন এবং সক্রিয় করুন:
python3 -m venv env source env/bin/activate -
প্যাকেজ নির্ভরতাগুলো ইনস্টল করুন (APT ব্যবহার করে):
apt -y update apt install -y vim apt install -y neofetch -
পাইথন নির্ভরতাগুলো ইনস্টল করুন:
pip3 install transformers pip3 install psutil pip3 install gputil pip3 install tabulate pip3 install sentencepiece pip3 install protobuf -
Pytorch ইনস্টল করুন
# install pytorch stable build, for linux, using CUDA 12.1: pip3 install torch torchvision torchaudio -
LLM-VM ইনস্টল করুন:
pip install llm-vm -
(ঐচ্ছিক) যদি আপনি LLAMA-এর মতো মডেল ব্যবহার করছেন, তাহলে আপনাকে একটি HuggingFace অ্যাক্সেস টোকেন দরকার হবে। আপনার অ্যাক্সেস টোকেন এখানে সেটআপ করুন এবং তারপর নিচের কমান্ড চালিয়ে টোকেনটি কনসোলে সেভ করুন:
huggingface-cli login
কীভাবে চালাবেন
-
সেটআপ অংশে থাকা ধাপগুলো সম্পন্ন করুন।
-
আপনার সেট কনফিগার করার জন্য, আপনাকে নিচের প্যারামিটারগুলো সহ একটি json ফাইল তৈরি করতে হবে (এখানে একটি উদাহরণ আছে):
- নোট: সব ফ্রেমওয়ার্ক একই প্যারামিটার সমর্থন করে না
{ "model": "bigscience/bloom-560m", # the model's path/repo on HuggingFace (https://huggingface.co/models) "prompt": "Hello World!", # the prompt you want to input into the LLM model "device": "cuda:0", # the device you want to run the LLM model on (GPU/CPU) "max_length": 50, # the maximun length of the generated tokens "temperature": 0.9, # temperatue value for the LLM model "top_k": 50, # top-k value for the LLM model "top_p": 0.9, # top-p value for the LLM model "num_return_sequences": 1, # the number of independently ran instances of the model "time_delay": 0, # the time delay (seconds) the metrics-collecter will wait per interation "model_start_pause": 1, # the time (seconds) the test will wait BEFORE running the LLM model "model_end_pause": 1 # the time (seconds) the test will wait AFTER the LLM model is done running, "framework": "llm-vm" # the name of the framework/library you want to use to run the model } -
পূর্ববর্তী ধাপে আপনি যে কনফিগ ফাইল তৈরি করেছেন তার পাথ ব্যবহার করে, নিচের কোন একটি অপশন বেছে নিয়ে বেঞ্চমার্ক শুরু করুন:
# run one benchmark python3 run.py --config ./configs/llmvm_test.json # run more then one benchmark (in this case 3) python3 run.py --config ./configs/llmvm_test.json --loops 3 -
বেঞ্চমার্ক সম্পন্ন হওয়ার পরে, চূড়ান্ত ফলাফল একটি ফাইলের মধ্যে দেখুন যা এরকম কিছু দেখাবে:
report_2023-11-25_05:55:04.207515_utc_1ffc4fa7-3aa9-4878-b874-1ff445e1ff8a.json
RunPod সেটআপ করা:
-
RunPod সেটআপ করুন, আপনার ssh সার্ট/কী সেটআপ করুন, এবং একটি পড চালু করুন। আপনি আপনার পড(গুলি) RunPod-এর কনসোল পেজ-এ অ্যাক্সেস করতে পারবেন।
-
SSH কানেকশন তথ্য পেতে “Connect” বোতামে ক্লিক করুন। এই তথ্যটি এরকম কিছু দেখতে হবে:
ssh root&12.345.678.90 -p 12345 -i ~/.ssh/id_example-
এই কমান্ডটি এই ফর্ম্যাটে থাকবে:
ssh <user>@<ip-address> -p <port> -i <local-path-to-ssh-cert>
-
-
ধাপ #2-এ থাকা কমান্ড ব্যবহার করে, আপনি পডে SSH করতে সক্ষম হবেন এবং সেখানে আপনার নির্বাচিত GPU ব্যবহার করতে পারবেন।
-
যদি আপনি পড থেকে আপনার লোকাল মেশিনে কোনো ফাইল কপি করতে চান, আপনি নিচের ফর্ম্যাটের কমান্ড চালাবেন (যা ধাপ #2-এ প্রদত্ত ভেরিয়েবলগুলোকে নির্দেশ করছে):
scp -P <port> -i <local-path-to-ssh-cert> <user>@<ip-address>:<path-to-file-in-pod> <path-to-local-directory>-
এর একটি উদাহরণ কমান্ড এখানে দেওয়া হলো:
scp -P 12345 -i ~/.ssh/id_example <user>@<ip-address>:/root/test.txt /home/user1/Downloads/
-
-
পড ব্যবহারের পর, এটি বন্ধ করুন বা pause করুন। কিন্তু সতর্কতা, যদি আপনি pause করেন তবুও চার্জ নেওয়া হবে, শুধু অনেক কম।
চমৎকার উৎসসমূহ:
- প্রম্পট ডেটাসেট: awesome-chatgpt-prompts, bigscience/P3, & writing-prompts
- LLM প্যারামিটার সম্পর্কে আরও জানুন
- ক্লাউডভিত্তিক LLM মডেলগুলো বেঞ্চমার্ক করার জন্য চমৎকার বেঞ্চমার্ক
- কুল LLM ইন্টেলিজেন্স লিডারবোর্ড: FastEval & open_llm_leaderboard