InsightRed
के बारे में
InsightRed एक LLM-संचालित टूल है जो सबरेडिट्स से नवीनतम Reddit टिप्पणियों को “हॉट” के अनुसार क्रमबद्ध करके निकालता है, और उन उपयोगकर्ताओं की पहचान करता है जो आपके प्रोजेक्ट या उत्पाद में संभावित रुचि दिखाते हैं। यह एक Reddit मार्केटिंग टूल है जो आपको अपने उत्पाद/प्रोजेक्ट के शुरुआती उपयोगकर्ताओं को प्राप्त करने में मदद करता है। यह प्रोजेक्ट ANARCHY अक्टूबर 2023 हैकाथॉन के लिए बनाया गया था।
घोषणाएँ
October 19, 2023
इस प्रोजेक्ट के बाद, मैं यह घोषणा करते हुए उत्साहित हूँ कि हमने Anarchy के अक्टूबर 2023 हैकाथॉन में 1ला स्थान जीत लिया!
संदेश को TEXT मोड में देखने के लिए यहाँ क्लिक करें (Discord के फ़ॉर्मेटिंग के कारण संशोधित)
@everyone **👑 HACKATHON 👑**
I'm very excited to announce the second anarchy hackathon's winners as follows:
🥇 "@Ben Zimmerman [T3CH3Y]", @Mehmet, and "@Ananya Aithal"'s InsightRed! https://www.youtube.com/watch?v=xhKwnKxmg5k
🥈 @partho and @Karan's DistillClassifier https://www.loom.com/share/d7e7c8e12dd14bcabdf41051433901a1?sid=900cb491-8117-4530-a131-d87eeca1ca6f
Really **AMAZING WORK EVERYBODY** @MathYouF and I were super impressed by all the submissions.
Special mentions go out to:
1. @B3LOL, @alastine , and @AndrewKamau 's WiE: https://youtu.be/V8gqCvgRcpk
2. "@Mert Bozkir | mertbozkir"'s Doc-String-Ify: https://www.loom.com/share/274565d0ddec417783e739ee728654d3?sid=6bb1b07a-f06a-4ec3-82c6-1d7ba6eae0d3
The feedback we got from these projects has been super valuable and we're going to work on fixing every bit 🦜
We're going to reach out to the teams individually for prizes. Additionally, we think these were incredible enough that we'd like to spend the next few weeks working on showcasing these incredible projects.
डेमो
InsightRed के घटक
🧩 संग्रहकर्ता
संग्रहकर्ता दिए गए सबरेडिट्स के लिए नवीनतम Reddit पोस्ट और उन पोस्ट की टिप्पणियों को Reddit की API का उपयोग करके एकत्र करता है। एकत्र करने के बाद, संग्रहकर्ता एकत्रित डेटा को स्थानीय SQLite डेटाबेस में सहेजता है। यह प्रक्रिया python पैकेज praw का उपयोग करके Reddit API के साथ काम करने और SQLAlchemy का उपयोग करके स्थानीय SQLite डेटाबेस में CRUD ऑपरेशन्स करने से आसान हो जाती है।
🧩 वेक्टराइज़र
वेक्टराइज़र स्थानीय SQLite डेटाबेस की जाँच करता है कि कौन सी टिप्पणियाँ वेक्टर डेटाबेस में सहेजी नहीं गई हैं। टिप्पणियों की सूची मिलने के बाद, यह पोस्ट+टिप्पणी का एम्बेडिंग OpenAI के “text-embedding-ada-002” मॉडल का उपयोग करके बनाता है। यह एम्बेडिंग वेक्टर डेटाबेस में एक इंडेक्स के रूप में उपयोग की जाती है और कुछ मेटाडेटा, JSON के रूप में, भी बनाया जाता है। इंडेक्स और मेटाडेटा फिर वेक्टर डेटाबेस में अपलोड किए जाते हैं, जो इस मामले में Pinecone (क्लाउड-आधारित) है। अपलोड होने के बाद, स्थानीय SQLite डेटाबेस को अपडेट किया जाता है ताकि वही डेटा Pinecone में दोबारा अपलोड न हो। यह सब Pinecone के python क्लाइंट (pinecone-client) का उपयोग करके वेक्टर डेटाबेस में CRUD ऑप्शन करने और LangChain का उपयोग करके एम्बेडिंग प्रक्रिया को संभालने से किया जाता है।
🧩 इंटरफ़ेस
इंटरफ़ेस वह माध्यम है जिसका उपयोग उपयोगकर्ता टूल के साथ इंटरैक्ट करने के लिए करता है। इस मामले में, इंटरफ़ेस एक CLI है। इंटरफ़ेस में Retrieval-Augmented-Generation (RAG) का कार्यान्वयन है। जहाँ उपयोगकर्ता अपने उत्पाद का विवरण, जांचने के लिए सबरेडिट्स की सूची, और कुछ फ़िल्टर प्रदान करता है। इस संदर्भ के आधार पर, पहले संग्रहकर्ता को कॉल किया जाता है फिर वेक्टराइज़र को। इन दो सेवाओं के प्रोसेसिंग के बाद, इनपुट किया गया उत्पाद विवरण वेक्टर डेटाबेस में समान खोज करने के लिए उपयोग किया जाता है। शीर्ष परिणाम और उत्पाद विवरण फिर एक प्रॉम्प्ट टेम्पलेट में फीड किए जाते हैं जो अंतिम प्रॉम्प्ट बनाता है। अंतिम प्रॉम्प्ट फिर OpenAI के GPT-4 मॉडल को भेजा जाता है और अंतिम परिणाम उपयोगकर्ता को प्रस्तुत किए जाते हैं। ये परिणाम सभी Reddit टिप्पणियों की एक सूची होगी जो यह संकेत देती हैं कि Reddit उपयोगकर्ता प्रदान किए गए उत्पाद में रुचि रख सकते हैं, उसके विवरण के आधार पर। यह घटक संग्रहकर्ता और वेक्टराइज़र की टिप्पणियों का उपयोग करके, साथ ही Anarchy के LLM-VM का उपयोग करके OpenAI के GPT-4 मॉडल को क्वेरी करने के द्वारा काम करता है।
टीम सदस्य
प्रमुख बाहरी श्रेय
casta (Hacker News)
उनके HN पोस्ट के माध्यम से इस प्रोजेक्ट को प्रेरणा मिली। चूँकि उनका समाधान ओपन-सोर्स नहीं था, मैं एक ओपन-सोर्स संस्करण (यह प्रोजेक्ट) बनाने के लिए प्रेरित हुआ।
ChatGPT (GPT-4)
विकास में बहुत मददगार रहा, जिससे विकास चक्र तेज़ हुआ। इसने OpenAI के नए DALL-E 3 मॉडल का उपयोग करके प्रोजेक्ट का लोगो और YouTube थंबनेल भी जेनरेट किया।
James Briggs (YouTuber)
जेम्स का वीडियो Reddit की API का उपयोग कैसे करें और Python में एक बेसिक RAG पाइपलाइन कैसे लागू करें, यह बहुत स्पष्ट रूप से समझाता है।
स्रोत
- Show HN: Labor Day Fun Project, Find Reddit Comments to Promote Your Business
- Pinecone Indexing Overview Docs
- YouTube: Chatbots with RAG - LangChain Full Walkthrough
- OpenAI API Page
- Pinecone Quickstart Docs
- Reddit: Updated rate limits going into effect over the coming weeks
- Reddit Apps Page
- YouTube: How-to Use The Reddit API in Python
- Medium: Scraping Reddit data using Reddit API
- GitHub Gist: Reddit API
- GitHub: praw
- ChatGPT - Web App