InsightRed
Über
InsightRed ist ein LLM‑basiertes Werkzeug, das geschickt die neuesten Reddit‑Kommentare aus Subreddits, sortiert nach „Hot“, extrahiert und Nutzer identifiziert, die potenzielles Interesse an Ihrem Projekt oder Produkt zeigen. Es ist ein Reddit‑Marketing‑Tool, das Ihnen hilft, die ersten Nutzer für Ihr Produkt/Projekt zu gewinnen. Dieses Projekt wurde für den ANARCHY Oktober‑2023‑Hackathon erstellt.
Ankündigung(en)
19. Oktober 2023
Als Nachfolger dieses Projekts freue ich mich, bekannt zu geben, dass wir den 1. Platz beim Anarchy‑Oktober‑2023‑Hackathon gewonnen haben!
Klicken Sie hier, um die Nachricht im TEXT‑Modus anzuzeigen (modifiziert wegen Discord‑Formatierung)
@everyone **👑 HACKATHON 👑**
I'm very excited to announce the second anarchy hackathon's winners as follows:
🥇 "@Ben Zimmerman [T3CH3Y]", @Mehmet, and "@Ananya Aithal"'s InsightRed! https://www.youtube.com/watch?v=xhKwnKxmg5k
🥈 @partho and @Karan's DistillClassifier https://www.loom.com/share/d7e7c8e12dd14bcabdf41051433901a1?sid=900cb491-8117-4530-a131-d87eeca1ca6f
Really **AMAZING WORK EVERYBODY** @MathYouF and I were super impressed by all the submissions.
Special mentions go out to:
1. @B3LOL, @alastine , and @AndrewKamau 's WiE: https://youtu.be/V8gqCvgRcpk
2. "@Mert Bozkir | mertbozkir"'s Doc-String-Ify: https://www.loom.com/share/274565d0ddec417783e739ee728654d3?sid=6bb1b07a-f06a-4ec3-82c6-1d7ba6eae0d3
The feedback we got from these projects has been super valuable and we're going to work on fixing every bit 🦜
We're going to reach out to the teams individually for prizes. Additionally, we think these were incredible enough that we'd like to spend the next few weeks working on showcasing these incredible projects.
Demo
Komponenten von InsightRed
🧩 Sammler
Der Sammler sammelt die neuesten Reddit‑Beiträge und die Kommentare zu diesen Beiträgen für gegebene Subreddits, indem er die Reddit‑API verwendet. Nach dem Sammeln speichert der Sammler die gesammelten Daten in einer lokalen SQLite‑Datenbank. Dies wird durch das Python‑Paket praw erleichtert, das die Nutzung der Reddit‑API unterstützt, sowie durch SQLAlchemy für CRUD‑Operationen in der lokalen SQLite‑Datenbank.
🧩 Vektorisierer
Der Vektorisierer prüft die lokale SQLite‑Datenbank, um zu sehen, welche Kommentare noch nicht in der Vektordatenbank gespeichert wurden. Nachdem er eine Liste von Kommentaren erhalten hat, erstellt er ein Embedding des Beitrags + Kommentars mithilfe von OpenAI‑Modell „text-embedding-ada-002“. Dieses Embedding wird als Index in der Vektordatenbank verwendet und einige Metadaten im JSON‑Format werden ebenfalls erstellt. Der Index und die Metadaten werden dann in die Vektordatenbank hochgeladen, die in diesem Fall Pinecone (cloud‑basiert) ist. Nach dem Hochladen wird die lokale SQLite‑Datenbank aktualisiert, um ein erneutes Hochladen derselben Daten zu Pinecone zu vermeiden. All dies geschieht mit dem Python‑Client von Pinecone (pinecone-client) für CRUD‑Optionen in der Vektordatenbank und LangChain für die Handhabung des Embedding‑Prozesses.
🧩 Schnittstelle
Die Schnittstelle ist das, was der Benutzer verwendet, um mit dem Werkzeug zu interagieren. In diesem Fall ist die Schnittstelle ein CLI. Die Schnittstelle implementiert Retrieval‑Augmented‑Generation (RAG). Der Benutzer gibt eine Beschreibung seines Produkts, eine Liste von Subreddits zum Prüfen sowie einige Filter an. Vor diesem Kontext wird der Sammler aufgerufen, dann der Vektorisierer. Nachdem diese beiden Dienste die Verarbeitung abgeschlossen haben, wird die eingegebene Produktbeschreibung verwendet, um eine ähnliche Suche in der Vektordatenbank durchzuführen. Die Top‑Ergebnisse und die Produktbeschreibung werden dann in eine Prompt‑Vorlage eingespeist, die den finalen Prompt erstellt. Der finale Prompt wird dann an OpenAI‑s GPT‑4‑Modell gesendet und die Endergebnisse dem Benutzer präsentiert. Diese Ergebnisse sind eine Auflistung aller Reddit‑Kommentare, die stark darauf hindeuten, dass die Reddit‑Nutzer an dem angegebenen Produkt interessiert wären, basierend auf seiner Beschreibung. Diese Komponente arbeitet mit den Kommentaren des Sammlers und Vektorisierers sowie mit Anarchy‑s LLM‑VM zur Abfrage von OpenAI‑s GPT‑4‑Modell.
Teammitglieder
Bemerkenswerte externe Anerkennung
casta (Hacker News)
Sie lieferten die Inspiration für dieses Projekt durch ihren HN‑Beitrag. Da ihre Lösung nicht Open‑Source war, wurde ich motiviert, eine Open‑Source‑Version (dieses Projekt) zu erstellen.
ChatGPT (GPT-4)
War bei der Entwicklung sehr hilfreich, indem es den Entwicklungszyklus erheblich beschleunigte. Und es generierte das Logo des Projekts sowie das YouTube‑Thumbnail mit OpenAI‑s neuem DALL‑E 3‑Modell.
James Briggs (YouTuber)
James’ Video erklärte wirklich, wie man die Reddit‑API verwendet und wie man eine einfache RAG‑Pipeline mit Python implementiert.
Quellen
- Show HN: Labor Day Fun Project, Reddit‑Kommentare finden, um Ihr Unternehmen zu bewerben
- Pinecone Indexierungsübersicht Dokumentation
- YouTube: Chatbots mit RAG – LangChain vollständige Anleitung
- OpenAI API Seite
- Pinecone Schnellstart Dokumentation
- Reddit: Aktualisierte Rate‑Limits, die in den kommenden Wochen in Kraft treten
- Reddit‑Apps‑Seite
- YouTube: Wie man die Reddit‑API in Python verwendet
- Medium: Reddit‑Daten mit der Reddit‑API scrapen
- GitHub Gist: Reddit‑API
- GitHub: praw
- ChatGPT – Web‑App