ABM Маркетинг с InsightRed
О проекте
InsightRed - это инструмент Маркетинга на основе аккаунтов (ABM), работающий на базе LLM, который извлекает последние комментарии Reddit из сабреддитов, отсортированных по “Горячие”, и определяет пользователей, которые проявляют потенциальный интерес к вашему проекту или продукту. Он помогает вам идентифицировать и нацеливаться на пользователей с высокой ценностью на Reddit, чтобы получить ваших первых пользователей для вашего продукта/проекта. Этот проект был создан для ANARCHY Октябрьского Хакатона 2023 года.
Объявление(я)
19 октября 2023 года
В продолжение этого проекта я рад сообщить, что мы заняли 1-е место на Хакатоне Anarchy в октябре 2023 года!
Нажмите здесь, чтобы просмотреть сообщение в текстовом режиме (изменено из-за форматирования Discord)
@everyone **👑 ХАКАТОН 👑**
Я очень рад объявить победителей второго хакатона Anarchy следующим образом:
🥇 "@Ben Zimmerman [T3CH3Y]", @Mehmet и "@Ananya Aithal"'s InsightRed! https://www.youtube.com/watch?v=xhKwnKxmg5k
🥈 @partho и @Karan's DistillClassifier https://www.loom.com/share/d7e7c8e12dd14bcabdf41051433901a1?sid=900cb491-8117-4530-a131-d87eeca1ca6f
Действительно **УДИВИТЕЛЬНАЯ РАБОТА ВСЕХ** @MathYouF и я были очень впечатлены всеми подачами.
Особые упоминания:
1. @B3LOL, @alastine и @AndrewKamau 's WiE: https://youtu.be/V8gqCvgRcpk
2. "@Mert Bozkir | mertbozkir"'s Doc-String-Ify: https://www.loom.com/share/274565d0ddec417783e739ee728654d3?sid=6bb1b07a-f06a-4ec3-82c6-1d7ba6eae0d3
Обратная связь, которую мы получили от этих проектов, была очень ценной, и мы собираемся работать над исправлением каждого момента 🦜
Мы свяжемся с командами индивидуально для получения призов. Кроме того, мы считаем, что эти проекты были настолько невероятными, что хотели бы провести следующие несколько недель, работая над их демонстрацией.
Демонстрация
Компоненты InsightRed
🧩 Коллектор
Коллектор собирает последние посты Reddit и комментарии к этим постам для заданных сабреддитов, используя API Reddit. После сбора коллектор сохраняет собранные данные в локальную базу данных SQLite. Это упрощается с помощью пакета Python praw, который помогает использовать API Reddit, и SQLAlchemy для выполнения операций CRUD в локальной базе данных SQLite.
🧩 Векторизатор
Векторизатор проверяет локальную базу данных SQLite, чтобы увидеть, какие комментарии не были сохранены в векторной базе данных. После получения списка комментариев он создает встраивание поста+комментария, используя модель OpenAI “text-embedding-ada-002”. Это встраивание используется в качестве индекса в векторной базе данных, и также создается некоторый метаданные в формате JSON. Индекс и метаданные затем загружаются в векторную базу данных, которая в данном случае является Pinecone (облачная). После загрузки локальная база данных SQLite обновляется, чтобы избежать повторной загрузки одних и тех же данных в Pinecone. Все это делается с помощью Python-клиента Pinecone (pinecone-client) для выполнения операций CRUD в векторной базе данных и LangChain для обработки процесса встраивания.
🧩 Интерфейс
Интерфейс - это то, что используется пользователем для взаимодействия с инструментом. В данном случае интерфейс является CLI. Интерфейс имеет реализацию Увеличенной Генерации Извлечения (RAG). Пользователь предоставляет описание своего продукта, список сабреддитов для проверки, а также некоторые фильтры. Учитывая этот контекст, вызывается Коллектор, затем вызывается Векторизатор. После завершения обработки этих двух сервисов, введенное описание продукта используется для выполнения аналогичного поиска в векторной базе данных. Топовые результаты и описание продукта затем подаются в шаблон запроса, который создает финальный запрос. Финальный запрос затем отправляется в модель GPT-4 от OpenAI, и финальные результаты затем представляются пользователю. Эти результаты будут списком всех комментариев Reddit, которые сильно предполагают, что пользователь(и) Reddit будут заинтересованы в предоставленном продукте, основываясь на его описании. Этот компонент работает, используя комментарии Коллектора и Векторизатора, а также используя LLM-VM от Anarchy для обработки запросов к модели GPT-4 от OpenAI.
Члены команды
Примечательные внешние заслуги
casta (Hacker News)
Предоставил вдохновение для этого проекта через их пост на HN. Поскольку их решение не было открытым исходным кодом, я был мотивирован создать версию с открытым исходным кодом (этот проект).
ChatGPT (GPT-4)
Был очень полезен в разработке, значительно ускорив цикл разработки. И он сгенерировал логотип проекта и миниатюру для YouTube, используя новую модель DALL-E 3 от OpenAI.
Джеймс Бриггс (YouTuber)
Видео Джеймса действительно объяснило, как использовать API Reddit, а также как реализовать базовый конвейер RAG с использованием Python.
Источники
- Показать HN: Проект на День труда, Найдите комментарии Reddit для продвижения вашего бизнеса
- Документация по индексированию Pinecone
- YouTube: Чат-боты с RAG - Полный обзор LangChain
- Страница API OpenAI
- Документация по быстрому старту Pinecone
- Reddit: Обновленные лимиты частоты, вступающие в силу в ближайшие недели
- Страница приложений Reddit
- YouTube: Как использовать API Reddit в Python
- Medium: Сбор данных Reddit с использованием API Reddit
- GitHub Gist: API Reddit
- GitHub: praw
- ChatGPT - Веб-приложение