Парсинг Subreddit и экспорт данных в Instagram, Facebook, Telegram, YouTube, TikTok, VK

  • Опубликовано 4 года назад
  • Просмотры 1
  • Закончить проект

Описание

Необходимо спарсить ТОЛЬКО смысловую информацию (правила, текстовые посты, комменты, видео, рисунки, линки) – длинной более чем 2000 знаков, если в тексте нет рисунков, ссылок и тд) за последние 6 месяцев истории субредит r/wallstreetbets и ввести эту информацию в виде постов в аккаунты в других социальных сетях.

Подумайте, что бы Вы могли взять на себя, за какие сроки и на каких условиях. Возможно мы создадим команду из нескольких специалистов для реализации данного проекта.

Данный сабреддит очень замусорен ботами, короткими несмысловыми комментами, и не очень usable.

Задача – оперативно создать на его основе более usable группы / аккаунты в популярных в англоязычной и русскоязычной аудитории соц сетях и далее раскручивать и поддерживать их, добавляя туда новую СМЫСЛОВУЮ информацию также добываемую из этого же и других subreddit аккаунтов, и прочих источников по ключевым тэгам.

Чтобы сохранить преемственность с ординальным subreddit аккаунтом – мы в каждый пост в соц сетях вставляем идентификаторы с краткой информацией об оригинальном посте или комменте, его источнике и тд.

Для спарсивания информации с Reddit возможно нужно будет использовать scrapper на python API или какие-то существующие платные приложения, или Ваш собственный уже готовый скрипт. Также и для загрузки на аккаунты в соц сети.

Вы можете использовать любые методы, которые сочтете нужными. Желательно наличие рабочего reddit scapper и опыт работы в приложениях для загрузки информации в соц сети, и SMM, так как время лимитировано.

При размещении заявок, пожалуйста, укажите, какие поля данных вы можете импортировать из Reddit, и какие из них вы можете экспортировать в каждую из социальных сетей, в какие сети Вы можете запостить полученную информацию.

Простая заявка без изучения вопроса рассматриваться не будет.

По идее (ТЗ может быть уточнено) – следующий набор данных должен быть скачан из Reddit

- "posts'' (родительский пост в subreddit) – полный текст поста, включенные в него медиа, ссылки и тд – в формате – для экспорта в Social Media
- conditions, FAQ, прочие правила
- длинные комменты (более 2000 слов)
- url любого связанного изображения
- Требуется загрузка изображения и видео (оценка объема облака или физическом носителе, которые потребуются для загрузки, должны быть включены в предложение)
- Любой внешний url и текстовое описание
- Текстовое содержимое любых связанных твитов

А также чтобы быть добавленными к посту в социальной сети в теле поста в самом начале, в качестве идентификатора поста – типа "Reddit Creator" – ХХХХ, "Reddit Link …..", "Reddit Score ###" и тд

- Reddit ссылка на оригинальный пост
- Дата сообщения (чтобы они были импортированы в хронологическом порядке)
- Reddit Score поста
- Имя пользователя Reddit создавшего поста
- Полный текст поста, включенные в него медиа, ссылки и тд

По комментам -

Не требуется парсить бот-тексты вроде, маленьких комментов – таких как отдельные строчки, или что-то вроде этого. Нужны только длинные текстовые комменты более чем 2000 знаков (если в тексте нет рисунков, ссылок и тд, если есть то нужны и меньшие комменты) реальных пользователей, для добавления в соц сети в хронологическом порядке, в виде отдельных постов.

Помимо самого коммента, следующий набор данных должен быть спарсен для использования в качестве идентификатора будущего поста в соц сети, сделанного из этого коммента.

- Идентификатор оригинального родительского поста, к которому был сделан коммент – reddit link основного поста
- Имя создателя оригинально поста, дата, название оригинального поста
- Если коммент был к комменту, то такие же данные по комменту первого порядка
- Reddit Score коммента или поста
– Дата коммента
– Полный текст коммента
- Идентификатор конечной родительской записи, к которой принадлежит коммент
- Идентификатор (ссылка subreddit) для коммента

Если это возможно, хорошо бы фиксировать дополнительную информацию для каждого поста / коммента и также добавлять в краткое описание в теле поста в соц сетях, в начале, в строчке идентификатора

- Рейтинг upvotes vs downvotes
- Любые теги `flair' к сообщению. Например некоторые сообщения помечены как `Дискуссия Дня DD' или `YOLO'
- Уровень кармы учетной записи имени создателя поста/комментатора

Я хотел бы иметь образец спарсенной информации и размещения ее на целевом аккаунте, пробные посты за 1 день, чтобы проверить, как все это будет выглядеть, прежде чем начать проект.

Если вы не можете импортировать все необходимые информационные поля в социальные сети, а только можете спарсить – могут заинтересовать делимитированные текстовые файлы или Excel, или csv.

Если вы можете сделать некоторую часть этой работы, пожалуйста, дайте мне знать, что вы можете в деталях с вашими предложениями.

Подумайте, что бы Вы могли взять на себя, за какие сроки и на каких условиях.

Задача – в максимально сжатые сроки день два начать наполнение аккаунтов.

Спасибо за ваше время.

Опубликовано 4 года назад