Реализация функционала для поиска страниц канибалов

  • Опубликовано 2 года назад
  • Просмотры 7
  • Закончить проект

Описание

Доброго дня, необходимо реализовать функционал для ускорения работ по поиску страниц канибалов.

Что нужно сделать:

1) Реализовать функцию которая сможет составить список частотности биграм и триграм. Подробнее про данную функцию habr.com/ru/post/312490/

Данные на вход:
- Переменная с текстом.
- Флаг в каком режиме нужны данные (1 биграммы 2 триграммы 0 частотный словарь по отдельным словам)

На выходе:
Массив слов или биграмов (В зависимости от флага который передан) с сортировкой от самого частотного до менее частотного. в формате Вхождение : частота

Дополнительно: учитывать минус слова указанные в отдельном массиве, (например указанные в файле в формате построчно) т.е вхождения которые указаны в этом файле не должны участвовать в расчете.

2. Необходимо реализовать выборку из массива текстов общие слова в каждом тексте по модели LSI.
Пример: на вход поступает 10 текстов одной тематики нужно построить матрицу для каждого текста с вхождением каждого слова и поиск наиболее связанных слов.
подробнее habr.com/ru/post/110078/

На вход:
- Флаг в процентах по связанности (например что нас интересуют слова которые имеют связь 90% то есть имеются в 9 текстах из 10)
- Массив текстов

На выходе:
Список общих слов с сортировкой от самой сильной связанности к самой не сильно связанной, в формате Слово : процент связанности.

Реализация:
Реализовать необходимо на C# в формате функции.

Опубликовано 2 года назад