Доброго дня, необходимо реализовать функционал для ускорения работ по поиску страниц канибалов.
Что нужно сделать:
1) Реализовать функцию которая сможет составить список частотности биграм и триграм. Подробнее про данную функцию habr.com/ru/post/312490/
Данные на вход: - Переменная с текстом. - Флаг в каком режиме нужны данные (1 биграммы 2 триграммы 0 частотный словарь по отдельным словам)
На выходе: Массив слов или биграмов (В зависимости от флага который передан) с сортировкой от самого частотного до менее частотного. в формате Вхождение : частота
Дополнительно: учитывать минус слова указанные в отдельном массиве, (например указанные в файле в формате построчно) т.е вхождения которые указаны в этом файле не должны участвовать в расчете.
2. Необходимо реализовать выборку из массива текстов общие слова в каждом тексте по модели LSI. Пример: на вход поступает 10 текстов одной тематики нужно построить матрицу для каждого текста с вхождением каждого слова и поиск наиболее связанных слов. подробнее habr.com/ru/post/110078/
На вход: - Флаг в процентах по связанности (например что нас интересуют слова которые имеют связь 90% то есть имеются в 9 текстах из 10) - Массив текстов
На выходе: Список общих слов с сортировкой от самой сильной связанности к самой не сильно связанной, в формате Слово : процент связанности.
Реализация: Реализовать необходимо на C# в формате функции.