1. Наука
  2. Видання
  3. Системи обробки інформації
  4. 5(103)'2012
  5. ПОИСК ЗАИМСТВОВАННОЙ ИНФОРМАЦИИ В ИНТЕРНЕТЕ, ИСПОЛЬЗУЯ АЛГОРИТМЫ: TF, LONGSENT И WINNOWING

ПОИСК ЗАИМСТВОВАННОЙ ИНФОРМАЦИИ В ИНТЕРНЕТЕ, ИСПОЛЬЗУЯ АЛГОРИТМЫ: TF, LONGSENT И WINNOWING

Д.С. Глебов, А.С. Чуприна
Аннотации на языках:

В статье приводится описание основных типов существующих алгоритмов поиска заимствованной текстовой информации, представляются результаты исследования алгоритмов TF, LongSent и Winnowing для поиска нечетких дубликатов в Интернете. Особенность исследования заключается в том, что алгоритмы используются отдельно для каждого абзаца текста входного документа. Качество работы алгоритмов рассмотрено через метрики: точность, полнота, F-мера.
Ключевые слова: дубликат, алгоритм, шингл, схожесть