Определение TF-IDF

TF-IDF (Term Frequency – Inverse Document Frequency) – это статистический метод, используемый для оценки значимости слова в документе относительно всей коллекции документов.
TF-IDF основывается на двух ключевых принципах
- Если слово часто встречается в одном документе, оно может быть важным для этого документа.
- Если слово встречается во многих документах, оно может быть менее значимым, так как скорее всего является общеупотребительным.
Так TF-IDF помогает выделять специфические термины, которые лучше отражают содержание текста.
В отличие от простого подсчета частотности слов, этот метод позволяет учитывать не только популярность термина в одном тексте, но и его распространенность в общей коллекции документов. Это делает его полезным инструментом для поисковых систем, которые стремятся предоставлять пользователям релевантные результаты по запросам.
Формулы и принцип расчета TF-IDF
TF-IDF рассчитывается как произведение двух показателей: Term Frequency (TF) и Inverse Document Frequency (IDF).
Term Frequency (TF) – частотность термина в документе
TF показывает, насколько часто слово встречается в тексте. Рассчитывается по формуле:
𝑇𝐹 =Количество вхождений слова в документ/Общее количество слов в документе
Пример: если слово «оптимизация» встречается 5 раз в документе из 1000 слов, то TF = 5 / 1000 = 0.005.
Inverse Document Frequency (IDF) – обратная документная частота
IDF определяет, насколько слово уникально в контексте множества документов. Рассчитывается по формуле:
𝐼𝐷𝐹 = log(Общее количество документов/Количество документов, содержащих слово)
Если слово встречается в большом числе документов, его IDF будет низким, а если встречается редко – высоким.