¡Buenos días Multipliqueros! Hoy en el blog de Multiplicalia, especialistas en marketing digital y posicionamiento SEO, os hablaremos acerca del TF-IDF. ¿No sabes qué es? Nosotros te lo contamos.
¿Qué significa TF-IDF?
Las siglas TF–IDF significan en inglés de «Term frequency – Inverse document frequency» que traducido al español sería «Frecuencia de términos – Frecuencia inversa del documento».
Su ámbito de aplicación y procedencia son los sistemas de recuperación de información y minería de texto que usan la mayoría de las bibliotecas digitales. Si estás interesado en mejorar el posicionamiento SEO de tu web te interesa ya que está directamente relacionado con los motores de búsqueda, que utilizan una variación de este algoritmo en su proceso de indexación y posicionamiento.
«Es una medida que pondera el uso de una determinada palabra dentro de un conjunto de documentos y que supone por lo tanto un elemento importante y relevante para la clasificación de documentos frente a la consulta de un usuario», nos cuenta José Luis López del blog de IEBSchool. Podemos entenderlo como un indicador de la relevancia de un documento.
Este indicador se obtiene con multiplicando TF y IDF. Por lo que a continuación explicaremos más detalladamente en qué consiste cada término de la fórmula TF-IDF.
¿Qué es TF?
TF (Term Frequency) es la frecuencia de un término o palabra clave específica dado un documento, es decir, es la cantidad de veces que aparece un término en un documento. Este valor se compara con la frecuencia relativa de todos los demás términos de un texto, documento o sitio web.
Mientras la densidad de una palabra clave calcula solo el porcentaje de distribución de una palabra comparado con el número total de palabras en un texto, la frecuencia de término, TF, contempla también la proporción de todas las palabras usadas en el texto.
TF puede calcularse de manera «sencilla» como el número de veces que se repite un término específico en un documento o de formas mucho más complejas con expresiones matemáticas como operadores booleanos o logaritmos.
TF = Nº Total de la KW en el documento / Número total de palabras en el documento
¿Y qué es IDF?
IDF (Inverse Document Frequency) esta segunda parte de la fórmula completa el análisis de evaluación de los términos y actúa como el corrector del TF. Compara el número de todos los documentos disponibles con el número de documentos que contienen el término. Su efecto es el de disminuir el peso de aquéllas palabras que se repiten mucho en el total de los documentos y otorga mayor valor a esos términos relevantes menos frecuentes.
Igualmente en este caso puede expresarse matemáticamente con expresiones que incluyen logaritmos o de manera simplificada:
IDF = Nº Total de documentos / Nº de documentos con la KW
En resumen: el IDF determina la relevancia de un texto con respecto a una palabra clave específica.
Ejemplo de cálculo del TF*IDF:
Supón que estás leyendo un documento de 100 palabras dónde la palabra «SEO» aparece 4 veces.
El TF se calcularía:
TF = 4/100 = 0,04
Se encuentran 10 millones de documentos y la palabra aparece en 1.000.
El IDF se calcularía:
log (10.000.000/1.000) = 4
Finalmente aplicamos la expresión completa del TF*IDF y tenemos que:
TF x IDF = 0.04 x 4 = 0,16
Ejemplo cálculo TF-IDF
¿Cómo afecta el TF-IDF al SEO?
Los especialistas SEO somos conscientes de los constantes cambios que Google va introduciendo en su algoritmo.
Dichos cambios van dirigidos en gran parte, o así se cree, a mostrar los resultados más relevantes ante la consulta del usuario en el motor de búsqueda. Algunos de estos cambios relacionan la importancia del TF*IDF en la estrategia SEO sobre en la generación de contenidos.
Los motores de búsqueda analizan la relación semántica entre los términos, por lo que es muy importante optimizar semánticamente el contenido del sitio web. Este proceso se llama Indexación de la Semántica Latente.
La herramienta TF*IDF determina las palabras clave que se deberían utilizar para crear un contenido único para la web. Esta herramienta no solo optimiza los textos en relación a una palabra clave, sino también aporta los términos que ayudan a crear un texto verdaderamente único.
Desventajas de la fórmula TF-IDF
- Asegúrate de incluir todos los elementos que componen tu sitio web: los títulos de las categorías y las descripciones de producto son muy importantes.
- Este tipo de optimización OnPage requiere mucho texto, por lo que para tiendas online con solo un producto en la web, la fórmula TF*IDF no es la más adecuada.
- La fórmula TF*IDF no contempla la posibilidad de que los términos aparezcan agrupados, que se apliquen normas de lexema o que se usen sinónimos.
Si estás interesado en mejorar el posicionamiento de tu web en los buscadores, contacta con Multiplicalia, contamos con un equipo de especialistas en SEO, que hará que las visitas a tu web se multipliquen.