Siguiendo con el campo de la visualización en el mundo del Data Science en esta ocasión os traigo un conjunto adicional de visualizaciones en R más sofisticadas que las del post anterior.
Todas ellas siguen usando las librerías de Plotly y ggplot2 por lo que conservan todas las bondades interactivas que ya habíamos mencionado en el post anterior.
En el caso del gráfico t-SNE no es que la visualización en sí sea sofisticada, pues es un simple diagrama de dispersión, sino que la complejidad reside en como obtener esta dispersión, en su naturaleza y en la función que desempeña el tooltip interactivo de Plotly para ayudarnos a interpretarla.
Los mapas de calor son realmente útiles para ver patrones en grandes volúmenes de datos que en su formato alfanumérico tabular nos sería imposible detectar de un simple vistazo. Si la configuración de los ejes y los colores del mapa se escogen convenientemente estos patrones emergerán por sí solos. El hecho de que encima el gráfico sea interactivo le da un extra realmente útil para determinar rápidamente la procedencia del patrón detectado. Esto es lo que trato de mostraros en un ejemplo con una matriz de correlación de variables.
Los dendrogramas son gráficos en forma de árbol que nos permiten ver muy fácilmente los vínculos entre distintos elementos agrupados de forma jerárquica. De nuevo, el hecho de poder etiquetar no sólo las hojas del dendrograma (como se hace tradicionalmente con un gráfico estático) sino cualquier parte del árbol usando el tooltip interactivo de Plotly hace que la información mostrada en el gráfico sea mucho más rica.
Espero que todos estos gráficos os sean realmente útiles para vuestra labor como Data Scientist pues claramente a mí me lo han sido.