Cuantificando la organización social a través del procesamiento del lenguaje natural
Resumen
El debate sobre la integración y fragmentación social en las plataformas de redes sociales online sigue en curso. El desplazamiento de los usuarios hacia extremos ideológicos y agrupamiento en ``cámaras de eco" homogéneas son preocupantes. Waller et al. recientemente desarrollaron un método para cuantificar el posicionamiento de las comunidades en Reddit a lo largo de las dimensiones sociales en base a la concurrencia de usuarios en distintas comunidades. Utilizaron embeddings de comunidades para proyectarlas en direcciones unidimensionales que representan ``dimensiones ideológicas", obteniendo puntajes o scores que posicionan a cada comunidad en el espectro político-ideológico.
Proponemos desarrollar una técnica análoga pero utilizando el texto de los posteos y comentarios de los subreddits en lugar de las interacciones. La hipótesis es que las jergas, tópicos y formas discursivas de cada comunidad permiten cuantificar muchos de sus aspectos ideológicos de forma similar a sus interacciones.
Utilizamos Fasttext y LLMs para estimar diferentes tipos de embeddings de texto y RBO para comparar los resultados obtenidos.
Los resultados preliminares sugieren que existe una relación estadísticamente significativa entre los scores obtenidos y los reportados en el trabajo de Waller et al., lo que podría señalar la existencia de jergas propias de las comunidades que permiten cuantificar su posicionamiento ideológico.