En Twitter, las noticias locales son difíciles de encontrar

A medida que los estadounidenses utilizan cada vez más las redes sociales, los investigadores, naturalmente, están interesados ​​en cómo se pueden utilizar los datos para comprender mejor cómo los usuarios comparten y discuten información en estas nuevas plataformas. La gran cantidad de tweets, que van desde comentarios políticos hasta el 'sentimiento' general sobre empresas, productos o servicios, hace que muchas empresas de marketing y académicos reclamen información sobre el flujo de conciencia colectiva de Twitter.


Pero, ¿qué grado de precisión tiene Twitter como medida de la opinión pública y cómo se puede utilizar? En Pew Research Center, hemos estado específicamente interesados ​​en experimentar con el papel de Twitter en las noticias desde 2008. Entonces, cuando lanzamos un proyecto de un año de duración para examinar las noticias locales en tres ciudades el año pasado, probamos varios enfoques utilizando datos de Twitter para comprender cómo funciona como fuente de noticias y permite a los residentes locales participar en ella.

¿Nuestro veredicto? Si bien el análisis de Twitter aún se encuentra en una etapa experimental y los datos de Twitter tienen limitaciones, puede ser una nueva herramienta valiosa para comprender el entorno de los medios. Más específicamente, nos pareció valioso comprender cómo las organizaciones de noticias usan Twitter. Sin embargo, las noticias locales son solo un pequeño tema de los muchos discutidos en la plataforma. Lo que encontramos que faltaba era intentar recopilar datos sobre los usuarios de Twitter por ubicación.

Aquí hay un resumen de lo que funcionó y lo que no funcionó al usar Twitter para la investigación.

Lo que hicimos:


Queríamos comprender qué papel juega Twitter como fuente de noticias para los residentes locales de tres ciudades de estudio de caso: Denver, Macon, Ga. Y Sioux City, Iowa. Esto incluyó el seguimiento de las organizaciones de noticias tradicionales en Twitter, como periódicos, estaciones de radio y televisión, así como de los propios creadores de noticias, como políticos, líderes comunitarios y funcionarios gubernamentales. Para hacer esto, usamos principalmente el servicio Gnip para acceder al 'firehose' de Twitter, que se refiere al acceso a todos los tweets y metadatos en Twitter.



En lugar de tomar a los usuarios de Twitter como un representante de su comunidad en general, simplemente tratamos a los usuarios de Twitter en cada ciudad como una comunidad en sí mismos. Hicimos una auditoría integral de los proveedores de noticias en cada ciudad y descubrimos que la mayoría de ellos tenían cuentas de Twitter. Incluso si una parte relativamente pequeña de la población está en Twitter, el uso de Twitter por parte de las organizaciones de noticias podría servir como una herramienta útil para comprender cómo se difunde la información local en una comunidad.


En segundo lugar, queríamos saber si los residentes de cada ciudad usaban Twitter para comentar, discutir e incluso participar en eventos noticiosos. Experimentamos con varios métodos diferentes antes de establecer una combinación de enfoques que respondería mejor a las preguntas en cuestión.

Al hacer este análisis, tuvimos en cuenta las limitaciones generales de usar Twitter para hablar sobre lo que el público piensa, hace o valora. A diferencia de las encuestas telefónicas representativas que realizamos, las de Twitter sonnorepresentativo de la población en su conjunto. En general, nuestras encuestas muestran que aproximadamente el 23% de los adultos en línea están en Twitter, y que aquellos que obtienen sus noticias del sitio son más jóvenes, más educados y más propensos a tener un teléfono inteligente que la población en general.


Cómo hicimos el análisis:

La primera tarea al crear una muestra de tweets para cada ciudad fue encontrar una forma confiable de generar límites geográficos para los tweets de las ciudades de destino.

Eso resultó ser un desafío, ya que mirar geoetiquetas o ubicaciones autoidentificadas de los usuarios de Twitter, las soluciones aparentemente obvias, no eran respuestas viables. En Twitter, los usuarios deben optar por que sus tweets se etiqueten automáticamente con una ubicación, y muy pocos lo hacen; la mayoría de las estimaciones indican que solo alrededor del 2% de los tweets tienen geoetiquetas. Esto también resultó cierto en este estudio: en las tres ciudades estudiadas durante un período de campo de una semana, casi no hubo tweets geoetiquetados.

Luego, analizamos la ubicación autoidentificada de los usuarios de Twitter en función de su perfil de Twitter. Examinamos una muestra de tweets en cada ciudad y encontramos que la mayoría de los usuarios no completaron esta información o la completaron con información que no era útil. Por ejemplo, 'la luna' y el 'espacio exterior' eran lugares extremadamente populares. Incluso en los casos en los que había una ubicación utilizable, no había una forma sencilla de verificar que los usuarios realmente vivieran donde dijeron que vivían.


En su lugar, recurrimos a una técnica que se llama muestreo en 'bola de nieve' o 'cadena'.

El pajar de TwitterComo ya habíamos recopilado los identificadores de Twitter de los proveedores de noticias en cada ciudad, extrajimos de esta lista inicial de todos los tweets cualquier identificador o usuario de Twitter que haya @ mencionado o retuiteado el identificador de un proveedor de noticias durante el período de tiempo estudiado. Hicimos esto porque mencionar o retuitear noticias indica que el usuario de Twitter está comprometido con ellas, ya sea como consumidor de noticias o como alguien que quiere difundir las noticias. Si bien sabíamos, no podíamos garantizar quetodasde los nuevos identificadores estarían conectados directamente a cada comunidad, nos dio un punto de partida para refinar aún más la muestra.

Este paso aumentó el número total de usuarios de Twitter en la muestra de varios cientos a más de 30.000. Finalmente, los investigadores sacaron todos los tweets de cada identificador que se había identificado como proveedor de noticias o consumidor de noticias durante el período de tiempo de cada ciudad. Eso resultó en más de 4.7 millones de tweets.

Luego redujimos aún más esa muestra de 4,7 millones para encontrar tweets relevantes para el enfoque del estudio sobre noticias locales en Twitter, un paso importante porque descubrimos que la gran mayoría del contenido de Twitter durante la semana estudiada no era de naturaleza local.

Intentamos perfeccionar la muestra estudiando las URL que se comparten en Twitter en cada ciudad y analizando las palabras clave. Aproximadamente el 40% de los tweets incluían una URL o un enlace a otra página web. Los investigadores crearon un programa que iría a cada página web y la escanearía en busca de palabras clave que asociaran la página con cada ciudad. Utilizando Macon como caso de prueba, creamos una lista de palabras clave basada en el área estadística metropolitana de Macon (MSA). Las 26 palabras clave incluían todos los nombres de condados y ciudades incluidos en el MSA de Macon. En la práctica, estas palabras clave no funcionaron. Incluso estas palabras clave, que eran específicas del área geográfica, eran demasiado generales para resultar útiles.

Incluso si este método hubiera funcionado, todavía existía el problema del 60% de los tweets que no contenían una URL. El fracaso de la estrategia de palabras clave y la emisión del 60% adicional de tweets nos llevaron al método final que usamos para el estudio.

Qué funcionó:

Al final, la solución fue una herramienta de análisis de redes sociales llamada Crimson Hexagon, que analizó nuestra muestra completa de tweets para las palabras clave y hashtags más comunes. Crimson Hexagon es un software que se puede utilizar para analizar grandes volúmenes de tweets y extraer información diversa. En este caso, usamos la herramienta para eliminar tweets irrelevantes para nuestra investigación. Estos incluyeron tweets enviados desde países fuera de los EE. UU. Y tweets que no estaban en inglés.

Después de eliminarlos, usamos Crimson Hexagon para encontrar las palabras y frases más utilizadas en el contenido de los tweets. Esto nos reveló que el contenido de noticias locales en Twitter está muy superado por las noticias nacionales y otros contenidos. Las palabras clave sobre noticias locales eran prácticamente imposibles de encontrar con frecuencia.

A pesar de la utilidad de herramientas como Crimson Hexagon, al final encontramos el mayor éxito con una herramienta mucho menos técnica: los humanos. Simplemente leemos tweets, decenas de miles de ellos, para encontrar noticias locales. Este proceso también nos permitió comprender mejor dónde aparecían las noticias locales y cómo se compartían.

Combinado con un análisis de contenido de las fuentes de noticias locales, nuestros hallazgos mostraron que incluso las pocas noticias locales que se compartían en Twitter eran a menudo diferentes de las que se cubrían en los medios de comunicación de cada ciudad. Por ejemplo, en Macon, la historia más compartida en Twitter fue sobre una banda local que llegó a un concurso en VH1. Esta historia apenas se cubrió en la prensa principal durante la semana estudiada.

Hay más herramientas técnicas disponibles para mapear grandes tendencias en Twitter, como monitorear un hashtag global. Pero para nuestros propósitos, al examinar noticias en comunidades más pequeñas, los datos de Twitter eran tan escasos que no fueron tan útiles como esperábamos.