Friday, January 28, 2011

Всемогущий Twitter


Twitter уже не похож на робкую птичку. Скорее, это сокрушитель режимов (Молдова, Тунис, возможно, Египет и Йемен) и сокрушитель СМИ (скоростной и многосторонний информатор, от которого Медведев узнал о теракте в Домодедово).
Следующий шаг - определение средней температуры по больницам. Имеется в виду получение усредненного значения настроения громадной аудитории сервиса, иначе говоря Twitter mood. Благодаря компактности твиттер-сообщений (не более 140 символов), пользователь стремится быть выразительным, а заинтересованные могут с помощью анализатора текста сообщений понять настроение миллионов, выраженное в эмоциональных высказываниях. 
Одним из таких интересующихся оказался Johan Boolen с коллегами. В работе “Twitter mood predicts the stock market” они опубликовали результаты своих исследований корреляции индикатора настроений с индексом Dow Jones Industrial Average (DJIA). Для подсчета индикатора настроения (оцифровка) использовались те сообщения, в которых есть место чувству, а именно, содержащие следующие выражения: “i feel”, “i am feeling”, “i’m feeling”, “i don’t feel”, “I’m”, “I am” and “makes me”. Далее, настроение каждого [сообщения] оценивается по двум методикам. В одной из них, GPOMS (Google Profile Of Mood States) - в 6 измерениях: calmness, alertness, sureness, vitality, kindness and happynes по 964 соответствующим выражениям, характеризующим настроение в координатах покоя, настороженности, уверенности, стойкости, доброжелательности и счастья. Грубый пример: сообщение “i’m absolutely happy” должно дать (мое мнение) следующую точку в этих 6-ти (нормализованных) координатах - (0,0,0,0,0,1). 
Другая методика OpinionFinder (дающая 7-е измерение) оценивает эмоциональное состояние в субъективных высказываниях, используя набор из 2718 положительных и 4912 отрицательных (мы знаем некоторые из них) слов. Скажем, сообщение “Убить Билла” характеризует крайне отрицательные эмоции.  А вот, наверное, “Я в восторге от фильма “Убить Билла”” поставило бы программу в тупик, если бы выборка была маленькой.
Период анализа индексов в статье был выбран не случайно. Это 3 месяца в 2008 году с 5 октября по 5 декабря, включившие важные общественно-культурные события, а именно, выборы президента U.S. и День Благодарения. Проанализировано 9.8млн сообщений от 2.7млн пользователей - очень представительная выборка.
О работоспособности индексов можно судить по факту обнаружения упомянутых событий - пики позитивности на графиках, например, OF. Неплохо бы узнать, что за событие произошло 15-го ноября, не день же провозглашения Бразилии праздновали.

Ну и, наконец, сама зависимость/независимость индекса Доу-Джонса от настроений пользователей Twitter, в частности, от усредненного значения индикатора Покой, дана на следующем графике. “Засеренные” области - те, в которых индексы ведут себя одинаково, то есть, где индикатор состояния покоя пользователей Twitter определяет значения промышленного индекса DJ, или наоборот.

Думаю, что попытки обнаружить корреляцию, предсказать и разбогатеть - чудны и бесполезны. Но возможность оценить настроение миллионов поражает воображение. Судя по всему, вопрос при встрече (контакте) “Как настроение?” станет просто приветствием, равным по безраличию “How do you do”. 
Далеко ли, близко ли от измерений до манипуляций? Разве что спросить в Твиттере и измерить счастливость. Уже и сам градусник Twitter Mood появился, смотрите сервис twitter-mood-reader.
Было бы правильно опубликовать список характерных слов (964, 2718, 4912), они могут стать словарем твиттер-языка. Может сократить его до 17, помните "у вас спина белая", "поедем на извозчике", "толстый и красивый", введено же ограничение на 140 символов. А можно смайликами обойтись (многие уже), тогда выяснение настроения станет однозначным и простым.
Если взглянуть иначе, то можно заметить, что на каждого пользователя в среднем приходится более 3-х сообщений. Не много, но можно попытаться теми же инструментами охарактеризовать интересы и настрой каждого.

No comments:

Post a Comment