Как понять реальность при помощи онлайн-наблюдений


Бакалавр и магистр математики Кембриджского университета Ингмар Вебер защитил докторскую диссертацию в Институте информатики Общества Макса Планка в Германии. Недавно Вебер начал работать в отделе исследований Yahoo! Inc, где участвовал в создании проекта Yahoo Political Search Trends. Он провел семинар в летней школе Яндекса в Ярославле, а 16 августа в Москве прочитал лекцию «Веб-Наука: Наблюдения Онлайн-мира для изучения мира Оффлайн». T&P публикуют основные тезисы выступления.

Суть веб-науки заключается в наблюдении данных из интернета и использовании полученной информации в реальном мире. Например, существует такой сервис Google Flu Trends. Обычно люди, заболевающие гриппом, несколько дней сидят дома, а затем идут к врачу, который ставит диагноз. И только на основании собранных по больницам данных можно делать вывод о заболеваемости гриппом. Теперь же заболевший сначала прогуглит свои симптомы прежде, чем пойти к доктору, если он к нему вообще пойдет. На основании поисковых запросов типа «температура, насморк, головная боль» и геолокации Google делает выводы об уровне заболеваемости гриппом в том или ином регионе, благодаря чему мы можем решить, стоит ли в этом месяце ехать, например, в Австралию, или лучше выбрать другую страну, где гриппом заражено не так много человек.

Обычно, когда хотят определить возможность образования пары на сайтах знакомств, люди ищут совпадение в ответах на такие вопросы, как: «Раздражает ли вас курение?» Оказывается, что вопросы надо задавать другие, например: «А не кинуть ли все к черту и начать жить на барже?» А романы людей, пишущих в твиттер каждый день, заканчиваются быстрее, чем у тех, кто этого не делает.

«Politifact проанализировал различные источники и выяснил, что это лишь наполовину правда, потому что теперь тетя уже законный иммигрант, а вот дядя Обамы — все еще нет»

В целом люди, пришедшие в тот или иной ресторан со скидочным купоном, ставят ему рейтинг более низкий, чем люди, пришедшие в этот же ресторан просто так, несмотря на то, что платят больше. Это крайне любопытная и полезная информация для владельцев заведений. Ведь если вы открыли ресторан или кафе и хотите привлечь клиентов, можно воспользоваться групоном и другими скидочными сайтами, но получается, что люди, пришедшие с купонами, затем пишут менее положительные отзывы, а другие пользователи доверяют им больше, ибо человек, написавший прохладную рецензию, вряд ли является спамботом.

Проект Yahoo Political Search Trends возник благодаря анализу множества политических сайтов и блогов, склонных к поддержке правых или левых политических сил. Попадая на страницу проекта, вы сразу видите топ-запросы за прошедшую неделю, которые классифицируются как левые и правые — на основе анализа частоты употребления этого словосочетания в блогах и СМИ. К примеру, запрос «Обама лжет» более популярен среди правоцентристских изданий.

Political Search Trends при помощи сайта Politifact дает возможность проверить правдивость тех или иных политических высказываний. Например, можно посмотреть соответствует ли истине заявление Мишель Бахман, которая сказала, что тетя Обамы — нелегальный иммигрант. Politifact проанализировал различные источники и выяснил, что это лишь наполовину правда, потому что теперь тетя уже законный иммигрант, а вот дядя Обамы — все еще нет.


Исследование Social Influence in Social Advertising Эйтана Бэкши и Дина Эклса пытается выявить зависимость влияния социальной информации на рекламу, то есть показывавает насколько пользователи, например, фейсбука более склонны ставить лайки тем продуктам, которые уже нравятся их друзьям. В целом, чем большему количеству друзей нравится та или иная страница, тем вероятнее, что и этот человек также поставит лайк.

Как получить информацию для исследований? Количество источников поистине неисчерпаемо. Правда, надо быть аккуратным. К примеру, сайт Amazon.com — довольно богатый ресурс. Например, вот профиль пользователя, который недавно приобрел детское сидение. Просмотрев другие его покупки, мы можем заметить, что скорее всего он является молодым родителем. В принципе полученные данные можно было бы применить к исследованию о покупательском поведении родителей до и после рождения ребенка, но в пользовательском соглашении на сайте написано, что загрузка или копирование на свой компьютер данных о клиентах запрещена. Следовательно — это плохой источник, и для серьезных исследований он не подойдет.

«Люди, пришедшие в тот или иной ресторан со скидочным купоном, ставят ему более низкий рейтинг, чем люди, пришедшие в этот же ресторан просто так, несмотря на то, что последние платят больше»

Однако, существует множество других открытых ресурсов. Например, твиттер. На странице любого пользователя мы видим его имя (в большинстве случаев оно настоящее), пол, его подписчиков, друзей и сам миниблог, который может содержать массу интересного для исследователя. В частности ретвиты, ведь если пользователь копирует пост @BarackObama или @MittRomney, то скорее всего он придерживается левой или правой политической ориентации соответственно.

Хэштэг #obamacare — преимущественно правый, а хэштег #obamacares — левый. Иногда хэштеги внезапно трансформируются из правых в левых и наоборот. Обычно это происходит по вине так называемых «налетчиков», которые участвуют в «войне хэштэгов».

Yahoo answers — еще один ресурс, подходящий для исследований. У пользователей тоже есть профайлы, где они пишут что-то о себе. Но в данном случае очень большой массив информации содержится непосредственно в вопросе. Например: «Я — мужчина, живу в России, я левша. Что мне с этим делать?» Имеется рубрикатор вопросов, что очень удобно. Также в качестве источников можно смело использовать Flickr, Lastfm, Youtube, Delicious и так далее.

По материалам сайта theoryandpractice.ru

Смотрите также:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*