Вход / Регистрация
21.12.2024, 06:03
Twitter — находка для шпиона
Специалисты IBM разработали алгоритм, который определяет местоположение
вашего дома, анализируя 200 последних твитов.
Одна из дополнительных опций в Twitter позволяет помечать твиты геометками. Это полезно, если вы хотите, к примеру, чтобы ваши Twitter-друзья знали, где вы сейчас находитесь. Или просто как напоминание для вас самого. Кроме того, это ценный инструмент для исследователей — например, географического распределения твитов.
Но есть и такая вещь, как частная жизнь. Особенно если пользователи не знают или забывают, что приложение помечает их посты геотегами. Скажем, некоторые знаменитости таким образом рассекретили свои домашние адреса. А в 2007 году четыре вертолёта Apache, принадлежавших армии США, были уничтожены в Ираке, когда повстанцы вычислили их по геотегам, коими были помечены фотографии, размещённые в соцсетях американскими солдатами.
Видимо, именно поэтому так мало твитов помечается геометками: несколько исследований показали, что лишь менее 1% постов в «Твиттере» содержат метаданные о местоположении.
На, как оказалось, отсутствие геотегов не поможет сохранить в тайне ваше местопребывание на планете Земля. Джалал Махмуд (Jalal Mahmud) и его коллеги из IBM Research уверяют, что они разработали алгоритм, который способен проанализировать последние 200 твитов любого человека — и определить его город с точностью в 70%.
Это может быть полезно для исследователей, журналистов, маркетологов и пр., которые любят везде совать свой нос. Но это также поднимает вопросы приватности для тех, кто убеждён, что его дом всё ещё его крепость.
Метод г-на Махмуда и компании относительно прост. С июля по август 2011 года исследователи фильтровали и анализировали твиты, которые были помечены геотегами в 100 крупнейших городах США, пока в базе не собралось по 100 пользователей для каждого города. Затем они загрузили последние 200 твитов, размещённых каждым человеком, (кроме тех, конечно, что не имели общего доступа). В итоге получилось более 1,5 млн координат из твитов почти 10 тыс. пользователей.
После этого учёные разделили эти данные на две части: 90% твитов было использовано для обучения ПО, а оставшиеся 10% — для проверки.
Основная идея алгоритма в том, что твиты содержат информацию о возможном местоположении человека. Скажем, более 100 тыс. твитов в наборе данных было получено на основе определения местопребывания в социальной сети Foursquare, а поэтому они содержали ссылки на точные координаты в момент отправки твита. А в почти 300 тыс. постов назывались города, перечисленные в геосправочнике Геологической службы США.
В других твитах присутствовали ключевые слова. К примеру, «пойдем на Red Sox» — это отсылка к бостонской бейсбольной команде. Исследователи считают, что распределение твитов в течение дня примерно постоянно в США, и лишь сдвигается с часовым поясом. Следовательно, временной шаблон отправки пользователем твитов даст практически точное попадание в тот часовой пояс, в котором он живёт.
Но вопрос ведь в том, можно ли, используя всю эту информацию, найти дом пользователя с минимальной ошибкой. Своё ПО специалисты IBM проверяли методом сравнения результатов с пользовательскими данными. Г-н Махмуд и Ко использовали алгоритм обучения, известный как «Наивный байесовский классификатор». Затем они испытали алгоритм на оставшихся 10% данных, чтобы увидеть, сможет ли он предсказать местопребывание человека.
Результаты получились интересными. Если исключить из выборки людей, которые, очевидно, в данный момент не находятся на одном месте, а путешествуют, то алгоритм правильно предсказывает родной город в 68% случаев, родной штат — в 70%, а часовой пояс — в 80%. И знаете, сколько времени на это требуется? Одна секунда!
Это может оказаться очень полезным механизмом. Журналисты, например, могут использовать его для определения твитов, отправленных из определённого региона, — скажем, во время землетрясения. А маркетологи — чтобы популяризировать свою продукцию в конкретных локациях.
Грустным следствием из этого текста является то, что наше представление о частной жизни всё сильнее размывается, под оком многочисленных камер и социальных сетей становится чем-то архаичным... Хорошо это или плохо, надо бы выяснить с помощью, предположим, широкого публичного обсуждения.
Подготовлено по материалам Technology Tell.
Одна из дополнительных опций в Twitter позволяет помечать твиты геометками. Это полезно, если вы хотите, к примеру, чтобы ваши Twitter-друзья знали, где вы сейчас находитесь. Или просто как напоминание для вас самого. Кроме того, это ценный инструмент для исследователей — например, географического распределения твитов.
Но есть и такая вещь, как частная жизнь. Особенно если пользователи не знают или забывают, что приложение помечает их посты геотегами. Скажем, некоторые знаменитости таким образом рассекретили свои домашние адреса. А в 2007 году четыре вертолёта Apache, принадлежавших армии США, были уничтожены в Ираке, когда повстанцы вычислили их по геотегам, коими были помечены фотографии, размещённые в соцсетях американскими солдатами.
Видимо, именно поэтому так мало твитов помечается геометками: несколько исследований показали, что лишь менее 1% постов в «Твиттере» содержат метаданные о местоположении.
«Заправлены в планшеты космические карты», — пел Владимир Трошин. Сегодня в планшеты заправлены геотеги!
На, как оказалось, отсутствие геотегов не поможет сохранить в тайне ваше местопребывание на планете Земля. Джалал Махмуд (Jalal Mahmud) и его коллеги из IBM Research уверяют, что они разработали алгоритм, который способен проанализировать последние 200 твитов любого человека — и определить его город с точностью в 70%.
Это может быть полезно для исследователей, журналистов, маркетологов и пр., которые любят везде совать свой нос. Но это также поднимает вопросы приватности для тех, кто убеждён, что его дом всё ещё его крепость.
Метод г-на Махмуда и компании относительно прост. С июля по август 2011 года исследователи фильтровали и анализировали твиты, которые были помечены геотегами в 100 крупнейших городах США, пока в базе не собралось по 100 пользователей для каждого города. Затем они загрузили последние 200 твитов, размещённых каждым человеком, (кроме тех, конечно, что не имели общего доступа). В итоге получилось более 1,5 млн координат из твитов почти 10 тыс. пользователей.
После этого учёные разделили эти данные на две части: 90% твитов было использовано для обучения ПО, а оставшиеся 10% — для проверки.
Основная идея алгоритма в том, что твиты содержат информацию о возможном местоположении человека. Скажем, более 100 тыс. твитов в наборе данных было получено на основе определения местопребывания в социальной сети Foursquare, а поэтому они содержали ссылки на точные координаты в момент отправки твита. А в почти 300 тыс. постов назывались города, перечисленные в геосправочнике Геологической службы США.
В других твитах присутствовали ключевые слова. К примеру, «пойдем на Red Sox» — это отсылка к бостонской бейсбольной команде. Исследователи считают, что распределение твитов в течение дня примерно постоянно в США, и лишь сдвигается с часовым поясом. Следовательно, временной шаблон отправки пользователем твитов даст практически точное попадание в тот часовой пояс, в котором он живёт.
Но вопрос ведь в том, можно ли, используя всю эту информацию, найти дом пользователя с минимальной ошибкой. Своё ПО специалисты IBM проверяли методом сравнения результатов с пользовательскими данными. Г-н Махмуд и Ко использовали алгоритм обучения, известный как «Наивный байесовский классификатор». Затем они испытали алгоритм на оставшихся 10% данных, чтобы увидеть, сможет ли он предсказать местопребывание человека.
Результаты получились интересными. Если исключить из выборки людей, которые, очевидно, в данный момент не находятся на одном месте, а путешествуют, то алгоритм правильно предсказывает родной город в 68% случаев, родной штат — в 70%, а часовой пояс — в 80%. И знаете, сколько времени на это требуется? Одна секунда!
Это может оказаться очень полезным механизмом. Журналисты, например, могут использовать его для определения твитов, отправленных из определённого региона, — скажем, во время землетрясения. А маркетологи — чтобы популяризировать свою продукцию в конкретных локациях.
Грустным следствием из этого текста является то, что наше представление о частной жизни всё сильнее размывается, под оком многочисленных камер и социальных сетей становится чем-то архаичным... Хорошо это или плохо, надо бы выяснить с помощью, предположим, широкого публичного обсуждения.
Подготовлено по материалам Technology Tell.
 
Источник: http://compulenta.computerra.ru/
Комментарии 1
0
sezam
25.03.2014 14:09
[Материал]
блин, я ни к чему не подсоединялся специально - просто
вошел в интернет через домашний вафляй. Мне мой мобильнег показал карту моего города и вот такую кнопку на моем доме. Чисто через интернет провайдера, очевидно. А может и через сотового провайдера - хз. Зачем нужно твитты анализировать, когда провайдеры сливают ваше положение? |