В начале месяца читал книжки по Machine Learning и Data Mining, главная из которых “Data Mining. Practical Machine Learning Tools and Techniques” авторов Ian H. Witten & Eibe Frank. Реализовал не самый сложный классификатор ID3 (in Ruby) и протестировал его на доступных данных (знаком с Weka и AI4R, но решил сам написать). Затем, с этим инструментом в руках решил вернуться к таблицам, представляющим Индексы Развития Человеческого Потенциала в отчете 2010 года (HDR Human Development Report 2010), которые мы уже рассматривали, и посмотреть, какие же показатели России надо улучшить, чтобы индекс Коррупция оказался низким. Согласно отчету 2010 Россия была на 52 месте. В качестве атрибутов выбрал следующие показатели из отчета: "HDR", "ELifeTime", "EducationTime", "GDP", "Participation", "Democracy", "Press", "Politics", "Satisfaction", "Work", "Health", "Level", "Meaningness", "NegExperience", "Pop2010", "Age1990", "Education", "PublicHealth", "Science", "Defense", "Internet", "PC", добавив площадь стран “Km2”, а позднее - индикатор добычи нефти в странах “Oil”, найдя данные здесь.
Напомню, что рассматривал группу государств с высоким и очень высоким итоговым индексом, их было 84. Число их пришлось сократить, удалив данные для стран с неизвестным индексом Коррупция (например, Словакия и Хорватия), оставив 61 страну в списке. Все цифровые показатели перевел в символьные - High, Low, используя значения медианы в качестве критерия. Думаю, что значение среднего сместило бы оценки из-за далеко отстоящих нескольких отсчетов, а медиана в этом случае близка к оценке, которая обычно выражается обыденно словами - “как у всех”. Поиграл параметрами Демократия, Вовлеченность в политику, Общая удовлетворенность, Образование, Удовлетворенность работой, величиной Валового продукта. Ничего неожиданного не обнаружил. Да, при высоких значениях параметров получается низкое значение индекса Коррупция, но только если несколько этих параметров банально поднять разом. То есть, нет ключевого атрибута, улучши который один, и с коррупцией будет покончено.
Тут мне и пришло в голову добавить параметр добычи нефти Oil - Yes, No. И произошло удивительное, стоило перевести Россию из страны, добывающей и экспортирующей нефть, в категорию Petroleum=No, как коррупция в модели снизилась. Вот как это выглядит
Напомню, что рассматривал группу государств с высоким и очень высоким итоговым индексом, их было 84. Число их пришлось сократить, удалив данные для стран с неизвестным индексом Коррупция (например, Словакия и Хорватия), оставив 61 страну в списке. Все цифровые показатели перевел в символьные - High, Low, используя значения медианы в качестве критерия. Думаю, что значение среднего сместило бы оценки из-за далеко отстоящих нескольких отсчетов, а медиана в этом случае близка к оценке, которая обычно выражается обыденно словами - “как у всех”. Поиграл параметрами Демократия, Вовлеченность в политику, Общая удовлетворенность, Образование, Удовлетворенность работой, величиной Валового продукта. Ничего неожиданного не обнаружил. Да, при высоких значениях параметров получается низкое значение индекса Коррупция, но только если несколько этих параметров банально поднять разом. То есть, нет ключевого атрибута, улучши который один, и с коррупцией будет покончено.
Тут мне и пришло в голову добавить параметр добычи нефти Oil - Yes, No. И произошло удивительное, стоило перевести Россию из страны, добывающей и экспортирующей нефть, в категорию Petroleum=No, как коррупция в модели снизилась. Вот как это выглядит
Первая строка - сокращенные до 2-х символов имена атрибутов. Вторая - соответствующие индексы России в 2010 году согласно отчету HDR 2010 (за исключением 2-х последних, добавленных мною - площадь Km[2] и Нефть O[il]), коррупция имеет значение “Hi”. Последняя, третья строка - случай модели с измененным атрибутом нефти на No. В результате, коррупция получила значение “Lo”.
Не стану рассуждать на эту тему, чтобы не соблазниться интуитивным пониманием факта.Не стану и призывать к эксперименту с прекращением добычи нефти. Лучше большой ВВП, чем маленькая коррупция.
Перед чтением на тему классификаторов прочитал “Мудрость толпы” Д.Шуровьески (может напишу. Сам я не думал, пока не прочитал, что большинство может принимать правильные решения) и заинтересовался, нельзя ли классифицировать не морские гребешки и автомобили, а социальные группы граждан, которые хоть как-то характеризуются в сети. Обнаружил, например, что доступны сведения о том, как проголосовал каждый сенатор США в каждом голосовании по принятию законов и поправок. Более того, есть специалисты, которые уже анализируют политические проявления публичных чиновников: Data Mining in Politics и Numerical methods for determining leadership and ideology in Congress. Например, так делятся (линиями на рисунке) голосоющие За и Против в сенате. Как отмечает автор, республиканцы более консолидированы, чем демократы, то есть линии в значительной степени делят голоса представителей демократической партии.
Перед чтением на тему классификаторов прочитал “Мудрость толпы” Д.Шуровьески (может напишу. Сам я не думал, пока не прочитал, что большинство может принимать правильные решения) и заинтересовался, нельзя ли классифицировать не морские гребешки и автомобили, а социальные группы граждан, которые хоть как-то характеризуются в сети. Обнаружил, например, что доступны сведения о том, как проголосовал каждый сенатор США в каждом голосовании по принятию законов и поправок. Более того, есть специалисты, которые уже анализируют политические проявления публичных чиновников: Data Mining in Politics и Numerical methods for determining leadership and ideology in Congress. Например, так делятся (линиями на рисунке) голосоющие За и Против в сенате. Как отмечает автор, республиканцы более консолидированы, чем демократы, то есть линии в значительной степени делят голоса представителей демократической партии.
Ничего подобного невозможно узнать и проанализировать по нашим сенаторам, нет информации по персональным голосованиям на сайте думы. А жаль. Открытость добавила бы им чувства ответственности и помогла бы оценить, а значит и улучшить качество их работы. А может быть и повысить уровень нашей жизни, не их.
Чем больше в стране нефти, тем меньше в ней демократии. Читать полностью: http://www.rbcdaily.ru/2011/10/27/world/562949981897701.
ReplyDeleteА я что говорил выше? "И произошло удивительное, стоило перевести Россию из страны, добывающей и экспортирующей нефть, в категорию Petroleum=No, как коррупция в модели снизилась."