Датские ученые собрали подробные биографические сведения обо всех жителях Дании из государственных баз данных за период с 1 января 2008 года по 31 декабря 2015 года. Год рождения, здоровье, образование, зарплата, местожительство и т. д. — все было включено в анализ человеческих судеб. Авторы разработали новый способ анализа данных, похожий на системы семантического анализа языковых текстов. Их модель сумела вычленить смысловые кластеры и на их основе предсказать вероятность ранней смерти в когорте людей возрастом 35–65 лет. Уровень точности составил 40% — очень достойный показатель для попытки что-либо предсказать. Точность оказалась выше, чем у испытанных ранее моделей на базе различных нейросетей, и моделей, основанных на других принципах. Также новый анализатор неплохо справился с задачей определения личностных характеристик людей на основе всё тех же биографических данных.
В журнале Nature Computational Science опубликована статья о человеческих судьбах. В ней говорится о том, как использовать биографии для предсказания будущего отдельного человека и описать его личностные качества. Считается, что это удел гадалок, которые умеют мистическим взглядом пробить тонкую вуаль настоящего и увидеть будущее человека и самоё его суть. Но теперь на этом поприще решили себя попробовать ученые. Авторы новой методики предсказаний работали под руководством Суне Лемана (Sune Lehmann) из Копенгагенского университета и представляли различные научные учреждения Дании, а также США. В объединенную базу данных вошло всё население Дании, около 6 млн человек. Иначе говоря, ученые гадали всей стране.
В этой работе особенно интересны три аспекта. Первый — сами данные. Это собранная вместе информация о каждом датчанине: когда и где родился, где учился, где работал и когда менял работу, где жил, переезжал ли, когда и куда, сколько получал денег и за что, как их тратил, когда и зачем обращался к врачу. Хорошо, конечно, что все эти данные идут на интересную науку и, следовательно, на благо общества, но всё же от таких масштабов немножечко не по себе.
Второе, что обращает на себя внимание, — методика работы с этими данными. Сами авторы считают именно этот аспект работы наиболее значимым. В отличие от других методов анализа больших многомерных массивов здесь применены технологии анализа, разработанные специально для данных со встроенной «памятью» — тех, в которых имеются скрытые причинно-следственные связи. Собственно, жизнь человека — это набор миллиона случайных и закономерных событий, среди которых бессмысленно искать первопричину или пусковой механизм. Но с такими данными ученые уже умеют работать — это, в частности, методы распознавания смыслов в языковых текстах. Одну из таких лингвистических систем и адаптировали под свои задачи исследователи человеческих судеб. Они анализировали цепочку жизненных событий как длинную фразу. В этой фразе каждое слово-событие может быть связано по смыслу с другим словом-событием, но может быть и не связано. Программа, которую создали авторы работы (они назвали ее Life2vec, по аналогии с Word2vec), настроена на поиск этих встроенных смысловых связей. Возможно, этот общий подход для анализа систем со встроенной «памятью» может привнести новое видение и для прогнозирования других сложных систем со своей историей, например судьбы видов крупного таксона или биома.
И, наконец, третий важный аспект — это сами результаты. Разработанная программа, которая учитывает различные события прошлой жизни, может неплохо предсказать, например, раннюю смерть, а также описать личность человека. Так что получается, что личность человека увязывается с его судьбой: может быть, личность формирует судьбу, а может, и, наоборот, человек — продукт своей судьбы.
Делая прогнозы на основе своей модели, ученые отмечают, что она срабатывает лучше, чем другие прогностические системы. В целом, такой показатель, как ранняя смерть (35–65 лет) легко проконтролировать. В данном случае интервал с 2008-го по 2015 год служил как основной массив данных, а для интервала 2016–2020 гг. ученые рассчитали вероятность наступления смерти в возрастной когорте 35–65 лет. Нужно подчеркнуть, что для этой возрастной когорты прогнозы о смерти делать трудно. Однако модель life2vec предсказывает ее с вероятностью 40–42%, что на 10% превышает предсказательную точность предыдущих рекордсменов в данной области — различные варианты нейросетей.
Модель позволяет поисследовать факторы, влияющие на вероятность ранней смерти. Убирая тот или иной показатель, можно увидеть, насколько изменится прогностическая сила модели. С помощью подобного перебора ученые выяснили, что высокий доход или работа менеджером снижает риск ранней смерти, а работа машинным оператором (что бы это ни значило) или квалифицированным рабочим, а также инфекционные и душевные болезни увеличивают этот риск. Конечно, пока этот вывод не слишком оригинален — лучше быть богатым управляющим, чем больным рабочим, — но всё же предсказатель life2vec еще только учится.
На рисунке выше показано, как модель life2vec на основе всё тех же биографических записей может определить некоторые черты личности, связанные с экстраверностью-интравертностью: самооценку, общительность, готовность к коммуникации (социальная смелость), активность. Проверкой модельных оценок служили стандартные опросники, дающие оценку различным индивидуальным качествам (здесь — показателям экстраверсии). Модель неплохо справилась с определением этой черты, по крайней мере лучше, чем натренированные нейросети. Только общительность модель life2vec определила хуже нейросети.
Итак, в распоряжении ученых имеется система, которая умеет осмысленно анализировать повседневные события в жизни человека — обычную канву, без блесток успехов или прорех несчастий. Эта система, по-видимому, научилась учитывать какие-то запрятанные в клубке событий значимые узелки жизни. Мы, естественно, имеем дело с вероятностями, не слишком большими, но всё же далекими от случайностей. Эта статья научная, но в ней есть над чем поразмышлять, если вдруг потянет на философию.
Источник: Germans Savcisens, Tina Eliassi-Rad, Lars Kai Hansen, Laust Hvas Mortensen, Lau Lilleholt, Anna Rogers, Ingo Zettler, Sune Lehmann. Using sequences of life-events to predict human lives // Nature Computational Science. 2023. DOI: 10.1038/s43588-023-00573-5.
Елена Наймарк
Свежие комментарии