2015 г.
Настоящее и будущее визуализации
Сергей Кузнецов
Обзор майского, 2013 г. номера журнала Computer (IEEE Computer Society, V. 46, No 5, May 2013).
Авторская редакция.
Также обзор опубликован в журнале «Открытые системы»
Темой майского номера журнала является компьютерная визуализация. Тематическая подборка содержит шесть регулярных статей, предваряемых заметкой приглашенных редакторов, в роли которых выступают Тереза-Мария Райн и Мин Чен (Theresa-Marie Rhyne, Min Chen, University of Oxford). Название редакторской заметки – «Передовые исследования в области визуализации» («Cutting-Edge Research in Visualization»).
В области визуализации исследуются методы преобразования данных к визуальным представлениям, используемые при разработке процессов познания, которые обеспечивают лучшее понимание смысла данных. Одно из самых распространенных визуальных представлений – линейная диаграмма используется уже более тысячи лет. Около трех столетий тому назад разработка различных визуальных представлений, таких как столбчатая диаграмма, круговая диаграмма, диаграмма рассеяния и гистограмма привела к появлению статистической графики – набора методов, поддерживающих анализ данных.
Хотя в 1987 г. в отчете Национального научного фонда США (National Science Foundation, NSF) акцентировалось применение приложений визуализации в науке и технике, следующие 25 лет продемонстрировали быстрое развитие визуализации как самостоятельной научной области. В 1990-е гг. сформировалось направление визуализации информации (information visualization), в котором основное внимание уделялось разновидностям непространственных данных, распространенным в гуманитарных, общественных, экономических и многих других дисциплинах. В 2000-е гг. возникло направление визуальной аналитики (visual analytics), обеспечивающее тесную связь визуализации с другими дисциплинами: интеллектуальным анализом данных (data mining), машинным обучением (machine learning) и т.д.
В настоящее время визуализация означает намного большее, чем набор методов машинной графики и построения трехмерных сцен. Имеется много методов визуализации для любых видов данных, включая тексты, документы и языковые корпусы; деревья, графы и сети; коллекции изображений и видео; временные ряды, табличные и многомерные данные; географические данные; скаляры, векторы и тензорные поля и многое другое.
Визуализация часто воспринимается, как средство воздействия на публику за счет обеспечения качественных изображений и анимации. Однако многочисленные исследования и опросы пользователей показывают, что визуализация позволяет повысить эффективность исследователей при систематизации и анализе данных. Визуализация облегчает формулировку новых гипотез, помогает при принятии решений, поддерживает эффективный обмен идеями и облегчает распространение знаний.
Первая регулярная статья тематической подборки написана Адити Маджамбер и Бехзадом Саджади (Aditi Majumder, University of California, Irvine, Behzad Sajadi, D.E. Shaw & Co) и называется «Широкоформатные дисплеи: изменение облика визуализации» («Large Area Displays: The Changing Face of Visualization»).
Визуализация – это крупная научная область, обеспечивающая обработку, отображение объемных данных и взаимодействие с ними. Обычно под термином визуализация понимается циклический процесс, в ходе которого взаимодействие с визуализированными данными приводит к их дальнейшей обработке и анализу. Поэтому качество используемых дисплеев, в особенности, широкоформатных, чрезвычайно важно для успешного применения практических приложений визуализации. В этом смысле визуализация является основой внешнего представления данных, общения при их анализе и взаимодействия с данными, а дисплей определяет доступный пользователям облик визуализируемых данных. При отсутствии высококачественных дисплеев визуализация не более полезна, чем тело без лица.
По мнению авторов статьи, огромные достижения в области методов обработки данных могли бы оказаться бесполезными без соразмерного развития в последнее десятилетие технологии широкоформатных дисплеев, а также без наличия захватывающих перспектив в будущем. В статье приводится обзор работ в области широкоформатных дисплеев с начала 1990-х до настоящего времени. Этот обзор показывает, что сообщество разработчиков устройств отображения находится в чрезвычайно удобной позиции для создания новых широкоформатных дисплеев на основе огромных достижений прошлых лет и амбициозных планов на будущее.
(a)
(b)
(c)
(d)
Ранние широкоформатные дисплеи. (a) CAVE из Иллинойского университета в Чикаго. (b) 18-мегапиксельная стена из Принстонского университета на основе массива из 24 проекторов. (c) 7-магипиксельная стена из Калифорнийского университета в Ирвине на основе девяти заднеэкранных проекторов. (d) Этот дисплей обеспечивает полностью гладкое изображение, как если бы оно создавалось дисплеем с одним проектором.
Статью «Исследовательские проблемы программного обеспечения визуализации» («Research Challenges for Visualization Software») представили Хенк Чайлдс, Берк Джевеси, Цилл Шредер, Джереми Мередит, Кристофер Севелл, Торстен Кюхлен и Е. Вес Бетел (Hank Childs, University of Oregon and Lawrence Berkeley National Laboratory, Berk Geveci, Will Schroeder, Kitware, Jeremy Meredith, Oak Ridge National Laboratory, Kenneth Moreland, Sandia National Laboratories, Christopher Sewell, Los Alamos National Laboratory, Torsten Kuhlen, RWTH Aachen University, Germany, E. Wes Bethel, Lawrence Berkeley National Laboratory).
Визуализация – это эффективная технология, помогающая лучше понимать данные и используемая во многих прикладных областях. Программные приложения и библиотеки делают механизмы визуализации доступными пользователям. Программное обеспечение визуализации используется повсеместно. Хотя пользователи знают, как следует интерпретировать результаты, обычно им не под силу самим визуализировать свои данные.
Программное обеспечение визуализации обеспечивает эффективную передачу опыта небольших групп разработчиков многим пользователям. Программное обеспечение позволяет скрыть от пользователей детали методов и их сложность, обеспечивая набор стандартных алгоритмов визуализации.
Одной из основных причин потребности развития архитектур программного обеспечения визуализации является необходимость работы с большими данными, имея в виду как их объемность, так и расширяющуюся разнородность форм данных. Для работы с большими данными требуются методы, позволяющие работать далеко не только с пространственно-временными формами данных, типично используемыми в научной визуализации. С появлением направлений визуализации информации и визуальной аналитики системы визуализации должны также научиться справляться с неструктурированными формами данных: текстами, графами, деревьями, таблицами и т.д.
Другой важной тенденцией является возрастающее разнообразие параллельных вычислительных систем, устройств визуализации и взаимодействия и пользовательских платформ, таких как планшеты. Это разнообразие затрудняет возможность программного обеспечения эффективно представлять, обрабатывать данные и обеспечивать взаимодействие с ними.
Наконец, становится неправомерным предположение о простоте передачи данных из систем хранения в эти системы. Ограничения потребления энергии и пропускной способности каналов приводят к потребности перемещения средств визуализации ближе к месту хранения данных, чтобы обеспечить эффективное извлечение наиболее важной информации.
Исследовательские проблемы, с которыми сталкиваются разработчики программного обеспечения визуализации включают массивный параллелизм, модели архитектур процессоров и программирования, архитектуры приложений и средств управления данными, модели данных и т.д.
Авторами статьи «Повествование: следующий шаг взуализации» («Storytelling: The Next Step for Visualization») являются Роберт Козара и Джок Макинлей (Robert Kosara, Jock Mackinlay, Tableau Software, Seattle).
В большей части ранних исследовательских работ в области визуализации основное внимание уделялось новым методам, что порождало вопросы о том, какой из них следует использовать и для решения какой задачи. Это привело к появлению статей, в которых сравнивались методы и делались попытки установить механизмы восприятия, обосновывающие применение этих методов.
Сегодня исследователи хорошо понимают, каким является пространство проектных решений визуализации: они в состоянии найти подходящие методы для решения конкретных задач. Хотя и в этом направлении требуются дальнейшие исследования, можно сказать, что имеющихся методов достаточно для того, чтобы работать с данными. Однако все еще отсутствуют надежные знания о наилучших способах представления данных и обмена ими.
Людям всегда свойственно связывать факты в истории, эффективно представляя информацию и способствуя ее запоминанию. Истории – это не только наиболее популярный механизм сохранения фактов и их передачи, но и способ связывания фактов, что помогает их лучше запомнить. По мнению авторов, использование элементов повествования является следующим шагом исследований в области визуализации, в особенности, потому, что повествование позволяет эффективно представлять данные.
Увеличить рисунок
Русская кампания Наполеона. Хотя карту Минара (Charles Minard) часто считают примером визуального повествования, она не включает типичные элементы повествования, такие как развитие сюжета во времени.
Статья «Переосмысление парадигмы взаимодействия в научной визуализации» («Reimagining the Scientific Visualization Interaction Paradigm») написана Дениэлом Кифом и Тобиасом Айзенбергом (Daniel F. Keefe, University of Minnesota, Tobias Isenberg, INRIA Saclay, France).
Процессу совершения открытия всегда было свойственно использование новых способов изображения понятий и взаимодействия с ними. Например, классические стробоскопические фотографии лошадей Мейбриджа (Eadweard Muybridge) привели к обнаружению того, что конь, бегущий галопом, во время бега отрывает все ноги от земли. Рисунки стремительно текущей воды Леонардо да Винчи способствовали зарождению гидродинамики.
Сегодня инженеры, ученые и творческие работники постоянно используют физические модели и их трехмерные прототипы. Взаимодействие с этими моделями часто позволяет по-новому понять суть явления. Было бы замечательно, если бы эти действия можно было бы производить в виртуальном пространстве визуализированных данных, где мощные компьютерные методы можно было бы комбинировать с естественными человеческими взаимодействиями и визуальными коммуникациями.
Чтобы это впечатляющее будущее стало реальностью, нужно научиться бесшовным образом встраивать инструменты графической визуализации в потоки работ ученых, инженеров и других пользователей. Достичь этой цели можно за счет новых исследований естественных пользовательских интерфейсов для научной визуализации. Особое внимание в этих исследованиях следует уделять поиску новых, естественных средств ввода и отображения данных в процессе визуализации.
Бен Шнейдерман, Катерина Плейзант и Бредфорд Хессе (Ben Shneiderman, Catherine Plaisant, University of Maryland, Bradford W. Hesse, National Institutes of Health) представили статью «Повышение качества здравоохранения на основе использования интерактивной визуализации» («Improving Healthcare with Interactive Visualization»).
Развитие медицинских информационных систем сулит революционные изменения в области здравоохранения во всем мире. Однако для превращения этих перспектив в реальность потребуется огромный труд тысяч разработчиков, аналитиков, специалистов в области пользовательских интерфейсов и медицинских профессионалов.
Хотя нужно решить много разных проблем, авторы данной статьи концентрируются на роли визуализации информации и процессов визуального анализа. Эти дисциплины обеспечивают алгоритмы, интерактивные архитектуры и аналитические процессы, поддерживающие исследования, мониторинг, профессиональное сотрудничество и понятные представления данных для пациентов, врачей, лиц, принимающих решения и общественности.
В 2011 г. Институт медицины США опубликовал отчет, посвященный повышению уровня безопасности пациентов на основе «междисциплинарных исследований» и «применении ориентированного на пользователей подхода к построению архитектур медицинских информационных систем». В этом отчете четко говорится, что в области клинической медицины визуализация информации не настолько развита, как в других научных дисциплинах. В статье обсуждаются перспективы изменения этого состояния дел.
Последняя статья тематической подборки называется «Визуальный анализ данных социальных сетей» («Visual Analysis of Social Media Data»). Ее авторы – Тобиас Шрек и Диниэль Кейм (Tobias Schreck, Daniel Keim, University of Konstanz, Germany).
В последние десятилетия наблюдается бурное развитие информационной технологии. Постоянное улучшение характеристик устройств хранения данных, повышение пропускной способности сетей, возрастание мощности процессоров позволяют собирать, хранить, передавать и обрабатывать огромные объемы данных. Это приводит к появлению новых коммерческих, научных и правительственных приложений, позволяющих анализировать «большие данные» для извлечения новых знаний и совершенствования принятия решений.
В социальных сетях пользователи генерируют контент в разных формах, включая видео, изображения, текстовые и геопространственные данные, и часто этот контент является свободно доступгым. Эти данные можно использовать в разных целях: в компаниях для совершенствования бизнес-процессов, лицами, принимающими решения, для понимания тенденций формирования общественного мнения и т.д. Среди прочих исследователей, социальные сети как зеркало культуры изучаются социологами и политологами.
Однако при использовании данных социальных сетей возникает много проблем. Они очень объемны и передаются в интенсивных потоках. Эти данные являются разнородными, зачастую двусмысленными и в высшей степени зависящими от контекста.
Методы зрелых дисциплин компьютерных наук позволяют решить некоторые проблемы, возникающие при обработке и анализе таких объемных и сложных данных. Интеллектуальный анализ данных на основе методов машинного обучения дает возможность автоматически обнаруживать закономерности в данных, причем эти закономерности можно специфицировать алгоритмически.
В развивающемся направлении визуального анализа комбинируются преимущества обоих подходов для обеспечения лучшего понимания больших данных. Интеллектуальный анализ позволяет сократить объем данных путем отбора наиболее интересных структур, а интерактивная визуализация моделирует деятельность аналитика и опирается на его фундаментальные знания. Приложение визуального анализа к данным социальных сетей демонстрирует многие достоинства этого интегрированного подхода.
Прототип системы визуальной аналитики данных социальных сетей. (a) В LeadLine применяются методы обработки текстов для извлечения событий из потоков данных социальных сетей и получения их характеристик. (b) В SensePlace2 обеспечивается поддержка ситуационной осведомленности поддержки реакции на чрезвычайные ситуации. Для этого используется инструмент визуального поиска и мониторинга данных из Twitter о катастрофах и эпидемиях. (c) В визуальном «обратном канале» (visual backchannel) интегрируются тексты, связанные с ними изображения и идентификаторы авторов из данных Twitter. (d) Деревья риторических структур (rhetorical structure) могут помочь аналитику разбирать контент социальной сети в режиме онлайн.
Вне тематической подборки в майском номере опубликованы две крупные статьи. Статью «IPv6: средство активации ботнетов и сетей распространения вредоносного программного обеспечения и защиты от этих сетей» («IPv6: A Catalyst and Evasion Tool for Botnets and Malware Delivery Networks») написали Кинг Ли, Крис Ларсен и Тим ван дер Хорст (Qing Li, Chris Larsen, Tim van der Horst, Blue Coat Systems).
Взрывообразный рост числа устройств, доступных на рынке, с возможностями 3G и 4G, таких как iPhone, iPad и мобильные устройства на основе Android, и их быстрое распространение к корпоративных средах ускоряют переход к использованию IPv6. Однако отсутствие в этих устройствах должной защиты от вредоносного программного обеспечения делает их уязвимыми к различным кибератакам. Зараженные устройства могут стать активными элементами ботнетов или использоваться для поддержки изощренных атак на обычные сети.
В статье перечисляются проблемы безопасности IPv6, описываются сценарии потенциальных атак и предлагаются решения для борьбы с ними. Цели автора состоит в том, чтобы привлечь внимание к этим проблемам индустрии мобильных устройств и исследовательского сообщества.
Последняя статья номера написана Эмми Шепански, Джианом Хуаном, Троем Байером, Яшемой Мек и Сином Ахерном (Amy F. Szczepanski, Jian Huang, Troy Baer, Yashema C. Mack, Sean Ahern, University of Tennessee) и называется «Анализ данных и визуализация в высокопрозводительных вычислениях» («Data Analysis and Visualization in High-Performance Computing»).
В мире высокопроизводительных вычислений (high-performance computing, HPC) приложения анализа и визуализации данных долгое время считались второстепенными. Видное положение такие приложения получили только при наступлении эпохи TeraGrid eXtreme Digital (XD).
Началом этой эпохи можно считать 2010 г., когда NSF начала финансировать два удаленных центра визуализации. Центр удаленного анализа и визуализации (Remote Data Analysis and Visualization, RDAV) университета Теннеси поддерживает среду NSF eXtreme Science and Engineering Discovery Environment (XSEDE), ранее называвшейся TeraGrid. XSEDE является крупнейшей в мире распределенной инфраструктурой открытых научных исследований. Она обеспечивает американских исследователей и преподавателей возможностями работы с огромными объемами информации, представленной в цифровой форме.