2015 г.
Компьютерные технологии и астрономия
Сергей Кузнецов
Обзор сентябрьского, 2014 г., номера журнала Computer (IEEE Computer Society, V. 47, No 9, сентябрь 2014).
Авторская редакция.
Также обзор опубликован в журнале «Открытые системы»
Сентябрьский номер посвящен применению компьютерных технологий в астрономии. В тематической подборке, приглашенным редактором которой являются Виктор Панкратиус и Крис Мэтмен (Victor Pankratius, MIT, Haystack Observatory, Chris Mattmann, NASA Jet Propulsion Laboratory and University of Southern California), содержатся пять крупных статей и четыре заметки. Вводная редакторская заметка называется «Компьютинг в астрономии: увидеть невиданное» («Computing in Astronomy: To See the Unseen»).
Впечатляющий переход от эпохи дефицита научных данных к эпохе их переизбытка особенно заметен в астрономии. Телескопы и датчики близки к возможности генерировать петабайты данных в секунду. Эти данные происходят от множества наземных астрономических устройств, таких как массив радиотелескопов LOFAR (Low Frequency Array), сверхчувствительный радиотелескоп Jansky Very Large Array и Атакамская большая миллиметровая/субмиллиметровая решётка ALMA (Atacama Large Millimeter/submillimeter Array), а также космических телескопов: Кеплер (Kepler), Хаббл (Hubble), Космический телескоп имени Джеймса Уэбба JWST (James Webb Space Telescope) и Рентгеновская орбитальная обсерватория Чандра (Chandra X-ray Observatory). Данные, собираемые этими устройствами, помогают ученым изучать происхождение и развитие Вселенной, а также искать планеты, пригодные для жизни людей. В настоящее время прогрессу астрономии более всего способствуют компьютерные науки. В частности, развитие аппаратных и программных средств, масштабность производства компьютеров делают их более доступными для астрономов, что обеспечивает новые возможности сбора, анализа и визуализации данных.
Это можно увидеть на примере проекта ALMA. Этот радиотелескоп является одним из мощнейших за всю историю этой технологии. Он находится в Чили на высоте более 5 километров над уровнем моря и включает 66 разных параболических антенн. Примененный в ALMA метод интерферометрии со сверхдлинными базами (very long baseline interferometry, VLBI) позволяет совместно использовать антенны, установленные в разных частях земного шара, так что диаметр виртуального телескопа может сравняться с диаметром Земли. Сигналы становятся битами и байтами, которые должны быть согласованы с точностью атомных часов. Алгоритмы обработки сигналов с интенсивными вычислениями отделяют сигналы от шумов и производят результаты, полезные для астрономов.
Такие устройства невозможно построить без использования компьютеров. В разработке программного обеспечения для ALMA участвуют специалисты с разных континентов: Северной и Южной Америк, Азии и т.д. Будущие проекты обеспечат астрономии новые возможности. Радиотелескоп SKA (Square Kilometre Array), который будет построен в Южной Африке и Австралии, станет крупнейшим в мире и будет производить примерно 700 терабайт данных ежесуточно. Большой обзорный телескоп LSST (Large Synoptic Survey Telescope), который планируется построить в Чили, будет регулярно фотографировать все небо и отслеживать миллионы галактик. Для обеспечения работы этих устройств понадобятся значительные усилия компьютерных специалистов.
При наличии таких огромных объемов данных ученые-астрономы должны использовать в своих исследованиях значительную компьютерную поддержку. Для компьютерных специалистов область астрономии является интересным испытательным стендом по причине наличия особых требований к обработке данных большого объема, скорости вычислений, точности и т.д.
Первая статья тематической подборки называется «Исследование галактики Млечного Пути с использованием ParaHeap-k» («Studying the Milky Way Galaxy Using ParaHeap-k») и представлена Марком Жене, Овеном Бобергом, Хасаном Курбаном и Мехметом Далкиличем (Mark Jenne, Owen Boberg, Hasan Kurban, Mehmet Dalkilic, Indiana University). В статье представлен краткий обзор компьютерных алгоритмов, используемых в астрономии. С использованием параллельного варианта метода кластеризации «k средних» (ParaHeap-k) авторы пытались обнаружить основные компоненты нашей галактики (гало, тонкий и толстый диски) в модельном наборе данных, представляющем около миллиона звезд. Результаты исследования являются начальной точной для будущего интеллектуального анализа крупных наборов данных, которые будут производиться будущими астрономическими устройствами. Статья также позволяет компьютерным специалистам познакомиться с базовой терминологией астрономии.
В статье «Высокопроизводительные вычисления собственного тяготения малых тел Солнечной системы» Даниель Фраскарелли, Серджио Несмачнов, Гонзало Танкреди («High-Performance Computing of Self-Gravity for Small Solar System Bodies») (Daniel Frascarelli, Sergio Nesmachnow, Gonzalo Tancredi, Universidad de la República) заново пересматривают классическую проблему n тел в контексте мелкозернистой многопотоковости. Они анализируют малые тела Солнечной системы, состоящие из подобъектов, которые подвергаются столкновениям, упругим и фрикционным взаимодействиям. В статье также оцениваются возможности параллелизма многоядерных компьютеров и разъясняются основы параллельного программирования.
Авторами статьи «Масштабирование астроинформатики с использованием Pydron: Python + автоматическое распараллеливание» («Scaling Astroinformatics with Pydron: Python + Automatic Parallelization») являются Стефан Мюллер, Густаво Алонсо и Андре Ксиллафи (Stefan C. Müller, ETH Zürich and University of Applied Sciences Northwestern Switzerland, Gustavo Alonso, ETH Zürich, André Csillaghy, University of Applied Sciences Northwestern Switzerland). В статье описывается Pydron – система автоматического распараллеливания кода на языке Python, одним из предназначений которой является анализ данных в астрономии. Pydron распараллеливает части кода на основе графа потока данных, который частично обеспечивается программистами с помощью расширений языка Python – декораторов. Декораторные аннотации, кроме того, упрощают развертывание и параллельное выполнение кода в облачных средах.
Рис. 1. Обычный последовательный код на языке Python с декораторами двух типов, выполняемый системой Pydron параллельно. Pydron «знает», что код, следующий за декоратором @schedule, нужно распараллеливать. Декоратор @functional сообщает Pydron, что у функции measure отсутствуют побочные эффекты.
Статью «Модель сквозных вычислений для SKA» («An End-to-End Computing Model for the Square Kilometre Array») написали Рик Йонгериус, Стефан Вийнхольдс, Рональд Нийбоер и Хенк Карпорал (Rik Jongerius, IBM Research and Eindhoven University of Technology, Stefan Wijnholds, Ronald Nijboer, ASTRON, Henk Corporaal, Eindhoven University of Technology). В статье обсуждается будущее астрономическое устройство SKA. Этот радиотелескоп станет крупнейшим за все время существования радиоастрономии. На первой фазе конструирования будет установлено 250000 дипольных антенн и 350 параболических антенн. В статье детально обсуждаются требования, предъявляемые разработчиками SKA, к средствам компьютерного сбора и обработки данных.
В статье «Антарктические компьютерные приключения: как я научился не беспокоиться и полюбил нейтрино» («Adventures in Antarctic Computing, or How I Learned to Stop Worrying and Love Neutrino») Лиза Герхардт, Хуан Карлос Диаз Велез и Спенсер Клейн (Lisa Gerhardt, Lawrence Berkeley National Laboratory, Juan Carlos Díaz Vélez, University of Wisconsin—Madison, Spencer R. Klein, Lawrence Berkeley National Laboratory and University of California, Berkeley) описывают нейтринный телескоп Ice-Cube, который состоит из 5160 оптических датчиков, погруженных на милю вглубь льда Южного полюса. В статье разъясняется потребность в подобных сложных устройствах, а также обсуждается влияние особенностей антарктической среды на применяемые компьютерные средства.
Рис. 2. Схематическое изображение нейтринной обсерватории IceCube с тысячами оптических датчиков, погруженных глубоко в лед Антарктики. На поверхности ледника находится лаборатория IceCube.
Последний материал тематической подборки называется «Компьютинг в астрономии: приложения и примеры» («Computing in Astronomy: Applications and Examples») и включает четыре небольших заметки. В заметке «Визуализация Вселенной: использование современных графических карт для понимания реального мира» («Visualizing the Universe: Using Modern Graphics Cards to Understand the Physical World») Александер Богерт, Николас Смит и Джон Холденер (F. Alexander Bogert, Nicholas Smith, John Holdener, University of California, Santa Cruz) описывается разрабатываемая в университете Санта Круз свободно доступная система yt, которая предназначается для анализа и визуализации пространственных данных. В модуле визуализации используются возможности графических процессоров.
Заметку «Визуализация больших данных в астрономии: конвейер AMPED» («Visualizing Big Data in Astronomy: The Automated Movie Production Environment Distribution and Display (AMPED) Pipeline») написал Эрик де Йонг (Eric M. De Jong, NASA Jet Propulsion Laboratory). В заметке кратко описывается система визуализации AMPED, используемая в проекте лаборатории ракетных двигателей NASA (Jet Propulsion Laboratory, JPL). Ключевой особенностью AMPED является то, что данные визуализируются в виде «роликов», отражающих темпоральные характеристики данных.
Рис. 3. Кадр из ролика, построенного с использованием AMPED и показывающего полет над кратером Мохаве на Марсе.
Авторами заметки «Поддержка распределенного совместного анализа и классификации быстрых переходных событий» («Supporting Distributed, Collaborative Review and Classification of Fast Transient Events») являются Эндрю Харт, Люка Чинквини, Шейкен Худикян, Дэвид Томпсон, Крис Мэтмен, Кири Вэгстаф, Джозеф Лацио и Дейтон Джонс (Andrew F. Hart, Luca Cinquini, Shakeh E. Khudikyan, David R. Thompson, Chris A. Mattmann, Kiri Wagstaff, Joseph Lazio, Dayton L. Jones, NASA Jet Propulsion Laboratory). Авторы статьи из лаборатории ракетных двигателей NASA сотрудничают с научной группой Национальной радиоастрономической лаборатории (National Radio Astronomy Observatory) в проекте по разработке набора программных компонентов для быстрой оценки, классификации и архивирования данных радиообнаружения. В проекте активно используются доступные программные средства с открытыми исходными текстами (в частности, платформа полнотекстового поиска Apache Solr).
Последнюю заметку «Технологии больших данных в JPL» («Big Data Technologies at JPL») написал Дейтон Джонс (Dayton L. Jones, NASA Jet Propulsion Laboratory). В статье описываются работы, выполняемые в лаборатории ракетных двигателей NASA в четырех областях, связанных с проблематикой «больших» данных: обработка сигналов с низким энергопотреблением, анализ данных в реальном времени с использованием алгоритмов машинного обучения, масштабируемая архивация данных, а также интеллектуальный анализ и визуализация данных. Хотя большая часть этих работ выполняется в связи с потребностями будущих крупных радиотелескопов, аналогичные проблемы возникают во многих других исследовательских областях и в индустрии.
Вне тематической подборки опубликованы две крупные статьи. Статью «Стандарты кибербезопасности: управление рисками и обеспечение жизнестойкости» («Cybersecurity Standards: Managing Risk and Creating Resilience») представили Закари Кольер, Игорь Линьков, Дэниел Димазе, Стив Уолтерс, Марк Техранипур и Джеймс Ламберт (Zachary A. Collier, Igor Linkov, US Army Engineer Research and Development Center, Daniel DiMase, Steve Walters, Society of Automotive Engineers G-19 Test Laboratory Standards Development Committee, Mark (Mohammad) Tehranipoor, University of Connecticut, James H. Lambert, University of Virginia).
Коллективный опыт авторов статьи в области разработки стандартов безопасности аппаратуры и обнаружения контрафактной электроники позволяет им судить о том, что должен делать фреймворк безопасности, основанной на оценке рисков. Комитет по стандартизации G-19 Общества автомобильных инженеров (The Society of Automotive Engineers, SAE), ответственный внутри SAE за разработку стандартов тестовой лаборатории для аэрокосмической промышленности, построил две модели, эффективно связывающие технические данные и анализ выработки решений в адаптивный фреймворк. Эти модели показывают, что стандарты кибербезопасности на основе оценки рисков могут способствовать созданию систем, более устойчивых к динамически возникающим угрозам.
Рис. 4. Сравнение подлинных и контрафактных деталей: (a) верхняя часть дросселя, (b) нижняя часть дросселя, (c) катушка индуктивности. На рис. 4 (a) и (b) у контрафактной детали (слева) наблюдаются неправильная оконечная металлизация и плохое качество изготовления. На рис. 4 (c) в контрафактной катушке неравномерно намотана проволока, и у нее другой калибр.
Последняя крупная статья номера называется «Адаптивные серверные системы, ориентированные на использование новых технологий основной памяти» («Adapting Server Systems for New Memory Technologies») и написана Хиллери Хантер, Луисом Ластрасом-Монтано и Бишвараньяном Бхаттачарья (Hillery Hunter, Luis A. Lastras-Montaño, Bishwaranjan Bhattacharjee, IBM T.J. Watson Research Center). Основной памяти серверов всегда не хватает емкости и пропускной способности, а внешней памяти – достаточно высокой плотности записи. Технологии, которые могли бы устранить разрыв в производительности и плотности между основной и внешней памятью, привели бы к значительному совершенствованию иерархии данных серверов. Технологии основной памяти, такие как магниторезистивная память на основе переноса спинового момента (spin-torque transfer magnetic memory, STT-MRAM), память на основе фазовых переходов (phase-change RAM, PCRAM) и резистивная металл-оксидная память, обладают требуемым потенциалом. Сообщество разработчиков серверов взбудоражено грядущим (в ближайшие годы) появлением на рынке этих энергонезависимых кандидатов в серверные средства долговременного хранения данных. По сравнению с флэш-памятью типа NAND такие технологии могут обеспечивать большую износостойкость по записи и меньшую задержку доступа – характеристики, которые могут преобразить серверные системы.
Для исследования этих возможностей авторы статьи анализировали проблемы, с которыми серверные системы сталкиваются в настоящее время, и которые могут смягчить или даже устранить новые технологии памяти. Авторы также исследовали, какие изменения в аппаратуре и программном обеспечении серверов потребуются, чтобы разработчики серверных систем могли использовать новые виды памяти.
Рис. 5. Серверные иерархии данных. В прежних иерархиях внешняя память находилась далеко от основной памяти по показателю задержки доступа. Флэш-память типа NAND, расположенная в иерархии вслед за основной памятью, помогала уменьшить эту задержку, но обладала плохой износоустойчивостью по записи и несогласованной производительностью. Новые энергонезависимые технологии основной памяти могут обеспечить класс внешней памяти, образующий перемычку между основной памятью и традиционной внешней памятью и устраняющий разрыв между производительностью и плотностью записи.