Logo Море(!) аналитической информации!
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

VPS в России, Европе и США

Бесплатная поддержка и администрирование

Оплата российскими и международными картами

🔥 VPS до 5.7 ГГц под любые задачи с AntiDDoS в 7 локациях

💸 Гифткод CITFORUM (250р на баланс) и попробуйте уже сейчас!

🛒 Скидка 15% на первый платеж (в течение 24ч)

Скидка до 20% на услуги дата-центра. Аренда серверной стойки. Colocation от 1U!

Миграция в облако #SotelCloud. Виртуальный сервер в облаке. Выбрать конфигурацию на сайте!

Виртуальная АТС для вашего бизнеса. Приветственные бонусы для новых клиентов!

Виртуальные VPS серверы в РФ и ЕС

Dedicated серверы в РФ и ЕС

По промокоду CITFORUM скидка 30% на заказ VPS\VDS

Intel привлекла ИИ к обнаружению ошибок у чипов в ЦОД

На Международном симпозиуме по физике надёжности (International Reliability Physics Symposium — IRPS) инженеры Intel описали метод, который с помощью обучения искусственного интеллекта с подкреплением помогает выявлять скрытые ошибки в работе процессоров. В перспективе это позволит системно повысить их надёжность.

Когда в центре обработки данных (ЦОД) один из узлов допускает ошибку в вычислениях, оператор может либо вывести его из эксплуатации и заменить, либо перевести в сегмент с менее приоритетными вычислениями. Но гораздо лучше было бы обнаруживать ошибки раньше — в идеале ещё до того, как чип попадёт в систему, когда ещё возможно внести изменения в конструкцию или производственный процесс, чтобы предотвратить их появление в будущем.

Причин возникновения ошибок может быть множество — исследователи Intel привели обширный список, и в большинстве случаев они восходят к чрезвычайно малым отклонениям в производстве. Даже если каждый из миллиардов транзисторов на чипе работоспособен, они не полностью идентичны: к ошибке могут привести мельчайшие особенности реакции отдельных транзисторов на изменения температуры, напряжения или частоты.

Чаще всего такие нюансы проявляются при работе большого количества процессоров в масштабных ЦОД, где наблюдаются высокие темпы вычислений и используется огромное количество кремниевых компонентов. На ноутбуке такие ошибки практически незаметны. В некоторых случаях сбои могут возникнуть лишь спустя месяцы после установки процессора в систему. Небольшие изменения в свойствах транзисторов со временем приводят к их деградации. В одном из примеров речь идёт об увеличении электрического сопротивления: изначально транзистор функционировал корректно и проходил стандартные тесты на короткое замыкание, но со временем его сопротивление выросло, вызвав сбой.

Предложенная Intel технология основана на уже известных методах выявления скрытых ошибок — так называемых тестах Eigen. Эти тесты предполагают, что чип многократно решает сложные математические задачи в течение определённого времени, и скрытые ошибки постепенно проявляются. Задачи включают операции с матрицами различных размеров, заполненных случайными данными. Тестов Eigen очень много, и прохождение всех заняло бы слишком много времени, поэтому производители чипов используют выборочный подход, формируя управляемые наборы — это экономит время, но не всегда эффективно в выявлении ошибок.

Инженеры Intel внедрили технологию обучения с подкреплением, которая помогла создать более эффективные тесты для процессоров Xeon, выполняющих умножение матриц с помощью инструкций fused multiply-add (FMA). Выполнение таких инструкций задействует физически значительную площадь чипа, делая его более уязвимым к скрытым дефектам: больше кремния — больше потенциальных проблем. Дефекты в этих областях могут генерировать электромагнитные поля, влияющие на другие части системы. Для экономии энергии режим FMA отключается, когда не используется, и при тестировании многократно включается и выключается, что повышает шансы выявления скрытых дефектов, которые не проявляются в стандартных тестах.

На каждом этапе программа обучения с подкреплением выбирает для потенциально дефектного чипа различные тесты. Каждая обнаруженная ошибка воспринимается системой ИИ как «награда», и со временем алгоритм обучается выбирать такие тесты, при которых вероятность выявления ошибок максимальна. Примерно после 500 циклов тестирования алгоритм определил, какой набор тестов Eigen наиболее эффективен для быстрой идентификации ошибок при выполнении инструкций FMA.

На практике эта технология оказалась в пять раз эффективнее случайного подбора тестов Eigen. Поскольку сами тесты доступны с открытым исходным кодом, другие исследователи также могут использовать обучение с подкреплением для создания собственных наборов тестов. Учёные Intel уже пошли дальше: они планируют использовать полученные данные для ускоренного выявления первопричин скрытых ошибок. Их цель — понять, существуют ли предвестники, которые могут заблаговременно предупредить о возможных сбоях, и можно ли изменить конструкцию или производственный процесс чипов, чтобы управлять этими рисками.

3DNews

VPS/VDS серверы. 30 локаций на выбор

Серверы VPS/VDS с большим диском

Хорошие условия для реселлеров

Надежные VPS и выделенные серверы в Нидерландах

Storage VPS, High CPU VPS

Профессиональная техническая поддержка

Домены, SSL сертификаты, VPN

Бесплатный конструктор сайтов и Landing Page

Хостинг с DDoS защитой от 2.5$ + Бесплатный SSL и Домен

SSD VPS в Нидерландах под различные задачи от 2.6$

Спринтхост — хостинг от 99 ₽ в месяц

Бесподобная поддержка, тестовый период 30 дней и домены от 149 ₽

Промокод на 30% кешбэк — CITFORUM

Новости мира IT:

Архив новостей

IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Информация для рекламодателей PR-акции, размещение рекламы — adv@citforum.ru,
тел. +7 495 7861149
Пресс-релизы — pr@citforum.ru
Обратная связь
Информация для авторов
Rambler's Top100 TopList This Web server launched on February 24, 1997
Copyright © 1997-2000 CIT, © 2001-2019 CIT Forum
Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...