Строки и строковые функции

Данные Разработка Безопасность Инфраструктура Курсы и книги

10.13. Строки и строковые функции

Строка констант - это последовательность символов, заключенная в двойные кавычки, как например, "abc", "hello, everyone".Строкаконстант может содержать последовательности escape языка программирования Си для специальных символов.

Строковые выражения создаются путем слияния констант, переменных, имен полей, элементов массива, функций и других выражений.

Программа:

	{ print NR ":" $0 }

печатает перед каждой записью ее номер и двоеточие без пробела. Три строки: номер записи, двоеточие и запись сливаются и результирующая строка печатается.

В табл. 25 приведены встроенные строковые функции, поддерживаемые awk. В этой таблице r представляет собой регулярное выражение (либо как строка, либо как /r/), s и t - строковые выражения, n и p - целые числа.

Таблица 25
Встроенные строковые функции awk

Функция Описание
gsub(r, s) Глобальная замена s на r в текущей записи; возвращает количество земененых символов
gsub(r,s, t) Глобальная замена s на r в строке t, возвращает количество замененных символов
index(s,t) Возвращает позицию t в s: 0 - если t нет в s
length(s) Возвращает длину s
matgch(s,r) Возвращает позицию s, в которой встречается r; 0 - если r не встретилось
split(s,a) Разделяет s на массив a по FS; возвращает число полей
split(s,a,r) Разделяет s на массив a по r; возвращает число полей
sprintf(fmt,expr-list) Возвращает expr-list, отформатированный в соответствии с форматом строки fmt
sub(r,s) Замещает s на первое r в текущей записи, возвращает количество замен
sub(r,s,t) Заменяет s на первое r в строке t, возвращает количество замен
substr(s,p) Возвращает индекс s, начиная с позиции p
substr(s,p,n) Возвращает подсказку s длиной n, начиная с позиции p

Функция	Описание
gsub(r, s)	Глобальная замена s на r в текущей записи; возвращает количество земененых символов
gsub(r,s, t)	Глобальная замена s на r в строке t, возвращает количество замененных символов
index(s,t)	Возвращает позицию t в s: 0 - если t нет в s
length(s)	Возвращает длину s
matgch(s,r)	Возвращает позицию s, в которой встречается r; 0 - если r не встретилось
split(s,a)	Разделяет s на массив a по FS; возвращает число полей
split(s,a,r)	Разделяет s на массив a по r; возвращает число полей
sprintf(fmt,expr-list)	Возвращает expr-list, отформатированный в соответствии с форматом строки fmt
sub(r,s)	Замещает s на первое r в текущей записи, возвращает количество замен
sub(r,s,t)	Заменяет s на первое r в строке t, возвращает количество замен
substr(s,p)	Возвращает индекс s, начиная с позиции p
substr(s,p,n)	Возвращает подсказку s длиной n, начиная с позиции p

Функции sub и gsub сформированы после команды замены в текстовом радакторе ed. Функция gsub(r,s,t) заменяет успешное появление подстрок, найденных при помощи регулярного выражения r с заменой строки s в целевой строке t. Функция gsub(r,s) является синонимом gsub(r,s,$0). Например, программа:

	{ gsub(/USA/, "United States"); print }

преобразует ввод, меняя появление "USA" на "Unites States". Функция sub подобна ей, за исключением того, что она заменяет первую найденную подстроку в целевой строке.

Функция index(s,t) возвращает левую крайнюю позицию, с которой строка t начинается в s. Первый символ в строке начинается с позиции 1. Например,

	index("banana", "an")

возвращает 2.

Функция length возвращает число символов в строке; так:

	{ print length($0), $0 }

печатает каждую запись, а перед ней ее длину. ($0 не включает в вводную запись разделитель). Программа:

        length($1) > max { max = length($1); name = $1 }
        END              { print name }

применительно к файлу countries распечатывает наибольшее имя страны:

	Australia

Функция match(s,r) возвращает позицию в строке s, в которой появилось регулярное выражение r, либо 0, если оно не найдено. Эта функция также устанавливает две встроенные переменные RSTART и RLENGTH. RSTART принимает значение начальной позиции, найденной в строке, это значение равно возвращаемому значению. RLENGTH принимает значение длины найденной строки. (Если строка не найдена, то RSTART равно 0, а RLENGTH равно -1). Например, следующая программа ищет появление буквы i и за ней сразу или через один символ следует буква a:

           { if (match($0, /i.?a/))
                { print RSTART, RLENGTH, $0 }

Относительно файла countries получим следующий вывод:

        17 2 USSR 8650     262     Asia
        26 3 Canada         3852     24      North America
        3 3 China 3692     866     Asia
        24 3 USA  3615     219     North America
        27 3 Brazil         3286     116     South America
        8 2 Australia       2968     14      Australia
        4 2 India 1269     637     Asia
        7 3 Argentina       1072     26      South America
        17 3 Sudan          968      19      Africa
        6 2 Algeria         920      18      Africa

Функция sprintf(format, expr1, expr2, ..., exprn) возвращает (без печати) строку, содержащую expr1, expr2, ..., exprn, отформатированную в соответствии со спецификацией printf в строке format. Выражение:

	x = sprintf("%10s %6d", $1, $2)

присваивает x строку, полученную при форматировании $1 и $2 как 10-символьных строк и десятичное число в поле шириной как минимум 6 знаков.

Функция substr(s,p,n) возвращает подстроку s, которая начинается с позиции p и имеет длину не менее n символов. Если используется функция substr(s,p), то подстрока направляется в конец s, так что она состоит из индекса s, начинающегося с позиции p. Например, мы можем сократить имена стран в файле countries до трех символов, вызвав программу:

	{ $1 = substr($1, 1, 3); print }

В итоге получим:

        USS 8650 262 Asia
        Can 3852 24 North America
        Chi 3692 866 Asia
        USA 3615 219 North America
        Bra 3286 116 South America
        Aus 2968 14 Australia
        Ind 1269 637 Asia
        Arg 1072 26 South America
        Sud 968 19 Africa
        Alg 920 18 Africa

Обратите внимание, что установка $1 в программе приводит к тому, что awk заново вычисляет $0 и, кроме того, поля разделяются пробелами (значение по умолчанию для OFS), но не табуляцией.

Чтобы слить строки, надо просто записать их одна за другой. Например, для файла countries:

        { s = s substr($1, 1, 3) " " }
        END { print s }

печатает:

        USS Can Chi USA Bra Aus Ind Arg Sud Alg

Назад | Содержание | Вперед

Новости IT

24 июля 2026

AlphaFold 3 помог повысить точность базовых редакторов генома

24 июля 2026

Выручка Intel выросла на 25% — максимальными темпами более чем за 15 лет

24 июля 2026

Meta, Microsoft и Nvidia выступили против широких ограничений на модели с открытыми весами

24 июля 2026

NVIDIA ускорила развёртывание LLM с помощью передачи весов между GPU

24 июля 2026

Sakana AI обновила оркестратор моделей Fugu Ultra и добавила интерфейс для Claude Code

24 июля 2026

Разработчики Soofi S признали попадание тестов GPQA в обучающие данные

24 июля 2026

Google подписала кодекс ЕС о маркировке контента, созданного ИИ

24 июля 2026

Anthropic выпустила Claude Opus 5 с ценой вдвое ниже Fable 5

24 июля 2026

AMD запустила ИИ-систему Helios с 72 ускорителями Instinct MI455X

24 июля 2026

Kimi K3 уступила ведущим американским ИИ-моделям в разработке эксплойтов

24 июля 2026

Модели Huawei и RedNote набрали 42 из 42 баллов при проверке решений IMO

23 июля 2026

«Яндекс» тестирует голосовую ИИ-хостес для приёма звонков и бронирований

23 июля 2026

Капзатраты Alphabet на ИИ впервые увели квартальный свободный денежный поток в минус

23 июля 2026

Intel и AMD договариваются с клиентами из КНР о долгосрочных закупках серверных CPU

23 июля 2026

Runway запустила маршрутизатор моделей для генерации изображений, видео и аудио

23 июля 2026

Лунные роверы Lunar Outpost получат вычислительные модули Nvidia Jetson

23 июля 2026

Google начала обучение Gemini 4 и делает ставку на более крупную базовую модель

23 июля 2026

«Росэл» оценил парк промышленных роботов в России в 32–34 тысячи единиц

23 июля 2026

NVIDIA DGX GB300 запустили в Военно-морской школе последипломного образования США

23 июля 2026

Квартальная выручка IBM Z упала на 42% из-за переноса закупок мейнфреймов

Все новости →

Связь с редакцией