Почему A + B != A

Разрабатывая анализатор Viva64, предназначенный для поиска 64-битных ошибок, я иногда сталкиваюсь с интересными моментами поведения кода. Хочу показать один пример, который с практической точки зрения не очень интересен, но может быть полезен для понимания более сложных случаев.

char *A = "123456789";
unsigned B = 1;
char *X = A + B; // X: "23456789"
char *Y = A - (-B); // Y: <Bad Ptr>

Если мы скомпилируем 32-битный вариант кода, то выражения "A + B" и "A - (-B)" будут эквивалентны. В 32-битном коде указатели X и Y будут указывать на второй элемент массива A. Для лучшего понимания процесс вычисления "A - (-B)" показан на рисунке 1.

Рисунок 1 - Выражение "A - (-B)" в 32-битной программе

А вот в при компиляции 64-битного кода выражения "A + B" и "A - (-B)" будут обозначать совершенно разное. Подвыражение "-B" будет иметь беззнаковый тип и равняться 0xFFFFFFFFu. И именно это значение 0xFFFFFFFFu будет вычтено из указателя (смотри также рисунок 2).

Рисунок 2 - Выражение "A - (-B)" в 64-битной программе

Приведенная ошибка приводит к доступу за границы массива на 64-битной системе. Проявление подобных ошибок можно ожидать при работе с отрицательными индексами, когда для их хранения используются 32-битные беззнаковые переменные. Пример:

unsigned Index = -1;
Array[Index] = Z;

Как и в предыдущем случае, выражение "Array[Index] = Z;" работоспособно в 32-битной программе и приводит к ошибке в 64-битной.

Вывод:

Следует избегать использования беззнаковых типов данных для хранения отрицательных значений. Если переменные, используемые для доступа к элементам массива, могут принимать отрицательные значения, используйте только знаковые типы данных, например "int". Еще лучше использовать такие типы как size_t и ptrdfiff_t.

Почему A + B != A - (-B)