Так ли хорошо 100% покрытие кода статическим анализом?

29 Авг 2012

Автор: Дмитрий Новиков

Многим кажется, что чем больше выдаст статический анализатор сообщений об ошибках - тем лучше. Это истина, если все сообщения, что называется, попадут в "десятку". Но это невозможно. Одни и те же предупреждения разные программисты в зависимости от типа проекта, могут оценивать как полезные, так и как ложные. Есть и ещё один важный и интересный аспект. Может оказаться, что грань между ложным срабатыванием и настоящей ошибкой очень тонка. Рассмотрим одну из таких ситуаций.

Нами было получено несколько однотипных замечаний от пользователей о ложных срабатываниях анализатора. При изучении присланных примеров кода, встал вопрос о необходимости и целесообразности анализа 100% кода. Ранее такой вопрос никогда не поднимался, так как была уверенность, что чем больше кода проверено, тем лучше.

Было принято решение пересмотреть эту позицию и изменить поведение статического анализатора кода. Рассмотрим один из примеров присланного нам кода:

long adjustment = 0;
long total_weighting = 0;
... //здесь переменная 'total_weighting' не модифицируется
if( total_weighting > 0 )
{
  adjustment /= total_weighting;
}

Возникает неоднозначность. Переменная 'total_weighting' ВСЕГДА равна 0. И нигде не изменяется. Если проверять строчку "adjustment /= total_weighting;", то мы должны выдать сообщение об ошибке "V609 Divide by zero. Denominator 'total_weighting' == 0".

Однако очевидно, что при нулевом значении переменной 'total_weighting' этот код не будет выполнен никогда. Деления на ноль произойти не может.

Получается, что мы не можем проверять весь код. Поскольку таких случаев оказалось достаточно много, было принято решение не анализировать участки кода, которые никогда не получают управления.

Чтобы это реализовать, был использован следующий механизм. Анализатор вычисляет и собирает выражения, значения которых известны без выполнения программы, например:

int a = 1;
int b = a + 1;

Здесь мы можем быть уверены, что 'b' примет значение равное '2'.

Если в условных операторах существуют логические выражения, гарантировано принимающие значение 'true' или 'false', то принимается соответствующее решение анализировать ветки кода или нет:

если значение всегда истинно, то будет проанализирована только 'then' ветка.
если значение всегда ложно, то анализируется только 'else' ветка.

Однако в случае невозможности вычислить значение логического выражения в условном операторе будут проанализированы как 'then', так и 'else' ветки.

Что бы лучше понять, что происходит, рассмотрим возможное продолжение кода из предыдущего примера:

int a = 1;
int b = a + 1;
if (b != 2)
{
  int *p = 0; *p = 1;
}
else
{
  ...
}

Выражение 'b != 2' будет всегда ложно, значит выполнится только 'else' ветка. Соответственно, предупреждение о разыменовании нулевого указателя выдано не будет. Ведь ошибки при выполнении не возникнет.

В случае неизвестных начальных условий изменится и поведение анализатора кода. Например, здесь мы уже будем предупреждать об ошибке:


int b = rand() % 10;
if (b != 2)
{
  int *p = 0; *p = 1; //Error!
}
else
{
  ...
}

За кадром остался вопрос, зачем вообще нужны ветки кода, которые не выполняются. Возможно это ошибки? Нет, такой код получается при использовании множества различных приёмов. Вот некоторые из них:

Выполнение различных участков кода в зависимости от версии. Пример: if (Version == VERSION_1) ... else if (Version == VERSION_2) ...". Это аналогично использованию конструкций препроцессора #if-#endif, но позволяет быть уверенным, что все ветки кода успешно могут быть компилированы.
Комментирование участков кода. Можно быть уверенным, что хотя код не выполняется, он компилируется.
Участки кода, используемые при отладке. Во время отладки можно войти внутрь такого кода и сделать что-то полезное. Например, получить доступ к каким-то значениям.
Различные действия в зависимости от размеров типов. Пример: if (sizeof(void *) > sizeof(int)).
Программирование с использованием макросов.
Другие приемы.

Теперь становится ясно, что больше совсем не значит лучше. И анализ 100% кода не может являться показателем качества оценки кода. Избавившись от анализа невыполняемых фрагментов кода, мы получаем меньшее количество сообщений об ошибках, но качество анализа при этом повышается. Важное сообщение об ошибке не затеряется среди ложных сообщений. И при этом число опасных ошибок остается тем же.