О пользе автоматической фильтрации одинаковых сообщений

С самого начала в нашем анализаторе PVS-Studio отсеивались дубликаты сообщений. Например, если диагностическое сообщение выдается на код в .h-файле, который включается в несколько .cpp-файлов, то у нас оно будет выдано только один раз. Ряд других анализаторов этого не делают и при проверке .cpp-файлов каждый раз выводят предупреждения на одни и те же стоки в .h-файлах. В результате получается, что наш анализатор выдает меньшее количество сообщений по сравнению с ними. Но у нас все никак не было повода оценить, насколько это полезно. Теперь такой повод появился, результаты впечатляют.

Для того чтобы было лучше понятно о чем речь, сначала приведу пример кода. Пусть в файле Foo.h объявлен класс Foo:

class Foo {
  int iChilds[2];
  ...
  bool hasChilds() const { return(iChilds > 0 || iChilds > 0); }
  ...
}

Есть два файла Usage.cpp и Play.cpp, в которых содержится строка:

#include "Foo.h"

При проверке этих файлов будет сгенерировано сообщение: "V501. There are identical sub-expressions to the left and to the right of the 'foo' operator". Сообщение будет сгенерировано два раза (так как проверялось две единицы компиляции), но выдано оно будет только один раз, так как повторный вывод будет автоматически отфильтрован.

Если бы фильтрации не было, мы бы увидели 2 сообщения V501. Одно для файла Usage.cpp, а второе для Play.cpp.

Недавно мы проверяли исходный код Mozilla Firefox. Код Firefox, хотя и собирается с помощью Visual C++, все же не содержит .sln-файлов, и компилируется через makefile. В такой makefile и был встроен вызов консольной версии PVS-Studio для каждого файла (как это описано в документации). Сообщения все подряд в таком режиме записываются в один большой "сырой" файл отчета, который потом можно открыть с помощью PVS-Studio из Visual Studio. Затем уже этот "сырой" отчет можно сохранить как .plog (xml-отчет PVS-Studio). В момент преобразования автоматически фильтруются автоматические сообщения.

Так вот в "сыром" отчете было около 2 000 000 сообщений (с многочисленными повторами). В преобразованном отчете осталось только 80 000 сообщений, то есть в 25 раз меньше. Это число и позволяет оценить количество дубликатов сообщений, которые фильтруются автоматически.

Этот пример еще и подтверждает, что статический анализатор – это сложная и комплексная система, и не достаточно просто выдать сообщения об ошибках в stdout.