Неоднократно нам задавали вопрос, как сильно пересекаются диагностики нашего анализатора PVS-Studio и анализатора Cppcheck. Я решил написать маленькую статью на эту тему, чтобы быстро отвечать на этот вопрос. Если совсем коротко - то пересекаются слабо. Только 6% от общего количества ошибок находятся обоими анализаторами. В статье будет рассказано как было получено это число.
В начале я хотел нарисовать диаграмму Венна, в виде красивых кружочков. Но оказывается, это целая задача. Excel рисуют кружочки без учёта их площади. А программы, которые рисуют правильные пропорциональные диаграммы - платные. Так что я ограничился квадратиками, для которых мне понадобилась только калькулятор для расчётов, ручка с бумагой и редактор Paint.
Рисунок 1. Наглядное отображение количества найденных ошибок с помощью анализатора PVS-Studio и Cppcheck.
Площадь квадратов пропорциональна количеству найденных ошибок. Серый прямоугольник отображает количество ошибок, которые находят одновременно оба анализатора.
Итого:
Данные были получены следующим образом. В марте 2014 года мы провели большое сравнение анализаторов кода: PVS-Studio, Cppcheck, Visual Studio:
Результаты были подвергнуты жесткой критики некоторыми нашими читателями. Но мы уверены, что большинство критики связано с тем, что люди прочитали краткие выводы, но не ознакомились внимательно со статьей, описывающей сам процесс сравнения.
Так как анализатор PVS-Studio показал себя намного лучше, чем Cppcheck, некоторые читатели решили, что мы смошенничали. На самом деле, никакого обмана нет. Анализатор PVS-Studio действительно более мощный, чем Cppcheck. Не понятно, что в этом неожиданного и подозрительного. Коммерческие инструменты, как правило, лучше бесплатных аналогов. Высокое качество сравнения анализаторов, подтвердил и сам автор Cppcheck. Как ни будь мы опубликуем статью, где приведём его письмо о сравнении анализаторов, а также ответим на ряд вопросов, которые задавали читатели после публикации статьи о сравнении.
Вернемся к пересечению по диагностикам. Как видно, пересечение достаточно слабое, но это не удивительно. Во-первых, никто не стремится скопировать все диагностики из другого анализатора. Пересечение происходит по тем ошибкам, паттерны которых очевидны и часто встречаются. Таким образом, к идее поиска таких ошибок авторы приходят независимо.
Во-вторых, эра статических анализаторов только начинается. Есть невероятный объем паттернов ошибок, которые они могут диагностировать. Поэтому столь мало пересечений. Один анализатор налегает на ошибки одного типа, другой на другие. Понятно, что со временем пересечение будет постепенно нарастать. Но паттернов так много, что этот процесс будет медленный. В добавок, с появлением С++11 и С++14, только увеличивается поле для деятельности.