«Злачные области науки»: Михаил Гельфанд о плагиате, лишении степени и неэффективных чиновниках
В каких научных дисциплинах больше всего фальсификаций? Сколько депутатов лишились научных степеней из-за некорректных заимствований? Как работают фабрики по производству диссертаций? «Системный Блокъ» спросил Михаила Гельфанда, одного из основателей «Диссернета», как сегодня обстоят дела с плагиатом в российских научных работах.
Михаил Сергеевич Гельфанд (род. 25 октября 1963 г.) — доктор биологических наук, профессор, член Academia Europaea, fellow of the International Society of Computational Biology. Один из основателей «Диссернета» — сообщества учёных, юристов и журналистов, которые ищут фальсификации в опубликованных диссертациях и научных статьях. Автор идеи «Корчевателя», перевода квазинаучной статьи, принятой к публикации в российском научном журнале.
Сообщество антиплагиаторов
«Диссернет» появился в 2013 году, потому что в тот момент сошлись все звёзды. Российский физик, профессор Андрей Африканович Ростовцев заинтересовался германским проектом VroniPlag, где люди искали плагиат в диссертациях разных германских политиков. Самая известная история, связанная с этим проектом, — это обвинение в плагиате при написании кандидатской диссертации («доктор юриспруденции» в германской терминологии) министра обороны Германии цу Гуттенберга в 2011 году. Андрею Африкановичу было интересно, как устроен сайт VroniPlag. Оказалось, что там рассматривается довольно тонкая «нарезка»: например, диссертацию цу Гуттенберга анализировали по предложениям. Кстати, «Диссернет» устроен по-другому — если в документе сплагиачено меньше пяти страниц подряд, то это даже не считается.
Ещё один из основателей «Диссернета», физик Андрей Викторович Заякин* занимался «пехтингом», то есть анализировал открытые базы данных и искал зарубежную собственность у депутатов Госдумы. А потом он нашёл для себя новый чудесный открытый ресурс — диссертационные работы.
Статьи из списка литературы в автореферате есть, а в природе — нет.
История началась с того, что ко мне как к заместителю главного редактора газеты «Троицкий вариант — Наука» обратились люди из Клуба выпускников СУНЦ МГУ, Школы им. А. Н. Колмогорова. Их заинтересовало, как директор СУНЦ Андриянов защитил кандидатскую по истории, будучи аспирантом химфака. Они захотели почитать его статьи и обнаружили, что в автореферате они есть, а в природе их нет.
Начался «розыск» этих статей, эту историю тогда широко освещали в Живом Журнале. Директор СУНЦ отреагировал на неё и совершил роковую ошибку. Он пригласил журналистов, предъявив им номера журналов со своими статьями. Один из журналистов, фотограф Игнат Соловей, сфотографировал не только развороты со статьями, а ещё и оглавление. И обнаружилось чудесное.
Типографское оформление этих номеров никак не соответствует журналам, к которым они якобы относились. Кроме того, у одного номера вообще нечётные страницы были на левой стороне разворота, а чётные — на правой (сравните с любой книгой). В целом статьи в этих номерах были двух сортов: либо целые главы из диссертаций людей, которые, скорее всего, про это ничего не знали, либо статьи людей, которые защищались в одном и том же диссертационном совете под руководством профессора Данилова в МПГУ на историческом факультете.
Случился неизбежный скандал, и министр образования и науки Дмитрий Ливанов учредил комиссию, которая должна была расследовать случаи плагиата. В неё входили разные исторические академики и университетские администраторы (среди которых, кстати, было несколько приличных людей) и я, тогда ещё член Общественного совета при Минобрнауки. Появлялись всё новые списки жуликов, которых надо было проверить. Сам Андриянов был лишён степени и в 2013 году перестал быть директором СУНЦ. После проверки ещё некоторых людей лишили степеней, а сам совет разогнали.
В конечном счёте эти три потока событий и соображений слились. В какой-то день Ростовцев, Заякин* и я встретились в пивной «101» на метро «Университет» (её уже не существует) и решили, что надо делать вместе что-то сетевое. Ещё с нами был Сергей Пархоменко*, которому всё это было интересно как журналисту.
Общие принципы возникли тогда же: есть четыре отца-основателя, у каждого есть право вето. С остальными активными людьми мы можем советоваться. Собственно, это и есть все наши принципы.
«Диссернет» выстрелил
Для меня «Диссернет» — научный проект, борьба за научную этику. У нас была альтернатива: не трогать чиновников, а тихо и спокойно проверять преподавателей и профессоров, наращивая на этом мускул. Но тогда не было бы такого резонанса.
Первым большим проектом был сплошной анализ диссертаций депутатов Госдумы. Степени лишился в результате только один депутат, ныне покойный Абубакиров — видимо, просто по алфавиту. Началось противодействие, и был уволен заместитель министра Игорь Федюкин — у него всё было хорошо с диссертацией, но он курировал комиссию, которая расследовала деятельность Даниловского диссовета и начала готовить некоторые общие принципы.
Когда по телевизору сказали, что Гельфанд — мерзавец, моя тёща сильно занервничала.
Были и более громкие истории — например, с депутатом Игошиным, который защитил свою диссертацию в 2004 году. Текст её практически повторяет слово в слово другую диссертацию, за исключением нескольких слов: «шоколад» Игошин переименовал в «мясо», «кондитерский» заменил на «мясоперерабатывающий», «белый шоколад» стал «российской говядиной», «обычный, молочный шоколад» — «импортной говядиной», а «чёрный шоколад» — «говядиной на кости любого происхождения».
Нашли плагиат в диссертации и у депутата Владимира Бурматова. Жириновский очень гневался, потому что это коснулось и его сына Игоря Лебедева: в его докторской было найдено около 30% заимствований.
Одним словом, это всё было очень хорошо и весело. С другой стороны — политическое противодействие. Нам затруднили доступ в Ленинку. Мою диссертацию тоже не обошли вниманием. Какие-то энтузиасты проверили её на плагиат и обнаружили кучу совпадений, но — с более поздними текстами. Это были стандартные «заклинания» про новизну и прочее, но в любом случае они были из более поздних текстов, а я машину времени пока не изобретал. Это было даже смешно, но не всем. Моя тёща, человек другого поколения, услышав по телевизору, что Гельфанд — мерзавец, сильно занервничала, мне пришлось её успокаивать. А по телевизору так ничего и не опровергли.
Таким образом, в 2013 году «Диссернет» выстрелил очень громко. За 2013–2014 годы количество диссертаций, защищённых в РФ, упало вдвое.
Идея подарить человеку степень на день рождения перестала существовать.
И если сначала «Диссернет» просто освещал плагиаторов публично, то позже мы освоили механизм лишения степени строго по положению Высшей аттестационной комиссии (ВАК). Сейчас примерно три четверти заявлений о лишении учёной степени (ЗоЛУС) удовлетворяются. На сегодня около 1500 человек потеряли свои степени. Идея подарить человеку степень на день рождения просто перестала существовать.
Кстати, если вы лишились степени, вы не можете вернуть её, но можете написать другую диссертацию и защититься заново. Я знаю людей, которые так и поступали, но это единичные случаи.
Мы довольно долго не лезли в медицину, так как мне казалось, что там всё устроено как-то по-другому. Но когда знакомый доктор спросил меня, почему мы относимся к медикам, как к убогим, мы стали смотреть и медицинские диссертации. В таких случаях критерии у нас чуть более жёсткие, и если списан только обзор, мы такое обычно пропускаем. Тем не менее, среди медиков сейчас лишены степени чуть больше ста человек.
Если я попаду в больницу, выстроится очередь из медиков, которые захотят мне что-нибудь отрезать.
Были закрыты несколько очень дурных фабрик, где сплагиаченные диссертации штамповались десятками. Одной из таких был диссертационный совет в Институте сердечно-сосудистой хирургии имени Бакулева, где было произведено много подобного. После отмены нескольких степеней он закрылся; сейчас он работает, но уже в другом составе. Это не значит, что такие фабрики плагиата исчезают навсегда: никто не мешает тем же людям собраться заново и объявить себя новым диссертационным советом. Но жизнь им «Диссернет» существенно затрудняет.
Я понимаю, что болеть мне нельзя. Потому что если я попаду в больницу, то выстроится очередь из медиков со скальпелем, каждый из которых захочет мне по своей линии что-нибудь отрезать.
Михаил Гельфанд читает лекцию о плагиате в медицине, август 2023. Фото: Системный Блокъ
Как устроен поиск плагиата в «Диссернет»
В «Диссернет» работает автоматический поиск потенциальных источников путём множественных запросов к Яндексу. Исследуемый текст дробится на цепочки слов, и они отправляются в качестве запросов. Если есть много совпадений с одним и тем же источником, то он выкачивается, проверяется и раскрашивается по N-цепочкам. То, что вы видите на странице «Диссернета», — это результат автоматической раскраски распознанного текста, где подсвечиваются совпадающие куски. Там могут подсветиться и честные цитаты, но видно всё, и каждый может оценить это сам.
Дальше начинается процедура ОТК (люди моего поколения помнят «отделы технического контроля» на предприятиях). Этим занимаются добровольцы вручную. Они проверяют отсутствие кавычек и других способов выделения цитат; смотрят, чтобы дата источника был раньше, чем у исследуемой работы; чтобы не было «автоматрёшки», когда человек написал статью, у него списали из этой статьи, а он потом эту свою статью взял к себе в диссертацию, что было бы вполне нормально. Раскраску вручную добровольцы не правят — это очень тяжело, поэтому к ней не надо относиться как к истине в последней инстанции.
После этого пишется ЗоЛУС: ещё один человек сопоставляет и смотрит, какие страницы заимствованные, описывает эти заимствования.
Первые заявления были составлены в стиле «есть много заимствований, ищите сами». Диссертационный совет, естественно, не напрягался и ничего не находил. Сейчас ему не нужно искать самому — нужно лишь проверить, что мы выдаём: к заявлению прилагается приложение в несколько десятков страниц, где совпадающие куски раскрашены.
Составлять ЗоЛУС — это вроде хобби. Когда настроение плохое, я пишу заявление о лишении учёной степени. Не очень сложный ЗоЛУС занимает примерно часа два-три. Это не работа, а, скорее, вид прокрастинации.
На фото — еще один вид прокрастинации: Михаил Гельфанд дает интервью изданию «Системный Блокъ».
Злачные области науки
На сегодня научные дисциплины, где больше всего фальсификаций, — экономика, педагогика и право. Это три наши самые «злачные» области. Доля недобросовестных диссертаций в экономике самая большая. Чуть получше обстоят дела с историей, дальше идут технические науки и медицина. Существенно меньше плагиата в естественных науках.
При этом в медицине и особенно ветеринарии много не просто списывания, а фальсификаций, когда меняются выборки, диагнозы, лечение, а числовые данные остаются как были. Это вообще край непуганых идиотов: например, меняют гусят на телят, а биохимия крови остаётся как была: все несколько десятков показателей.
Если у чиновника списана диссертация, то это, во-первых, нечестный, а во-вторых, глупый и неэффективный чиновник.
Было исследование Анны Абалкиной на материале «Диссернета» в серьёзном экономическом журнале (речь идёт об этом исследовании — прим. ред.). Она арифметически показала простую вещь, которую мы объясняли годами: если у чиновника списанная диссертация, то это — плохой чиновник. Потому что это означает, что он, во-первых, нечестный, а во-вторых — глупый.
Он не в состоянии обеспечить хороший продукт: заказал кому-то диссертацию, а ему всучили липу. Не может выбрать правильных исполнителей, не в состоянии проконтролировать. В статье это показано арифметически: авторы сравнили показатели экономического развития в субъектах федерации, которыми руководят губернаторы, со списанными диссертациями, и такие, где списывания у губернатора не видно, по двум параметрам: капитальное строительство («старая» экономика) и проникновение интернета («новая» экономика). Оказалось, что в обоих случаях распределения сильно сдвинуты: у губернаторов-плагиаторов и в экономике регионов всё хуже.
Продажные статьи и хищные журналы
Занимались мы и поиском плагиата в научных статьях, многие из которых были в электронных журналах в открытом доступе. В целом мы обнаружили три вида неправильных статей:
- двойная публикация одной и той же статьи. По международным меркам нехорошо, а в России к этому относятся спокойно. Рекорд на моей памяти — статья, которая пять раз была опубликована в разных журналах;
- чистый плагиат, когда тексты одинаковые, а состав авторов статей совершенно различен;
- и моё любимое — статьи с идентичным текстом, состав авторов в которых пересекается частично: часть авторов общие, но другие есть только в одной из статей.
Последнее бывает в двух случаях. Первый — это «продажная» статья, когда люди продают авторство в своей статье. А второе, более частое, — когда люди публикуют одно и то же в вестниках разных университетов и в соавторы приглашают уважаемых людей из соответствующего университета — это легко увидеть по аффилиациям.
Позже мы научились ловить и переводной плагиат, причём переводной с русского на английский. В 2013–2014 году количество защищённых диссертации резко уменьшилось, а откровенного списывания стало совсем мало, зато количество публикаций в «хищных» журналах (журналах, претендующих на статус научных, но не практикующих нормального рецензирования и публикующих практически все приходящие статьи, взимая с авторов плату за публикацию, — прим. ред.) резко увеличилось. Стали расти публикации в изданиях, входящих в Scopus или Web of Science, но со статусом, далёким от научного.
Табличные кейсы «Диссернета»
Андрей Африканович Ростовцев придумал алгоритм, который ищет численные совпадения в диссертациях — не обязательно точные, а например, с изменением одной цифры. В терминологии «Диссернета» такие совпадения называются «табличными кейсами». Это когда тексты разные, текстуальных совпадений нет или почти нет, а вот в таблицах цифры совпадают. Такое труднее доказать на диссовете — фигурант может возразить: «Ну мало ли, приборы одинаковые, пациенты похожие, болезни, методика одни и те же — вот и совпали цифры». Я слышал такие доводы несколько раз. Но и эти случаи тоже ловятся.
Интересно, что фальсификация результатов по действующему положению не является основанием для лишения степени. Сейчас единственным основанием для лишения, согласно действующему положению, — это нарушение п. 14. Он гласит, что диссертация должна быть написана самостоятельно.
Поэтому в заявлении на лишение нельзя написать: «У него всё неправда», — это не довод. Пишем, что автор заимствовал результаты, но не просто, а поменял: телят — на гусят; пациентов, страдающих энурезом, — на студенток колледжей, желудочное кровотечение — на истечение лимфы после удаления молочной железы. Это всё реальные кейсы, а не выдумка. Скопировать данные, поменяв только регион или даты исследования, — вообще детский лепет.
Поменяй одну цифру — и вот новая таблица.
Есть и смешные «табличные кейсы». Например, на какой-то кафедре одну и ту же таблицу использовали в нескольких диссертациях: кто-то изучал козочек, кто-то — овечек, а кто-то — тёлочек. А таблица с данными по формуле крови у всех была одинаковая. Поменяй одну цифру — и вот новая таблица. У нас уже собраны такие кейсы, и мне интересно, как диссоветы будут их рассматривать.
Удивительный вопрос, ответ на который может быть только гипотетический: зачем копировать данные? почему не придумать из головы? Видимо, люди настолько неуверенно себя чувствуют, что, вставляя чужие таблицы, ничего в них не меняют, потому что боятся, что будет совсем ерунда. Ещё есть несколько кейсов, где в первых строчках таблицы человек что-то менял, а потом устал — надоело. Как доказывать такое — отдельный вопрос.
Мой любимый кейс связан с медицинской статистикой. Из-за него лишился степени целый доктор медицинских наук. В её работе были представлены девять таблиц с разными числами. А вот проценты в этих таблицах совпадали с аналогичными из докторской, защищённой в том же совете на полгода раньше, с точностью до пяти сотых процентного пункта, то есть до полпромилле.
Слайд из презентации Михаила Гельфанда с демонстрацией почти точного совпадения процентов
Там были рисунки с этими же данными, и вот рисунки совпадали точно. Стало понятно, направление заимствования: у донора числа в диаграммах и таблицах совпадали, как и должно быть, а у реципиента из-за копирования рисунков они оказались рассогласованы с таблицами.
Потратив на эту историю три дня зимних каникул, я сообразил обратную инженерию алгоритма. Он был такой: «реципиент» взял проценты «донора», умножил на размер своей выборки и получил какие-то числа. Естественно, они оказались дробными, он округлил их до ближайшего целого, а дальше опять взял проценты. Поскольку размер выборки — порядка тысячи, то в результате такой процедуры как раз и накопилась ошибка в долях промилле.
Доктора лишили степени не из-за этого алгоритма — в работе были и текстуальные заимствования. Если бы там был только это, то совершенно не представляю, как бы я объяснял медикам такую хитровыдуманную схему.
Фабрики диссертаций и сети оппонентов
Одна из интересных вещей, которую мы обнаружили, — сети оппонентов. Оказывается, в сплагиаченных диссертациях в оппонентах значатся одни и те же люди. Можно даже не искать текстовые заимствования: достаточно найти группу людей, которые регулярно оппонировали или сидели в советах, где многократно защищались краденые диссертации. Такие «фабрики степеней» иногда можно найти просто по графовым характеристикам, если построить сеть, кто у кого был оппонентом, руководителем и так далее.
Сеть фабрики диссертаций в МПГУ. Иллюстрация из статьи Kopotev M., Rostovtsev A., Sokolov M. Shifting the Norm: The Case of Academic Plagiarism Detection // The Palgrave Handbook of Digital Russia Studies / под ред. D. Gritsenko, M. Wijermars, M. Kopotev. Cham: Springer International Publishing, 2021. С. 483–500
Диссертации не двигают науку
Написанная диссертация — это не новое слово в науке. Потому что по российским правилам результаты диссертации должны быть уже опубликованы. Вы не строите диссертацию на чём-то новом, что до этого нигде больше не публиковалось. В этом смысле диссертация — это обобщение, обзор того, что уже сделано для науки; это квалификационный, а не научный этап.
Поэтому, кстати, в ВШЭ и Сколтехе (а с этой осени — и в ВАКовских диссоветах) можно защищаться по пачке статей. Но это должна быть качественная и толстая пачка. И диссертационный совет будет смотреть, хорошая это пачка или плохая.
Сейчас ощущение, что можно вообще всё, исчезло.
С одной стороны, в этом есть лазейка для бесконечного количества жуликов, потому что мы понимаем, откуда можно получить такие статьи. С другой стороны, разумным людям такой способ присвоения степени облегчает жизнь. К сожалению, мошенники реагируют быстрее, чем разумные люди, и очень быстро учатся обходить препятствия, которые возводит для них система. В нашем научном сообществе нет института репутации. Частично что-то поменялось с началом деятельности «Диссернета»: ощущение, что можно вообще всё, оно всё-таки исчезло. Теперь нужно хотя бы переписать чужую работу, а не бездумно скопировать.
А вот отлавливать купленные диссертации — те, которые не списаны, а сделаны на заказ другим человеком, — пока не получается. У нас был случай с докторской по педагогике, про которую мы знали, что она сделана на заказ. В ней примерно на сотой странице обнаружился абзац про коэффициент корреляции, совершенно не связанный с остальным текстом. И его формула сильно напоминала одно слово, которое ожидаешь увидеть на заборе, а не в докторской.
Формула-пасхалка из написанной за деньги диссертации. Рисунок Михаила Гельфанда, сделанный в процессе взятия интервью
Вот такое «клеймо Фаберже», пасхалка от изготовителя.
Запад против плагиата
На Западе есть подобные проекты, например, VroniPlag или Retraction Watch. Одна из западных проблем — китайские статьи. В Китае тоже работают фабрики, и статьи можно купить. Но бывали у них и скандалы на уровне публикаций в Science.
Развивается индустрия поиска краденых картинок; есть программы, которые их отлавливают. Иллюстрации нельзя просто так взять и подправить: существуют определённые правила, прописанные в журналах. Например, контраст в Photoshop прибавить можно, но при этом нужно обязательно подписать, что контраст изменён. А подрисовать лишнюю полосочку на картинке уже нельзя. Все подобные манипуляции можно отследить. Краденые иллюстрации ловятся в основном из-за совпадения фона. Фон состоит из пикселей со случайным шумом. Если в двух картинках совпадает шум, значит, кто-то что-то заимствовал и изменил.
Мы этим пока не занимаемся. Теоретически можно обучить нейросеть распознавать картинки, которые исходно были одинаковые, а потом два раза независимо отсканированы. Это хорошая задача на будущее.
Сопротивление системы
Если дело не касается каких-то серьёзных людей, то система довольно легко их отдаёт.
Действующего депутата не сдадут.
Но есть и такие дела, которые, как всем очевидно, непроходные. Например, действующих судей отдают очень неохотно. Действующего депутата тоже скорее всего не сдадут. Хотя несколько лет назад были систематические проверки среди депутатов. Ещё одна — среди ректоров госуниверситетов, когда обнаружились около 20% списанных диссертаций. Предположу, что это всё-таки ректоры из чиновников, которые после госслужбы таким образом приземлились на запасной аэродром. Сейчас мы не занимаемся систематической проверкой чиновников и политиков: они попадают в рассмотрение в общем порядке. Насколько я знаю, статистика того, кого на какой должности лишают степени, а кого — нет, у нас отсутствует.
В целом система от «Диссернета» не защищается. От «Диссернета» пытаются защищаться конкретные люди, которых лишают степени, — в том числе, и путём писания политических доносов. Кстати, напрасно. Если для системы человек важен, она его и так прикроет. Если этот человек системе безразличен, он свою степень, скорее всего, утратит.
Расшифровка интервью: Елизавета Коноплева, Ксения Жакова
* Андрей Заякин и Сергей Пархоменко признаны в Российской Федерации иностранными агентами.