Этот материал был впервые опубликован 6 августа 2020 года и обновлен 24 октября 2023 года.
Компания Microsoft 19 октября представила обновление программы Excel, которое должно окончательно решить проблему, известную как минимум с 2004 года: превращение названий некоторых генов в даты в ходе их принудительного форматирования. Аналогичную конвертацию могут проходить не только гены, но и некоторые цифробуквенные коды.
Наименования генов обычно состоят из нескольких букв (чаще всего это аббревиатура, указывающая на тип мутации или назначение гена) и тоже могут дополняться цифрами. Некоторые из ранее существовавших имен были схожи с названиями месяцев года, из-за чего Excel, которым до сих пор пользуются многие ученые по всему миру, интерпретировал их как даты. Например, при записи в ячейку Excel названия гена MARCH1 программа автоматически преобразовывала его в «1 марта».
Хотя в Excel при заполнении таблицы можно вручную отключить автоматическое форматирование, это не решало проблему: когда файл открывал другой человек, у которого функция по умолчанию была включена, данные все равно преобразовывались.
Проблема носила массовый характер. В 2016 году было проведено исследование, авторы которого изучили 3597 научных работ, опубликованных в рецензируемых научных журналах, и примерно в каждой пятой нашли ошибки, вызванные автоматическим форматированием данных в Excel.
Не имея возможности повлиять на Microsoft, Комитет по номенклатуре генов в 2020 году рекомендовал просто сменить названия у нескольких десятков человеческих генов. В общей сложности комитет выпустил рекомендации по переименованию 27 генов. Так, например, MARCH1 стал MARCHF1, а SEPT1 — SEPTIN1.
Теперь же компания-производитель табличного редактора постаралась окончательно решить проблему форматирования, предоставив пользователю возможность отключать разные типы преобразования. Так, в меню «Файл > Настройки > Данные > Автоматическое преобразование данных» появилось несколько «галочек», которые позволяют не только отключать преобразование текста вроде MARCH1 в дату, но и отключать «научную» запись числа, из-за которой цифробуквенные коды вроде 2310009E13 могли пониматьcя как цифры (2.31×10¹³). В Microsoft отмечают, что предложенное решение сработает, только если в документе нет макросов.
Excel изначально не предназначен для анализа научной информации, но ученые продолжают пользоваться программой из-за ее широкого распространения и легкости использования. И иногда это приводит и к другим скандальным ошибкам.
Так, в 2020 году из-за использования Excel Служба общественного здравоохранения Великобритании потеряла результаты около 16 тысяч тестов на ковид. Работники службы вручную собирали в Excel результаты тестирования, присылаемые им из лабораторий в простом текстовом формате csv, и незаметно для себя достигли миллионного лимита на число строк в таблице. В результате «лишние» результаты тестов были потеряны.