Искусственный интеллект (ИИ) широко известен благодаря своей способности анализировать и синтезировать информацию из множества материалов, как литературных, так и визуальных. Хотя его творческий потенциал огромен, контент, созданный искусственным интеллектом, вызывает у людей разочарование, поскольку он часто содержит странности и неточности (которые в некоторых случаях напоминают комедию). Кто не смеялся над изображением со слишком большим количеством рук или лицом, которое отдаленно напоминает человеческое, но пугающе неправильное?
Теперь кажется, что предсказательные возможности ИИ растут и, возможно, превосходят человеческую интуицию, по крайней мере, в предсказании результатов нейробиологических исследований. К такому выводу пришли исследования, опубликованные на прошлой неделе в журнале Природа Человеческое поведение в котором Кен Луо, доктор философии, и его команда из Университетского колледжа Лондона (UCL) исследовали прогностические возможности больших языковых моделей (LLM). Их доклад озаглавлен: «Большие языковые модели превосходят экспертов-людей в прогнозировании результатов нейробиологии».
Команда UCL разработала инструмент под названием BrainBench для оценки способности студентов LLM предсказывать результаты нейробиологии. Авторы представили BrainBench парные рефераты по нейробиологии, в которых были указаны предпосылки, методы и результаты. В каждой паре одно из тезисов было реальным, а другое — правдоподобным.–но в конечном итоге ложь–результаты. BrainBench оценил 15 студентов-магистров и 171 нейробиолога, которым было поручено определить правильное резюме в каждой паре.
«С момента появления генеративного искусственного интеллекта, такого как ChatGPT, многие исследования были сосредоточены на возможностях LLM отвечать на вопросы, демонстрируя их замечательные навыки в обобщении знаний из обширных данных обучения. Однако вместо того, чтобы подчеркивать их ретроспективную способность извлекать прошлую информацию, мы изучали, могут ли LLM синтезировать знания для прогнозирования будущих результатов», — сказал Луо.
«Наша работа исследует, могут ли студенты LLM выявлять закономерности в обширных научных текстах и прогнозировать результаты экспериментов», — объяснил Луо. «Научный прогресс часто опирается на метод проб и ошибок, но каждый тщательный эксперимент требует времени и ресурсов. Даже самые опытные исследователи могут упустить из виду критические выводы из литературы».
В соревновании между ИИ и людьми ИИ был победитель. LLM имели в среднем 81% точности по сравнению с 63% для экспертов-людей. Когда группа людей была ограничена самой высокой степенью самооценки знаний в каждой области, точность увеличилась только до 66%. LLM сообщили о большей уверенности в своих решениях, которые с большей вероятностью были правильными, чем люди, участвовавшие в исследовании.
«Что примечательно, так это то, насколько хорошо студенты магистратуры могут прогнозировать литературу по нейробиологии. Этот успех предполагает, что значительная часть научных исследований не является по-настоящему новой, а соответствует существующим моделям результатов в литературе. Мы задаемся вопросом, являются ли ученые достаточно инновационными и исследовательскими», — прокомментировал старший автор исследования Брэдли Лав, доктор философии, профессор UCL.
Исследователи адаптировали и обучили версию LLM с открытым исходным кодом Mistral на основе литературы по нейробиологии под названием BrainGPT. При проведении того же тестирования, что и BrainBench, BrainGPT предсказал правильные абстрактные результаты с точностью 86% по сравнению с точностью 83% в необученной версии Mistral.
Будущее исследований и, по сути, повседневной жизни человечества, похоже, предполагает интеграцию ИИ. Это исследование показывает полезность ИИ для прогнозирования результатов исследований, но он не является непогрешимым и должен использоваться в качестве инструмента помощи исследователям, а не замены исследователей-людей.
«Мы представляем себе будущее, в котором исследователи смогут вводить предлагаемые планы экспериментов и ожидаемые результаты, а ИИ будет предлагать прогнозы о вероятности различных результатов», — сказал Луо. «Это позволит ускорить итерацию и более обоснованно принимать решения при планировании эксперимента».