Ведущие большие языковые модели лучше справляются с медицинскими тестами, чем специализированные небольшие модели. Вот что показывает исследование.