Психологические основы интеллекта
Начнём с азов. А как мы, собственно, понимаем, что мы что-то вдруг понимаем или делаем вид, когда что-либо поняли? Различные объяснения и интерпретации в сфере разработки искусственного интеллекта возникают не на пустом месте. В этой главе мы поймём, что интерпретируемость и объяснимость являются принципиально разными требованиями к системам машинного обучения. Чтобы доказать это, мы выполнили обзор научных публикаций по экспериментальной психологии, относящейся к интерпретации (особенно числовых стимулов) и пониманию. Оказывается, интерпретация относится к способности контекстуализировать выходные данные модели таким образом, чтобы связать их с разработанным функциональным назначением системы, а также целями, ценностями и предпочтениями конечных пользователей. В отличие от этого, объяснение относится к способности точно описать механизм или реализацию, которая привела к данным на выходе алгоритма, часто для того, чтобы алгоритм мог быть улучшен каким-либо образом. Помимо этих определений, наш опыт показывает, что люди отличаются друг от друга систематическими способами, которые влияют на степень, в которой они предпочитают принимать решения, основанные на подробных объяснениях, а не на менее точных интерпретациях. Эти индивидуальные различия, такие как личностные черты и навыки, связаны с их способностью извлекать значимые интерпретации из точных объяснений выходных данных модели. Последнее означает, что вывод системы должен быть адаптирован к различным типам пользователей. Эта глава опирается на научную литературу по информатике, системной инженерии и экспериментальной психологии, чтобы лучше определить концепции интерпретируемости и объяснимости для сложных инженерных систем. Мы уделяем особое внимание системам на основе искусственного интеллекта и машинного обучения (AI/ML).
Зачем же определять интерпретируемость и объяснимость? Мы сосредоточились на этих терминах из-за их актуального значения для внедрения алгоритмов машинного обучения, на что указывает несколько прагматических моментов, требующих алгоритмического вывода для предоставления объяснений или интерпретаций пользователям, которые могут значительно отличаться друг от друга с точки зрения их целей, образования или личностных качеств. Например, в современных экономических реалиях физические и юридические лица, подающие заявки на получение кредита, должны получать уведомления о причинах, по которым кредитор принял неблагоприятные решения по заявке или по существующему кредиту. Активно внедряются системы помощи потребителям и предприятиям путем обеспечения прозрачности процесса вычисления кредитного рейтинга и защиты от потенциальной кредитной дискриминации. Как следствие, возникают требования к кредиторам объяснить причины принятия неблагоприятных мер. Поэтому кредитор должен раскрыть основные причины отклонения заявки или принятия других неблагоприятных мер и точно описывать факторы, которые фактически учитываются или оцениваются кредитором.
Кроме того, желательно, чтобы системы искусственного интеллекта предоставляли людям, о которых собираются данные, право получить разъяснения по поводу решения, принятого после такой оценки, и оспорить это решение.
Параллельно с попытками решить социальные проблемы, крупные международные инвестиционные кампании попытались определить требования к проектированию, которые инженеры и специалисты по информатике могли бы принять, чтобы определить, являются ли их системы интерпретируемыми или объяснимыми. Например, Доши-Велес и Ким определяют интерпретируемость модели как систему машинного обучения, обладающую «способностью объяснять или представлять результат в понятных для человека терминах». Аналогичным образом, Сингх определяет объяснение с помощью ML-модели как «набор визуальных и/или интерактивных артефактов, которые предоставляют пользователю достаточное описание поведения модели для точного выполнения таких задач, как оценка, доверие, прогнозирование или улучшение модели». Гилпин с соавторами утверждают, что хорошее объяснение возникает, когда разработчики моделей или потребители «больше не могут спрашивать почему» в отношении некоторого поведения модели машинного обучения. Наконец, Рудин определяет интерпретируемую модель машинного обучения как модель, которая «ограничена в своей форме таким образом, что она либо полезна для кого-то, либо подчиняется структурным знаниям предметной области, таким как монотонность, причинность, структурные (генеративные) ограничения, аддитивность или физические ограничения, которые проистекают из знаний предметной области». В отличие от этого, она определяет объяснимую модель машинного обучения как «вторую (постфактумную) модель, которая создается для объяснения первой модели черного ящика».
Хотя эти определения определяют интерпретируемость и объяснимость как характеристики моделей машинного обучения, они указывают на важные факторы, которые выходят за рамки традиционного дизайна интеллектуального продукта: понятия простоты, полезности для потребителя, человеческого понимания, причинно-следственного вывода, взаимодействия со знаниями предметной области, контентом и контекстом, а также социальной оценки (например, надежности).
Эти определения, хотя и локализованы для моделей машинного обучения, могут быть продуктивно основаны на десятилетиях исследований по экспериментальной психологии, которая рассматривает интерпретируемость и объяснимость как психологические конструкты. Ключевой вывод заключается в том, что интерпретация и объяснение являются различными психологическими процессами, характеризующимися различными ментальными представлениями. Вопрос о том, можно ли интерпретировать или объяснить результат, зависит от пользователя. Разработчик ИИ в любом случае должен спросить себя: «Объяснимо или интерпретируемо для кого?». Несмотря на то, что термины «интерпретируемость» и «объяснимость» часто используются как взаимозаменяемые, особенно в литературе по информатике, основной тезис заключается в том, что интерпретируемость и объяснимость являются разными понятиями.