В области искусственного интеллекта произошел значительный прорыв благодаря инновационной разработке в сфере нейронных сетей. В современном мире нейросети активно применяются повсеместно — от создания изображений и обработки текстов до распознавания символов на мобильных устройствах. В динамично развивающейся сфере ИИ ключевым фактором становится эффективность вычислительных процессов. Особенно важными параметрами для устройств с ограниченной мощностью, таких как смартфоны, встраиваемые системы и системы автономного управления, являются быстродействие и компактность нейронной сети.
Инновационным решением для создания быстрых и компактных сетей стали бинарные нейронные сети (БНС). Их уникальность заключается в том, что весовые коэффициенты и активации представлены минимальным объемом данных — одним битом (-1 или 1). Это существенно сокращает требования к объему памяти для хранения модели и позволяет использовать эффективные побитовые операции вместо ресурсоемких умножений. Тем не менее, процесс обучения БНС представлял серьезную проблему, что долгое время ограничивало их широкое внедрение.
Классические методики обучения нейросетей оказались неэффективными для БНС. Главное препятствие связано с особенностями функции активации, преобразующей входные данные в бинарные значения. Эта кусочно-постоянная (знаковая) функция имеет нулевой градиент во всех точках определения, что создает сложности при использовании методов обратного распространения ошибки. Для преодоления этого ограничения были разработаны различные подходы.
При использовании метода прямой оценки знаковая функция применяется на этапе прямого прохода, а при обратном распространении используется ее аппроксимация для расчета градиента. Однако этот подход имеет недостатки в виде несоответствия градиентов и колебаний весовых коэффициентов, что негативно влияет на скорость и стабильность обучения.
Альтернативный подход — самобинаризующиеся нейронные сети — использует плавную аппроксимацию знаковой функции (например, гиперболический тангенс), которая в процессе обучения постепенно приближается к знаковой функции. Недостатком является несоответствие между обучаемой и финальной бинарной моделью, приводящее к снижению точности.
Исследователи из МФТИ совместно с коллегами совершили важный прорыв, разработав инновационный метод квантования на неопределенной базе. Это решение обеспечивает стабильное обучение и высокую эффективность бинарных нейронных сетей даже при ограниченном числе параметров, объединяя преимущества существующих подходов.
Фундаментальной концепцией метода является применение вероятностной активации, учитывающей неопределенность в значениях весов и активаций.
По словам Антона Трусова, аспиранта кафедры когнитивных технологий Физтех-школы прикладной математики и информатики МФТИ, разработанный метод UBQ базируется на новаторской концепции неопределенности активаций, позволяющей точнее аппроксимировать бинарную функцию и эффективнее обучать бинарные нейронные сети.
В основе метода лежит расчет значения неопределенности для каждого веса и активации, отражающего степень «уверенности» сети в выборе знака (+1 или -1). При высокой неопределенности используется плавная аппроксимация знаковой функции для обеспечения стабильного обучения.
При низкой неопределенности применяется прямое оценивание, способствующее быстрому переходу к бинарному представлению. Авторы также предложили постепенное «замораживание» слоев сети и использование упрощенного аналога стандартной процедуры нормализации для плавного перехода между режимами обучения и исполнения.
Эффективность нового метода была подтверждена экспериментально на популярных наборах данных MNIST (распознавание рукописных цифр) и CIFAR-10 (классификация изображений). В ходе исследований обучались различные сверточные нейронные сети с бинарными слоями, сравнивая результаты по точности классификации.
Результаты экспериментов продемонстрировали превосходство нового метода при работе с компактными сетями и сопоставимую эффективность с методом прямой оценки для масштабных сетей. Особенно важно, что метод квантования на основе неопределенности показал более стабильное обучение, что подтверждается меньшим разбросом результатов при повторных экспериментах.
Разработанный метод обладает потенциалом для оптимизации под различные задачи и архитектуры сетей. Перспективные направления исследований включают адаптацию параметров метода для специфических задач, внедрение динамической неопределенности весов и применение метода к другим типам квантованных сетей.
Источник: naked-science.ru