- Сообщения
- 1 815
- Реакции
- 377
- Баллы
- 103
Microsoft анонсировала новую нейросеть семейства небольших языковых моделей Phi-3, которая может работать с изображениями. Phi-3-vision — первая мультимодальная модель, объединяющая текст и изображения, она способна анализировать картинки, извлекать текст и другую информацию.
Microsoft утверждает, что Phi-3-vision лучше всего использовать на мобильных устройствах. Нейросеть обладает 4,2 млрд параметров и на текущий момент доступна в предварительной версии. Количество параметров влияет на то, как языковая модель может выполнять общие задачи визуального мышления. Например, что касается вопросов с диаграммами, графиками или изображениями. По этому показателю Phi-3-vision сильно уступает другим ИИ-моделям, ориентированным на работу с картинками, — DALL-E и Stable Diffusion. В отличие от этих моделей, Phi-3-vision не генерирует изображения, но понимает, что на них изображено, и умеет анализировать их. С другой стороны Phi-3-vision превосходит более крупные модели, такие как Claude-3 Haiku и Gemini 1.0 Pro V, при выполнении общих задач визуального мышления, оптического распознавания символов, чтения таблиц и диаграмм.
Microsoft анонсировала Phi-3 в апреле этого года. На сегодняшний день в этом семействе языковых моделей, помимо vision, насчитывается ещё три нейросети: Phi-3-mini, Phi-3-small и Phi-3-medium. Их рационально использовать на портативных устройствах, таких как смартфоны и ноутбуки, без необходимости занимать слишком много памяти. Они доступны в Microsoft Azure.