هوش مصنوعی چگونه دنیای عکاسی را دگرگون کرده است

توضیحات: جاسم فروزنده; دسته: مقالات گوشی موبایل; 08 شهریور 1398 21:00

دوربین گوشی های هوشمند در طی یکی دو سال اخیر با رشد چشم گیری روبرو شده اند و در حال حاضر بسیاری از عکاسان حرفه ای ترجیح می دهند به دلیل قابلیت حمل و نقل بالا از این دستگاه ها برای ثبت تصاویر خود استفاده کنند. اما باید توجه داشت که بخش قابل توجهی از این رشد و ارتقا را ممنون هوش مصنوعی هستیم و نه سنسورها و لنزهای جدید.

این روزها اگر قصد دارید از قدرت دوربین موجود در گوشی های هوشمند آگاهی پیدا کنید باید به قابلیت ها و ویژگی های آن در بخش هوش مصنوعی توجه داشته باشید. فارغ از تمامی بزرگ نمایی ها و حقه های تبلیغاتی، این فناوری سبب شده است که در طی سال های اخیر، رشد قابل توجهی در حوزه عکاسی توسط گوشی های هوشمند رخ دهد و در حال حاضر دلیلی وجود ندارد که سرعت این رشد را در سال های آینده، کُند پیش بینی کنیم.

گوگل، باعث و بانی ورود هوش مصنوعی به حوزه تصاویر در دنیای موبایل
بدون شک بخش اعظمی از پیشرفت های صورت گرفته در بخش دوربین گوشی های هوشمند به دلیل رشد و ارتقا فناوری هوش مصنوعی و نرم افزارها و همچنین تراشه های پشتیبان از آن رخ داده است. اگرچه در طی این سال ها نمی توان رشد سنسورها و لنزهای عکاسی را نادیده گرفت، اما باید هوش مصنوعی را به عنوان مهم ترین عاملی که سبب شده است دوربین موجود در گوشی های هوشمند پیشرفت کند، معرفی کنیم. این دوربین ها امروزه به لطف هوش مصنوعی می توانند تشخیص دهند که کاربران در حال ثبت تصویر از چه منظره یا صحنه ای هستند.

برنامه Google Photos که برای اولین بار در سال 2015 منتشر شد نخستین بار نشان داد که هوش مصنوعی قادر است در دنیای عکاسی چقدر قدرتمند ظاهر شود. تا پیش از این سال، گوگل برای مدت ها به منظور شناسایی تصاویر از یکدیگر از الگوریتم های یادگیری زبان ماشین استفاده می کرد؛ اما انتشار برنامه Google Photos سبب شد که قابلیت های مبتنی بر هوش مصنوعی برای اولین بار در قالب یک رابط کاربری در دسترس افراد قرار بگیرد.

هوش مصنوعی به شناخت بیشتر و بهتر سلائق و تمایلات کاربران کمک می‌کند

این اتفاق تا پیش از سال 2015 برای بسیاری باورکردنی نبود. برنامه Google Photos سبب شد که یک شبه، گالری تصاویر بهم ریخته کاربران، به یک پایگاه داده قابل جستجو تبدیل شود. گوگل در حال حاضر به لطف برنامه Google Photos می داند که کاربران در انتخاب لباس های خود به چه رنگ هایی علاقه بیشتری دارند.

گوگل بکارگیری هوش مصنوعی در حوزه عکاسی را در سال 2013 و پس از تصاحب شرکت DNNresearch آغاز کرد. برنامه تولید شده توسط این شرکت از یک الگوریتم شبکه عصبی عمیق (Deep Neural Network) برای شناسایی تصاویر از یکدیگر استفاده می کرد که قادر بود با استفاده از اطلاعاتی که توسط انسان ها فراهم می شود خود را قوی تر کند.

این سری از الگوریتم‌ها که با عنوان Supervised Learning نیز شناسایی می شوند، شامل یک سری فرآیند پردازشی هستند که می‌توانند با استفاده از میلیون ها تصویر، در طول زمان عملکرد خود را ارتقا ببخشند. این الگوریتم پس از بررسی رنگ و نحوه چینش پیکسل ها در کنار یکدیگر، به شناسایی الگوهای مشابه در دیگر تصاویر می پردازد.

به عنوان مثال این الگوریتم قادر است عکس یک پاندا را شناسایی کند؛ چرا که دارای الگوهایی است که در گذشته توانسته توسط آن ها عکس یک پاندا را به درستی شناسایی کند. این الگوریتم با بررسی تصاویر مربوط به یک پاندا، یاد گرفته است که چگونه پیکسل های سفید و سیاه در کنار یکدیگر طرح پوست آن را تشکیل می دهند. از سوی دیگر این الگوریتم به گونه ای طراحی شده است که بتواند تفاوت یک پاندا و یک گاو را از نظر شباهت ظاهری متوجه شود.

الگوریتم هوش مصنوعی می‌تواند تصاویر مشابه با هم ولی با ذات متفاوت را شناسایی کند

با رشد و ارتقا این الگوریتم در طول زمان، امکان شناسایی کلی تر تصاویر نیز ممکن خواهد بود. به عنوان مثال می توان با استفاده از کلماتی نظیر Animal، تمامی تصاویر مربوط به حیوانات را جستجو کرد. اگرچه این تصاویر دارای یک مشخصه واحد و ثابت نیستند و شناسایی آن ها توسط یک الگوریتم مصنوعی به سختی امکان پذیر است، اما انسان ها می توانند به سادگی آن ها را از یکدیگر تشخیص دهند.

مطمئنا رشد و ارتقا چنین الگوریتمی کار بسیار سختی است و به زمان زیادی نیز نیاز دارد؛ اما اگر بتوان آن را بر روی دیتاسنترها پیاده سازی کرد، امکان اجرای آن بر روی گوشی های هوشمند که دارای قدرت پردازشی بسیار کمتری هستند، چندان مشکل نخواهد بود. در حال حاضر سخت ترین مرحله از این کار توسط گوگل انجام شده است؛ به این معنی که اگر تصاویر بر روی دیتاسنتر آن آپلود شوند، این شرکت می تواند با استفاده از این الگوریتم آن ها را بررسی و برچسب گذاری کند.

نزدیک به یکسال پس از اینکه برنامه Google Photos منتشر شد، اپل یک قابلیت جستجوی تصویر را به دستگاه های خود آورد که آن هم از یک شبکه عصبی برای شناسایی تصاویر استفاده می کند؛ اما به دلیل اینکه حریم امن این شرکت اجازه نمی دهد که تصاویر به مکان دیگری ارسال شوند، بررسی و شناسایی آن ها تنها با استفاده از پردازنده موجود در گوشی های هوشمند صورت می گیرد. این موضوع سبب می شود که این فرآیند یک تا دو روز به طول بی انجامد.

نرم افزار هوشمند برای مدیریت تصاویر ثبت شده، تنها یک وجه از استفاده از هوش مصنوعی در دوربین های عکاسی است؛ مطمئناً کاربرد این فناوری در هنگام ثبت تصاویر از اهمیت بسیار بیشتری برخوردار است. لنزهای موجود در دوربین گوشی های هوشمند هر روزه سریع تر می شوند و سنسور موجود در آن ها نیز ابعاد بزرگ تری به خود می گیرد؛ اما آنچه این روزها سبب شده است نتوان قدرت سخت افزاری این دوربین ها را افزایش داد محدودیت های فیزیکی است که اجازه نمی دهد ضخامت و ابعاد گوشی های هوشمند از حدی فراتر رود.

چرا هوش مصنوعی در عکاسی موبایل تا این حد مهم است؟
بدنه نازک و کم ضخامت گوشی های هوشمند قادر نیست که یک سیستم اپتیکی قدرتمند را در خود جای دهد. این موضوع سبب شده است که در حال حاضر نتوان با گوشی های هوشمند تصاویری را به ثبت رساند که کیفیت آن ها بهتر از تصاویر خروجی بسیاری از دوربین های حرفه ای باشد. این موضوع حداقل پیش از پردازش تصاویر توسط گوشی های هوشمند صادق است.

اما به لطف قطعات سخت افزاری قدرتمند نظیر تراشه ها، که یک واحد پردازشی را در خود جای داده اند، پردازنده سیگنال تصاویر و از آن ها مهم تر واحد پردازش عصبی (NPU)، با وجود تمامی این محدودیت های فیزیکی، فاصله میان تصاویر ثبت شده توسط گوشی های هوشمند و تصاویر خروجی دوربین های حرفه ای روز به روز در حال کاهش است.

به طور کلی فرآیندها و پردازش هایی که توسط این اجزای سخت افزاری صورت می گیرد تحت عنوان «عکاسی محاسباتی» معرفی می شود. واژه گسترده ای که از افکت های مصنوعی عمق میدان گرفته تا مدهای پرتره و الگوریتم هایی که گوشی های پیکسل با استفاده از آن ها تصاویر شگفت انگیزی را به ثبت می رسانند شامل می شود. عکاسی محاسباتی تنها به هوش مصنوعی محدود نمی شود، اما هوش مصنوعی بخش اعظمی از آن را تشکیل می دهد.

این روزها همه شرکت‌ها از هوش مصنوعی برای پشتیبانی از دوربین های دوگانه موجود در دستگاه های خود استفاده می کنند و توانسته‌اند به وسیله این فناوری، مد پرتره را به نرم‌افزار گوشی‌های خود اضافه کنند. پردازنده سیگنال عکس از راه کارهای مبتنی بر یادگیری زبان ماشین استفاده می کند تا با استفاده از یک سنسور، افراد حاضر در عکس را شناسایی کند. به صورت همزمان سنسور دوم یک نقشه عمقی را فراهم می آورد تا ترکیب این دو تصویر، شامل نگاره ای از فرد موردنظر و یک پس زمینه مات باشد.

سنسور عمق میدان می‌تواند علی‌رغم عملکرد ساده خود، دقت و کیفیت خروجی عکس را دوچندان کند

در این زمان ایده اینکه با استفاده از یادگیری زبان ماشین، تصویر افراد از پس زمینه تمیز داده شود چیز جدیدی نبود. تا پیش از سال 2016 که مدهای پرتره معرفی شوند، این قابلیت توسط نرم افزارهای مدیریت عکس برای شناسایی و برچسب گذاری تصاویر به کار گرفته می شد. با این وجود، طراحی این قابلیت برای اینکه بتواند در دوربین گوشی های هوشمند به کار گرفته شود و با سرعت بالا و در مدت زمان کم عمل کند، چالش بزرگی به شمار می رفت.

به نظر می رسد گوگل قرار است در حوزه عکاسی محاسباتی برای سال های آینده نیز به عنوان پیشرو معرفی شود. عملکرد عالی سه نسل مختلف از گوشی های پیکسل، می تواند یک گواه بر این ادعا باشد. HDR+ که مد پیش فرض عکاسی در این گوشی های هوشمند است از الگوریتم های پیچیده و پیشرفته ای استفاده می کند تا تصاویر ثبت شده در زمان های نوردهی مختلف را با یکدیگر ترکیب کند.

بنا به گفته Marc Levoy، مدیر بخش عکاسی محاسباتی گوگل، یادگیری زبان ماشین که در نرم افزار عکاسی این شرکت به کار گرفته شده است به آن کمک می کند که با گذشت زمان عملکرد بهتری داشته باشد. گوگل اعلام کرده است که الگوریتم های هوش مصنوعی موجود در نرم افزارهای گوناگون خود از جمله Google Photos را توسط انبوهی از تصاویر برچسب گذاری شده تمرین داده و این موضوع سبب شده است که گوشی های او در ثبت تصاویر قدرت بالایی داشته باشند.

اگرچه چند سالی از معرفی و عرضه گوشی پیکسل 2 می گذرد، اما هنوز هم بسیاری از عکاسان حرفه ای به دلیل کیفیت بالای عکس های خروجی، از این گوشی برای ثبت تصاویر خود استفاده می کنند. ای عملکرد عالی بعدها در سری گوگل پیکسل 3 به اوج خود رسید و امروز شاهد بهترین عملکرد هوش مصنوعی در نرم‌افزار عکاسی این گوشی هستیم.

جهش سخت‌افزاری با ارائه پردازنده عصبی و سنسورهای 48، 64 و 108 مگاپیکسلی
Night Sight که چندی پیش به گوشی های این شرکت اضافه شد هم اکنون به عنوان یکی از مهم ترین قابلیت های برنامه عکاسی آن ها شناخته می شود. گوشی های پیکسل می توانند به لطف این قابلیت در زمان های نوردهی مختلف، تصاویر گوناگونی را به ثبت برسانند. در گام بعدی الگوریتم های زبان ماشین به کمک آن ها خواهد آمد تا بتوانند شدت نور در محیط و همچنین میزان رنگ ها را محاسبه و بر روی تصاویر پیاده سازی کنند. استفاده از این قابلیت برای ثبت تصویر از موقعیت های تاریک نتایج خیره ای کننده ای را به دنبال داشته است.

قابلیت Night Sight بهترین نتایج خود را در گوشی های پیکسل 3 به نمایش می گذارد؛ چرا که گوگل الگوریتم های آن را برای اجرا بر روی نسل جدیدی از تراشه ها پی ریزی کرده است. با وجود این، کاربران دیگر اسمارت فون های این شرکت، حتی نسل اول از گوشی های پیکسل، نیز در حال حاضر امکان دسترسی به آن را دارند. نخستین رده از گوشی های پیکسل فاقد سیستم لرزش گیر اپتیکی هستند، اما بازهم استفاده از قابلیت Night Sight در آن ها نتایج مناسبی را فراهم می کند. این موضوع به خوبی نشان می دهد که امروزه در حوزه عکاسی با گوشی های هوشمند، نرم افزار اهمیت بیشتری از سخت افزار پیدا کرده است.

با وجود این هنوز هم می توان با ارتقا قطعات سخت افزاری، کیفیت تصاویر خروجی توسط این دوربین ها را افزایش داد. بخشی از تولید کنندگان این دستگاه ها در نظر دارند در آینده نزدیک محصولات خود را به دوربین های قدرتمند 64 مگاپیکسلی مجهز کنند. علاوه بر این، چندی پیش بود که سامسونگ سنسورهای عکاسی 108 مگاپیکسلی را معرفی کرد که به گفته این شرکت قرار است در گوشی های هوشمند به کار گرفته شده و عملکرد سخت‌افزار را یک سطح بالاتر ببرد.

دو گوشی Nova 4 و Honor View 20، به عنوان اولین محصولاتی شناخته می شوند که از سنسور قدرتمند Sony IMX586 بهره می برند. این سنسور از بسیاری از نمونه های مشابه خود بزرگ تر است و قادر است وضوح 48 مگاپیکسلی را به گوشی های هوشمند بیاورد. این وضوح عالی، سنسور IMX586 را وادار کرده است که انبوهی از پیکسل ها را در فضایی کوچک جای دهد.

این موضوع می تواند حداقل بر روی کاغذ به منزله کاهش کیفیت تصاویر خروجی تلقی شود؛ اما گوشی View 20، دارای یک مد کاری با عنوان AI Ultra Clarity است که با استفاده از هوش مصنوعی به این سنسور اجازه می دهد حداکثر وضوح ممکن را فراهم و جزییات متعددی را به تصاویر اضافه کند. استفاده از این مد سبب می شود که در پایان تصاویر چشم نوازی در دسترس قرار بگیرد که امکان بزرگ نمایی آن ها در چند مرحله وجود دارد.

اگرچه نحوه عملکرد دوربین گوشی های هوشمند وابستگی شدیدی به پردازنده سیگنال عکس آن ها دارد، اما باید گفت در طی یکی دو سال اخیر نقش واحدهای پردازش عصبی (NPU) در حوزه عکاسی محاسباتی بسیار پررنگ تر از قبل شده است. هواوی اولین شرکتی بود که تراشه ای مجهز به یک جز سخت افزاری مربوط به هوش مصنوعی عرضه کرد، اما این تراشه A11 Bionic اپل بود که ضمن بهره مندی از این پردازنده، حتی سریع تر از تراشه Kirin 970 به دست کاربران رسید.

کوالکام بزرگ ترین تولید کننده تراشه های سازگار با سیستم عامل اندروید، هنوز بر روی تولید یک جز سخت افزاری ویژه برای پردازش فرآیندهای مبتنی بر هوش مصنوعی متمرکز نشده؛ اما گوگل در این بخش یک تراشه اختصاصی با عنوان Pixel Visual Core را تولید کرده است که به صورت اختصاصی به پردازش فرآیندهای مبتنی بر هوش مصنوعی در هنگام عکاسی می پردازد.

جدیدترین SoC اپل یعنی A12 Bionic نیز دارای یک پردازنده عصبی هشت هسته ای است که می تواند در فریم ورک یادگیری زبان ماشین اپل، با عنوان Core ML، تا 9 برابر سریع تر از تراشه A11 عمل کند. این پردازنده همچنین برای اولین بار در تراشه A12 Bionic به صورت مستقیم به پردازنده سیگنال عکس متصل شده است. اپل اعلام کرده است این موضوع سبب می شود که سنسورهای دوربین بتوانند صفحه کانونی را بهتر درک کنند و در نتیجه عمق میدان واقعی تری را فراهم آورند.

مطمئناً برای اینکه دستگاه های هوشمند نظیر اسمارت فون ها بتوانند از پس پردازش های مبتنی بر هوش مصنوعی برآیند به NPU ها نیاز خواهند داشت. باید توجه داشت که الگوریتم های پیچیده ای که از برنامه هایی نظیر Google Photos پشتیبانی می کنند پیش از آنکه راهی گوشی ها یا دیگر دستگاه های هوشمند شوند توسط کامپیوترهای قدرتمند و مجهز به هسته های گرافیکی پرقدرت تمرین داده شده اند. به این ترتیب بخش اعظمی از پرداز ش ها دیگر به اجرای دوباره بر روی دستگاه های هوشمند نیازی ندارند؛ با وجود این، هنوز هم برای اینکه بتوان پردازش های باقی مانده را به صورت در لحظه توسط این دستگاه ها انجام داد کار دشواری پیش رو است.

اگرچه تراشه ها روز به روز در حال سریع تر شدن هستند، اما گوگل چندی پیش اعلام کرد مشغول کار بر روی راهکارهای جدیدی است که در هنگام پردازش فرآیندهای مبتنی بر هوش مصنوعی، وظایف کمتری را به دستگاه های هوشمند محول می کند. با وجود اینکه عکاسی محاسباتی این روزها در مراحل اولیه خود قرار دارد، اما دوربین هایی که با استفاده از یادگیری زبان ماشین یا هوش مصنوعی طراحی شده اند نسبت به محصولات دیگر، دارای انبوهی از مزایا و امکانات مضاعف هستند.

در طی سال های اخیر، هوش مصنوعی بارها و بارها در حقه های تبلیغاتی متعدد به کار گرفته شده است؛ اما عکاسی یکی از معدود حوزه هایی است که شاهد تبدیل شدن آن از حالت بالقوه به حالت بالفعل هستیم. بدون شک دوربین یکی از مهم ترین و حیاتی ترین قابلیت های یک گوشی هوشمند است و در حال حاضر هوش مصنوعی بهترین ابزار برای ارتقا آن به شمار می رود.