در برخی موارد حل مساله نیازمند وجود چندین تصویر یا یک دنباله ویدئویی است. مثلاً در بحث شناسایی رفتار، چون خود رفتار کنشی در یک بازه زمانی است پس لزوماً رفتار در یک ویدئو بررسی میشه. بنابراین شما نیازمند یک ویدئو هستید. حالا بعضی ها میگن من با یک دونه تصویر هم میتونم رفتار رو از تو عکس در بیارم. مثل راه رفتن، لگد زدن، دست دادن و .... .
در موضوع شما، همونطور که میبینید عبارت Fusion به معنای ذوب به کار رفته که تکنیکی در پردازش تصویره که چند تصویر رو با هم ترکیب میکنه و تصویر نهایی رو بوجود میاره. بنابراین لازمه فرایند ذوب ، وجود چندین تصویره. که در اینجا نویسنده تاکید کرده من یک تصویر دارم و از روی اون میام دو تصویر مشتق میکنم و در نهایت عملیات ذوب رو انجام میدم. نهایتاً Single Image یعنی یک تصویر ( و نه بیشتر)
|