Որպես համակարգչային տեսողության հիմնական կիրառություններից մեկը, օբյեկտի հայտնաբերումը դառնում է ավելի կարևոր այն սցենարներում, որոնք պահանջում են բարձր ճշգրտություն, բայց ունեն սահմանափակ հաշվողական ռեսուրսներ, ինչպիսիք են ռոբոտաշինությունը և առանց վարորդի մեքենաները: Unfortunatelyավոք, շատ ժամանակակից ճշգրիտ դետեկտորներ չեն բավարարում այդ սահմանափակումները: Ավելի կարեւոր է, որ իրական աշխարհում օբյեկտների հայտնաբերման ծրագրերն աշխատում են տարբեր հարթակներում, որոնք հաճախ պահանջում են տարբեր ռեսուրսներ:
Այսպիսով, բնական հարցն այն է, թե ինչպես նախագծել ճշգրիտ և արդյունավետ օբյեկտի դետեկտորներ, որոնք կարող են նաև հարմարվել ռեսուրսների սահմանափակման լայն տիրույթին:
EfficDet. Ընդարձակ և արդյունավետ օբյեկտի հայտնաբերումը, որն ընդունվել է CVPR 2020-ում, ներկայացնում է նոր ընտանիք ՝ ընդարձակ և արդյունավետ օբյեկտների դետեկտորների: Հիմնվելով նախորդ աշխատանքի վրա ՝ նեյրոնային ցանցերի մասշտաբման (EfficNet) մասշտաբի և նոր երկկողմանի ֆունկցիոնալ ցանցի (BiFPN) և մասշտաբի նոր կանոնների ներառման վրա, EfficDet– ը հասնում է ժամանակակից ճշգրտության, մինչև 9 անգամ փոքր և օգտագործում է զգալիորեն պակաս հաշվարկներ, քան հայտնի ժամանակակից դետեկտորները: Հաջորդ նկարը ցույց է տալիս մոդելների ընդհանուր ցանցային ճարտարապետությունը:
Մոդելի ճարտարապետության օպտիմիզացում
EfficDet- ի հիմքում ընկած գաղափարը բխում է հաշվարկման արդյունավետությունը բարելավելու համար լուծումներ գտնելու փորձից `համակարգված ուսումնասիրելով հայտնաբերման նախորդ նորագույն մոդելները: Ընդհանուր առմամբ, օբյեկտների դետեկտորներն ունեն երեք հիմնական բաղադրիչ. Ողնաշար, որը տվյալ պատկերից հատկություններ է դուրս բերում; օբյեկտների ցանց, որը ողնաշարից որպես մուտք է վերցնում բազմաթիվ գործառույթների մակարդակ և դուրս է բերում համակցված գործառույթների ցանկ, որոնք ներկայացնում են պատկերի բնութագրական հատկությունները. և վերջնական դասի / տուփի ցանց, որն օգտագործում է համակցված գործառույթներ `յուրաքանչյուր օբյեկտի դասը և գտնվելու վայրը կանխատեսելու համար:
Այս բաղադրիչների նախագծման ընտրանքները վերանայելուց հետո մենք որոշեցինք մի քանի հիմնական օպտիմալացումներ `կատարողականությունն ու արդյունավետությունը բարելավելու համար: Նախորդ դետեկտորները հիմնականում օգտագործում են ResNets, ResNeXt կամ AmoebaNet որպես ողնաշար, որոնք կամ պակաս հզոր են, կամ էլ ավելի ցածր արդյունավետություն ունեն, քան EfficNets- ը: EfficNet ողնաշարի նախնական ներդրմամբ կարելի է հասնել շատ ավելի մեծ արդյունավետության: Օրինակ, սկսելով RetinaNet ելակետայինից, որն օգտագործում է ResNet-50 ողնաշար, մեր աբլյացիայի ուսումնասիրությունը ցույց է տալիս, որ ResNet-50- ի EternalNet-B3- ով փոխարինելը կարող է ճշգրտությունը բարելավել 3% -ով, մինչդեռ հաշվարկը կրճատել 20% -ով: Մեկ այլ օպտիմիզացում `ֆունկցիոնալ ցանցերի արդյունավետության բարձրացում: Չնայած նախորդ դետեկտորներից շատերը պարզապես օգտագործում են Downlink Pyramid Network (FPN), մենք գտնում ենք, որ հոսանքն ի վար FPN- ն իր էությամբ սահմանափակվում է տեղեկատվության միակողմանի հոսքով: Այլընտրանքային FPN- ները, ինչպիսիք են PANet- ը, հավելյալ հոսանքի հոսք են ավելացնում `լրացուցիչ հաշվարկի գնով:
Neural Architecture Search (NAS) - ի օգտագործման վերջին փորձերը հայտնաբերել են ավելի բարդ NAS-FPN ճարտարապետություն: Այնուամենայնիվ, չնայած ցանցի այս կառուցվածքն արդյունավետ է, այն նաև անկանոն է և խիստ օպտիմիզացված է որոշակի առաջադրանքի համար ՝ դժվարացնելով հարմարվել այլ առաջադրանքներին: Այս խնդիրները լուծելու համար մենք առաջարկում ենք BiFPN երկկողմանի գործառույթների նոր ցանց, որն իրականացնում է FPN / PANet / NAS-FPN- ից բազմաշերտ գործառույթները համատեղելու գաղափար, որը թույլ է տալիս տեղեկատվությունը փոխանցել ինչպես վերևից ներքև, այնպես էլ ներքեւից վերեւ: օգտագործելով կանոնավոր և արդյունավետ կապեր:
Արդյունավետությունն էլ ավելի բարելավելու համար մենք առաջարկում ենք արագ նորմալացված սինթեզի նոր տեխնիկա: Ավանդական մոտեցումները սովորաբար վերաբերվում են FPN- ի բոլոր մուտքերին նույն կերպ, նույնիսկ տարբեր լուծումներով:Այնուամենայնիվ, մենք նկատում ենք, որ տարբեր բանաձևերով մուտքային հատկությունները հաճախ անհավասարորեն նպաստում են ելքային գործառույթներին: Այսպիսով, յուրաքանչյուր մուտքային գործառույթին մենք ավելացնում ենք լրացուցիչ քաշ և թույլ ենք տալիս ցանցին սովորել յուրաքանչյուրի կարևորությունը: Մենք նաև բոլոր սովորական ցնցումները կփոխարինենք ավելի քիչ թանկ, խորը տարանջատված ցնցումներով: Այս օպտիմալացման միջոցով մեր BiFPN- ը հետագայում բարելավում է ճշգրտությունը 4% -ով `միաժամանակ 50% -ով կրճատելով հաշվարկային ծախսերը:
Երրորդ օպտիմալացումը ներառում է ռեսուրսների տարբեր սահմանափակումների ներքո ճշգրտության և արդյունավետության միջև լավագույն փոխզիջման հասնելը: Մեր նախորդ աշխատանքը ցույց է տվել, որ ցանցի խորությունը, լայնությունը և լուծաչափը համասեռեցումը կարող է էապես բարելավել պատկերի ճանաչման կատարումը: Ոգեշնչված այս գաղափարից ՝ մենք առաջարկում ենք օբյեկտի դետեկտորների մասշտաբի մասշտաբի նոր մեթոդ, որը հավաքականորեն մեծացնում է լուծաչափը / խորությունը / լայնությունը: Networkանցի յուրաքանչյուր բաղադրիչ, այսինքն `ողնաշարը, օբյեկտը և բլոկը / դասի կանխատեսող ցանցը կունենա մեկ բարդ մասշտաբի գործոն, որը վերահսկում է մասշտաբի բոլոր չափերը` օգտագործելով հեվրիստիկական կանոններ: Այս մոտեցումը հեշտացնում է պարզել, թե ինչպես է մոդելավորվում սանդղակը `հաշվարկելով մասշտաբի գործոն տվյալ թիրախային ռեսուրսների սահմանափակման համար:
Միացնելով նոր ողնաշարը և BiFPN- ը `մենք նախ նախագծում ենք մի փոքր EfficDet-D0 ելակետային բազա, այնուհետև կիրառում ենք բարդ մասշտաբավորում` EfficientDet-D1- ը D7- ին ստանալու համար: Յուրաքանչյուր սերիական մոդել ունի ավելի բարձր հաշվարկային ծախս, որը ներառում է ռեսուրսների սահմանափակումների լայն շրջանակ `3 միլիարդ FLOP- ից մինչև 300 միլիարդ FLOPS, և ապահովում է ավելի բարձր ճշգրտություն:
Կատարման մոդել
ECO- ի տվյալների բազայի գնահատումը, օբյեկտի հայտնաբերման համար լայնորեն օգտագործված տեղեկատու շտեմարան: EfficientDet-D7- ը հասնում է միջին միջին ճշգրտության (mAP) 52.2-ին, ինչը 1.5 կետով բարձր է նախորդ ժամանակակից մոդելի համեմատությամբ `օգտագործելով 4 անգամ ավելի քիչ պարամետրեր և 9.4 անգամ ավելի քիչ հաշվարկներ
Մենք նաև համեմատեցինք պարամետրի չափը և պրոցեսորի / GPU- ի հետաձգումը EfficDet- ի և նախորդ մոդելների միջև: Accuracyշգրտության նման սահմանափակումներով, EfficientDet մոդելներն աշխատում են 2-4 անգամ ավելի արագ GPU- ով և 5-11 անգամ ավելի արագ պրոցեսորով, քան մյուս դետեկտորները: Չնայած EfficDet մոդելները հիմնականում նախատեսված են օբյեկտի հայտնաբերման համար, մենք նաև ստուգում ենք դրանց արդյունավետությունը այլ առաջադրանքներում, ինչպիսիք են իմաստային հատվածացումը: Սեգմենտացիայի առաջադրանքներ կատարելու համար մենք փոքր-ինչ փոփոխում ենք EfficDet-D4- ը `փոխարինելով հայտնաբերման գլխի և գլխի կորուստը և կորուստը` պահպանելով նույն մասշտաբային ողնաշարը և BiFPN- ը: Մենք համեմատում ենք այս մոդելը նախորդ հատվածապատման մոդելների հետ Pascal VOC 2012-ի համար, որը լայնորեն օգտագործվում է հատվածների փորձարկման շտեմարանում:
Հաշվի առնելով դրանց բացառիկ կատարողականությունը, սպասվում է, որ EfficDet- ը ծառայելու է որպես նոր հիմք ապագա օբյեկտների հայտնաբերման հետազոտության համար և հնարավոր է, որ օբյեկտների հայտնաբերման շատ ճշգրիտ մոդելները օգտակար լինեն իրական իրականության շատ ծրագրերում: Այսպիսով, Github.com կայքում բացվեցին ծածկագրի և նախապատրաստված մոդելի բոլոր կետերը: