Semalt Expert Интернетте Javascript менен скрепинг жүргүзүү боюнча көрсөтмө берет

Желе кыргыч чечимдерди кабыл алуу процессинде кандай гана болбосун бизнесте колдонулуучу сын маалыматтардын сонун булагы болушу мүмкүн. Демек, ал маалыматтарды талдоонун өзөгүндө, анткени бул ишенимдүү маалыматтарды чогултуунун бирден бир жолу. Бирок Интернеттеги камтылгандардын саны ар дайым өсүп жаткандыктан, ар бир баракты кол менен кырып салуу дээрлик мүмкүн болбой калышы мүмкүн. Бул автоматташтырууну талап кылат.

Ал жакта ар кандай автоматташтырылган скрепинг долбоорлоруна ылайыкташтырылган көптөгөн шаймандар бар, бирок алардын көпчүлүгү премиум болуп саналат жана сизге байлыкка жетет. Бул жерде Puppeteer + Chrome + Node.JS кирет. Бул окуу куралы сизге веб-сайттарды автоматтык түрдө кырып салууга кепилдик берет.

Орнотуу кандайча иштейт?

Белгилей кетүүчү нерсе, бул долбоордо JavaScript жөнүндө бир аз билимге ээ болуу бул долбоорго жардам берет. Жаңы башталгычтар үчүн жогорудагы 3 программаны өзүнчө алуу керек болот. Куурчак - бул Түзмө китепкана, ал башсыз Chrome башкарууга колдонулат. Башсыз Chrome - бул анын GUI жок, башкача айтканда, хромсуз иштөө процесси. Node 8+ программасын расмий сайтынан орнотушуңуз керек.

Программаларды орнотуп, кодду иштеп чыгууну баштоо үчүн жаңы долбоорду түзүүнүн убагы келди. Идеалында, бул кыргыч процесси автоматташтырылган кодду колдонуп, JavaScript кыргычын камтышы. Куурчак жөнүндө көбүрөөк маалымат алуу үчүн анын документтерине кайрылыңыз, жүздөгөн мисалдар бар, алар менен ойноп көрүңүз.

JavaScript скрепингди кантип автоматташтыруу керек

Жаңы долбоорду түзүп, файлды (.js) түзүүгө өтүңүз. Биринчи сапта, мурун орнотулган Куурчактын көз карандылыгын чакырышыңыз керек. Андан кийин "getPic ()" баштапкы функция иштейт, ал автоматташтыруунун бардык кодун сактайт. Үчүнчү сапта "getPic ()" функциясы иштетилет. GetPic () функциясы "асинк" функциясы экендигин эске алып, коддун кийинки жолуна өтүүдөн мурун "убада берүүнү" чечип жатып, функцияны тынымга алган күтүү өрнөгүн колдонсок болот. Бул негизги автоматташтыруу функциясы катары иштейт.

Башсыз хромду кантип чакырса болот

Кийинки коддун сабы: "const браузер = күчүктү күтө туруңуз.Launch ();" автоматтык түрдө куурчакчыны ишке киргизип, аны жаңы түзүлгөн "браузер" өзгөрмөсүнө орнотуп, Chrome инстанциясын иштетет. Баракты түзүүнү уланта бериңиз, андан кийин каалаган URLңизге багыттоо үчүн колдонулат.

Маалыматты кандайча сындырса болот

Puppeteer API сизге веб-сайттын сааттарын, формаларын толтуруу жана маалыматтарды окуу сыяктуу ар кандай маалыматтарды киргизип ойноого мүмкүнчүлүк берет. Бул процесстерди кандайча автоматташтырууга боло тургандыгын жакындан көрүү үчүн, сиз ага кайрыла аласыз. Кыртыш кодубузду киргизүү үчүн "scrape ()" функциясы колдонулат. Кыргылоо процессин баштоо үчүн scrape.js түйүнүн иштетиңиз. Бүт орнотуу автоматтык түрдө талап кылынган мазмунду чыгара башташы керек. Жолдо ката кетирбөө үчүн, кодуңузду окуп, бардыгы дизайнга ылайык иштеп жаткандыгын унутпаңыз.