рдкрд╛рдпрдерди рдкреНрд░реЛрдЧреНрд░рд╛рдорд┐рдВрдЧ рдореЗрдВ рдкрд╣рд▓рд╛ рдХрджрдо

рдХреБрдЫ рдорд╣реАрдиреЗ рдкрд╣рд▓реЗ, рдореИрдВрдиреЗ рдкрд╛рдпрдерди рд╕реАрдЦрдирд╛ рд╢реБрд░реВ рдХрд┐рдпрд╛ред рдкреНрд░рдпреБрдХреНрдд рд╕рдВрд░рдЪрдирд╛рдУрдВ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдкрдврд╝рдиреЗ рдХреЗ рдмрд╛рдж, рд╕реНрдЯреНрд░рд┐рдВрдЧреНрд╕, рдЬрдирд░реЗрдЯрд░, рдУрдУрдкреА рдХреА рдореВрд▓ рдмрд╛рддреЗрдВ рдХреЗ рд╕рд╛рде рдХрд╛рдо рдХрд░рдирд╛, рдореИрдВрдиреЗ рдЗрд╕ рдмрд╛рд░реЗ рдореЗрдВ рд╕реЛрдЪрд╛ рдХрд┐ рдПрдХ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдХрд╛рд░реНрдп рдХреЗ рд▓рд┐рдП рдпрд╣ рд╕рдм рд▓рд╛рдЧреВ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХреНрдпрд╛ рдЙрдкрдпреЛрдЧреА рдХрд╛рд░реНрдпрдХреНрд░рдо рд▓рд┐рдЦрдирд╛ рд╣реИред
рдПрдХ рд╕реБрдЦрдж рд╕рдВрдпреЛрдЧ рд╕реЗ, рджреЛрд╕реНрддреЛрдВ рдиреЗ рдореБрдЭреЗ рдХрд╛рд░реНрдЯреВрди "рдЪрдорддреНрдХрд╛рд░ рдСрди рдЯрд░реНрди" рдбрд╛рдЙрдирд▓реЛрдб рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд╣рд╛ред

рдмрд┐рдВрджреБ рдкрд░ рдкрд╣реБрдБрдЪреЛ


UA-IX рдореЗрдВ рд▓реЛрдХрдкреНрд░рд┐рдп рдЯреНрд░реИрдХрд░реНрд╕ рдореЗрдВ рд╕реЗ рдПрдХ рдХрд╛ рджреМрд░рд╛ рдХрд░рдиреЗ рдХреЗ рдмрд╛рдж, рдореБрдЭреЗ рдпрд╣ рдХрд╛рд░реНрдЯреВрди рдорд┐рд▓рд╛, рдХреЗрд╡рд▓ рдкреНрд░рддреНрдпреЗрдХ рдПрдкрд┐рд╕реЛрдб рдХреЛ рдЕрд▓рдЧ рд╕реЗ рдЕрдкрд▓реЛрдб рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛, рд▓реЗрдХрд┐рди рдореИрдВ "рдбрд╛рдЙрдирд▓реЛрдб" рдмрдЯрди рдХреЛ 65 рдмрд╛рд░ рдкреНрд░реЗрд╕ рдирд╣реАрдВ рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рдерд╛ред рдЙрд╕ рдкрд▓ рдореЗрдВ, рдореБрдЭреЗ рдкрд╛рдпрдерди рдпрд╛рдж рдЖрдпрд╛ред
рд╕рд╛рдЗрдЯ рд╕реЗ рдлрд╝рд╛рдЗрд▓реЛрдВ рдХреЛ рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХреЗ рддрд░реАрдХреЗ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЬрд╛рдирдХрд╛рд░реА рдХреЗ рд▓рд┐рдП рддреБрд░рдВрдд рджреЗрдЦрдирд╛ рд╢реБрд░реВ рдХрд░ рджрд┐рдпрд╛ред Google рдФрд░ рдХреБрдЦреНрдпрд╛рдд рд╕реНрдЯреИрдХрдУрд╡рд░рдлрд╝реНрд▓реЛ рд╕рд╛рдЗрдЯ рдХреЗ рд▓рд┐рдП рдЬрд╡рд╛рдм рдЬрд▓реНрджреА рд╕реЗ рдкреНрд░рд╛рдкреНрдд рд╣реБрдЖред рдпрд╣ рдкрддрд╛ рдЪрд▓рд╛ рд╣реИ рдХрд┐ рдЖрдк рд▓рд╛рдЗрдмреНрд░реЗрд░реА рдЖрдпрд╛рдд рдХрд░рдХреЗ рдФрд░ рдХреБрдЫ рдкрдВрдХреНрддрд┐рдпреЛрдВ рдХреЛ рдЬреЛрдбрд╝рдХрд░ рдлрд╝рд╛рдЗрд▓реЛрдВ рдХреЛ "рдмрд╛рд╣рд░" рдЦреАрдВрдЪ рд╕рдХрддреЗ рд╣реИрдВред рдЫреЛрдЯреЗ рдЖрдпрд╛рдореЛрдВ рдХреА рдлрд╝рд╛рдЗрд▓реЛрдВ рдкрд░ рдкрд░реАрдХреНрд╖рдг рдХрд░рдиреЗ рдХреЗ рдмрд╛рдж рдХрд┐ рдпрд╣ рд╕рдм рдХреИрд╕реЗ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ, рдореИрдВ рдЕрдЧрд▓реЗ рдЪрд░рдг рдореЗрдВ рдЖрдЧреЗ рдмрдврд╝рд╛ред рд╕рднреА рдбрд╛рдЙрдирд▓реЛрдб рд▓рд┐рдВрдХ рдФрд░ рдЙрдирдХреЗ рд╕рдВрдмрдВрдзрд┐рдд рдлрд╝рд╛рдЗрд▓ рдирд╛рдо рдПрдХрддреНрд░ рдХрд░рдирд╛ рдЖрд╡рд╢реНрдпрдХ рдерд╛ред
рд╡реЗ рдПрдХ рд╣реА рдЯреИрдЧ рдХреЗ рднреАрддрд░ рдХрд╣реАрдВ рднреА рдирд┐рд░реНрджрд┐рд╖реНрдЯ рдирд╣реАрдВ рдереЗ, рдЗрд╕рд▓рд┐рдП рдореИрдВрдиреЗ рд▓рд┐рдВрдХ рдФрд░ рдлрд╝рд╛рдЗрд▓ рдирд╛рдо рдЕрд▓рдЧ рд╕реЗ рдПрдХрддреНрд░ рдХрд┐рдПред
рд▓рд┐рдВрдХ рдЗрдХрдЯреНрдард╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, lxml рд▓рд╛рдЗрдмреНрд░реЗрд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛, рдЬреЛ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдЗрд╕ рд╕рд╛рдЗрдЯ рдкрд░ рдЪрд░реНрдЪрд╛ рдХреА рдЧрдИ рдереАред рдЗрд╕ рдкреБрд╕реНрддрдХрд╛рд▓рдп рдХреЛ рдбрд╛рдЙрдирд▓реЛрдб рдХрд░рдиреЗ рдФрд░ рд╕реНрдерд╛рдкрд┐рдд рдХрд░рдиреЗ рдХреЗ рдмрд╛рдж, рдореИрдВ рд╕реНрд╡рдпрдВ рдХрд╛рд░реНрдпрдХреНрд░рдо рд▓рд┐рдЦрдиреЗ рдХреЗ рд▓рд┐рдП рдЖрдЧреЗ рдмрдврд╝рд╛ред рдХрд╛рд░реНрдпрдХреНрд░рдо рдХреЛрдб рдиреАрдЪреЗ рдкреНрд░рд╕реНрддреБрдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ:
#! /usr/bin/env python import urllib import lxml.html load = 'load' page = urllib.urlopen('http://www.***.ua/view/12345678') doc = lxml.html.document_fromstring(page.read()) for link in doc.cssselect('p span.r_button_small a'): if link.text == None: continue if load not in link.get('href'): continue print 'http://***.ua'+link.get('href') 

рд╕рднреА рдПрдХрддреНрд░рд┐рдд рд▓рд┐рдВрдХ рдЙрдирдХреЗ рд╕рд╛рде рдЖрдЧреЗ рдХреЗ рдХрд╛рдо рдХреЗ рд▓рд┐рдП рдПрдХ рдлрд╝рд╛рдЗрд▓ рдореЗрдВ рд╕рд╣реЗрдЬреЗ рдЧрдП рдереЗред рдпрджрд┐ рд╕рднреА рдбреЗрдЯрд╛ рдХреЛ рдлрд╝рд┐рд▓реНрдЯрд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдирд┐рд░реНрдорд╛рдг рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред рдЗрд╕ рдкреНрд░рдХрд╛рд░, рдореБрдЭреЗ рдХреЗрд╡рд▓ рд▓рд┐рдВрдХ рдкреНрд░рд╛рдкреНрдд рд╣реБрдП рдЬрд┐рдирдХрд╛ рдЙрдкрдпреЛрдЧ рдХрдВрдкреНрдпреВрдЯрд░ рдкрд░ рдлрд╝рд╛рдЗрд▓ рдбрд╛рдЙрдирд▓реЛрдб рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред
рдлрд╝рд╛рдЗрд▓ рдирд╛рдо рдХрд╛рдлреА рд╕реБрд╡рд┐рдзрд╛рдЬрдирдХ рдирд╣реАрдВ рдереЗред рдЗрд╕рд▓рд┐рдП, рдЬрдм рдкреНрд░реЛрдЧреНрд░рд╛рдо рдХреЛ рдлрд╝рд╛рдЗрд▓ рдХрд╛ рдирд╛рдо рдорд┐рд▓рд╛, рддреЛ рдЙрд╕рдиреЗ рддреБрд░рдВрдд рдЗрд╕реЗ рдФрд░ рдЕрдзрд┐рдХ рд╕реБрд╡рд┐рдзрд╛рдЬрдирдХ рдореЗрдВ рдмрджрд▓ рджрд┐рдпрд╛ред рдЗрд╕ рдкреНрд░рдХрд╛рд░, рд╕рднреА рдлрд╛рдЗрд▓реЛрдВ рдХреЛ рдлреЙрд░реНрдо рдХрд╛ рдирд╛рдо рдкреНрд░рд╛рдкреНрдд рд╣реБрдЖ: тАЬрдЪрдорддреНрдХрд╛рд░ рдЭреБрдХрддрд╛ рд╣реИред рд╢реНрд░реГрдВрдЦрд▓рд╛ XX тАЭ, XX рдХреА рдмрдЬрд╛рдп - рд╢реНрд░реГрдВрдЦрд▓рд╛ рд╕рдВрдЦреНрдпрд╛ред
рдХрд╛рд░реНрдпрдХреНрд░рдо рдХреЛрдб:
 #! /usr/bin/env python # -*- coding: utf-8 -*- import urllib import lxml.html file_name = u'  .  ' episode = 0 page = urllib.urlopen('http://www.***.ua/view/12345678') doc = lxml.html.document_fromstring(page.read()) for name in doc.cssselect('tr td a'): if name.text == None: continue if not name.text.endswith('.avi'): continue name.text = file_name + str(episode) + name.text[-4:] print name.text.encode('utf8') episode += 1 

рддреЛ, рдкрд╛рдпрдерди 2.6 рджреБрднрд╛рд╖рд┐рдпрд╛ рдХреЗ рд╕рдВрд╕реНрдХрд░рдг рдХреЗ рд░реВрдк рдореЗрдВ, рд╕рд┐рд░рд┐рд▓рд┐рдХ рд╡рд░реНрдгрдорд╛рд▓рд╛ рдХреЗ рд╕рд╛рде рд╕рд╣реА рдХрд╛рдо рдХреЗ рд▓рд┐рдП рдореБрдЭреЗ рдПрдирдХреЛрдб рд╡рд┐рдзрд┐ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рдкрдбрд╝рд╛ред рдПрдХрддреНрд░ рдХрд┐рдП рдЧрдП рдбреЗрдЯрд╛ рдХреЛ рдПрдХ рдлрд╝рд╛рдЗрд▓ рдореЗрдВ рднреА рд╕рд╣реЗрдЬрд╛ рдЧрдпрд╛ рдерд╛ред
рджреЛрдиреЛрдВ рдХрд╛рд░реНрдпрдХреНрд░рдореЛрдВ рдХреЗ рдХрд╛рдо рдХреЗ рдмрд╛рдж, рд╣рд╛рд░реНрдб рдбрд┐рд╕реНрдХ рдкрд░ рджреЛ рдкрд╛рда рдлрд╛рдЗрд▓реЗрдВ рдереАрдВред рдПрдХ рдореЗрдВ, рдлрд╝рд╛рдЗрд▓реЛрдВ рдХреЛ рдбрд╛рдЙрдирд▓реЛрдб рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд▓рд┐рдВрдХ рд╕рдВрдЧреНрд░рд╣реАрдд рдХрд┐рдП рдЧрдП рдереЗ, рдФрд░ рджреВрд╕рд░реЗ рдореЗрдВ, рд╢реНрд░реГрдВрдЦрд▓рд╛ рдХреЗ рдирд╛рдоред
рдореИрдВрдиреЗ рд▓рд┐рдВрдХ рдФрд░ рдлрд╝рд╛рдЗрд▓ рдирд╛рдо рдЬреЛрдбрд╝рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рд╢рдмреНрджрдХреЛрд╢ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ред рд▓рд┐рдВрдХ рдХреБрдВрдЬреА рдереА, рдФрд░ рдлрд╝рд╛рдЗрд▓ рдХрд╛ рдирд╛рдо рдХреБрдВрдЬреА рдореВрд▓реНрдп рдореЗрдВ рд╕рдВрдЧреНрд░рд╣реАрдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред рдЙрд╕рдХреЗ рдмрд╛рдж, рдХреЗрд╡рд▓ рдХреБрдВрдЬреА рд▓реЗрдирд╛ рдЖрд╡рд╢реНрдпрдХ рдерд╛, рдЗрд╕реЗ рдХреЙрд▓рд┐рдВрдЧ рдлрд╝рдВрдХреНрд╢рди рдореЗрдВ рд╕реНрдерд╛рдирд╛рдкрдиреНрди рдХрд░реЗрдВ рдФрд░ рд╕рд╣реЗрдЬрдиреЗ рдХреЗ рд▓рд┐рдП рд╕реНрдерд╛рди, рдлрд╝рд╛рдЗрд▓ рдирд╛рдо рдЗрдВрдЧрд┐рдд рдХрд░реЗрдВред
рдЗрди рдХрд╛рд░реНрдпреЛрдВ рдХреЛ рдХрд░рдиреЗ рд╡рд╛рд▓рд╛ рдХреЛрдб:
 #! usr/bin/env python # -*- coding: utf-8 -*- import urllib links = open('link','r') names = open('file_name', 'r') download = {} path = '/media/6A9F550C59BC1824/TaleSpin/' url = 'http://www.***.ua/load/12345678' loadf = [] download = dict(zip(links, names)) for link in download.iterkeys(): name = download[link].rstrip() if name not in loadf: urllib.urlretrieve(link,path+name) loadf.append(name) else: continue 

рдЗрд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдПрдХ рд╕реВрдЪреА рднреА рд╣реИ рдЬрд┐рд╕рдореЗрдВ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдХреЗ рдирд╛рдо рдЬреЛ рдкрд╣рд▓реЗ рд╕реЗ рдбрд╛рдЙрдирд▓реЛрдб рд╣реЛ рдЪреБрдХреЗ рд╣реИрдВ, рджрд░реНрдЬ рдХрд┐рдП рдЬрд╛рддреЗ рд╣реИрдВред рдЗрд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдпрд╣ рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рдХрд┐ рдбрд╛рдЙрдирд▓реЛрдб рдореЗрдВ рд░реБрдХрд╛рд╡рдЯ рдХреЗ рдорд╛рдорд▓реЗ рдореЗрдВ, рд╣рд╛рд░реНрдб рдбрд┐рд╕реНрдХ рдкрд░ рдкрд╣рд▓реЗ рд╕реЗ рдореМрдЬреВрдж рд╢реНрд░реГрдВрдЦрд▓рд╛ рд╕реНрд╡рд┐рдВрдЧ рдирд╣реАрдВ рдХрд░рддреА рд╣реИред

рдирд┐рд╖реНрдХрд░реНрд╖

рдпрджрд┐ рдореИрдВрдиреЗ рдореИрдиреНрдпреБрдЕрд▓ рд░реВрдк рд╕реЗ рдбрд╛рдЙрдирд▓реЛрдб рдмрдЯрди рдкрд░ рдХреНрд▓рд┐рдХ рдХрд┐рдпрд╛ рд╣реИ, рддреЛ рдЗрд╕рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдЗрд╕ рдХреЛрдб рдХреЛ рд▓рд┐рдЦрдиреЗ рдореЗрдВ рдЕрдзрд┐рдХ рд╕рдордп рд▓рдЧ рд╕рдХрддрд╛ рд╣реИред рд▓реЗрдХрд┐рди рдПрдХ рдХрд╛рдордХрд╛рдЬреА рдХрд╛рд░реНрдпрдХреНрд░рдо рдмрд╣реБрдд рдЕрдзрд┐рдХ рдЦреБрд╢реА рд▓рд╛рдпрд╛ред рд╕рд╛рде рд╣реА, рдирдпрд╛ рдЬреНрдЮрд╛рди рднреА рд╣реИред

рд╕рд╛рдордЧреНрд░реА рдХрд╛ рдЗрд╕реНрддреЗрдорд╛рд▓ рдХрд┐рдпрд╛

  1. "LXML" рдпрд╛ рдЖрд╕рд╛рдиреА рд╕реЗ HTML рдХреЛ рдкрд╛рд░реНрд╕ рдХреИрд╕реЗ рдХрд░реЗрдВ
  2. рдЖрдзрд┐рдХрд╛рд░рд┐рдХ рдПрд▓рдПрдХреНрд╕рдПрдордПрд▓ рдкреНрд░рд▓реЗрдЦрди
  3. рдЙрд░рд▓реАрдм рдкреБрд╕реНрддрдХрд╛рд▓рдп рдкреНрд░рд▓реЗрдЦрди
  4. рдкрд╛рдпрдерди рдЯрд┐рдкреНрд╕, рдЯреНрд░рд┐рдХреНрд╕ рдФрд░ рд╣реИрдХреНрд╕ (рднрд╛рдЧ 2)

рдЖрдкрдХрд╛ рдзреНрдпрд╛рди рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдзрдиреНрдпрд╡рд╛рджред
рд╕рд╛рдЗрдЯ рдкрддреЗ рдХреЛ рдЫрд┐рдкрд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рддрд╛рдХрд┐ рд╡рд┐рдЬреНрдЮрд╛рдкрди рди рдорд╛рдирд╛ рдЬрд╛рдПред


Source: https://habr.com/ru/post/In134863/


All Articles