рд╢реБрдн рджреЛрдкрд╣рд░, рдкреНрд░рд┐рдп рдкрд╛рдардХреЛрдВред рдЖрдЬ рдХреА рдкреЛрд╕реНрдЯ рдореЗрдВ, рдореИрдВ
рдкрдВрдбреЛрдВ рдХреЗ рдореЙрдбреНрдпреВрд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реБрдП рдЕрдЬрдЧрд░ рдореЗрдВ рдбреЗрдЯрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдкрд┐рдд рд▓реЗрдЦреЛрдВ рдХреА рдЕрдкрдиреА рд╢реНрд░реГрдВрдЦрд▓рд╛ рдХреЛ рдЬрд╛рд░реА рд░рдЦреВрдВрдЧрд╛ рдФрд░ рдЗрд╕ рдореЙрдбреНрдпреВрд▓ рдХреЛ
рд╕реНрдХрд┐рдЯрд┐рдЯ-рд▓рд░реНрди рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ
рдореЙрдбреНрдпреВрд▓ рдХреЗ рд╕рд╛рде рд╕рдВрдпреЛрдЬрди рдореЗрдВ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреЗ рд╡рд┐рдХрд▓реНрдкреЛрдВ рдореЗрдВ рд╕реЗ рдПрдХ рдХрд╛ рд╡рд░реНрдгрди
рдХрд░реВрдВрдЧрд╛ ред рдЗрд╕ рдмрдВрдбрд▓ рдХрд╛
рдХрд╛рдо рдЯрд╛рдЗрдЯреИрдирд┐рдХ рд╕реЗ рдмрдЪрд╛рдП рдЧрдП
рдХрд╛рд░реНрдп рдХреЗ рдЙрджрд╛рд╣рд░рдг рдкрд░ рджрд┐рдЦрд╛рдпрд╛ рдЬрд╛рдПрдЧрд╛ред рдпрд╣ рдХрд╛рд░реНрдп рдХреЗрд╡рд▓ рдбреЗрдЯрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдФрд░
рдорд╢реАрди рд╕реАрдЦрдиреЗ рдореЗрдВ рд╕рдВрд▓рдЧреНрди рд▓реЛрдЧреЛрдВ рдХреЗ рдмреАрдЪ рдмрд╣реБрдд рд▓реЛрдХрдкреНрд░рд┐рдп рд╣реИред
рд╕рдорд╕реНрдпрд╛ рдХрд╛ рдмрдпрд╛рди
рдЗрд╕рд▓рд┐рдП рдХрд╛рд░реНрдп рдХрд╛ рд╕рд╛рд░ рдПрдХ рдореЙрдбрд▓ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдорд╢реАрди рд╕реАрдЦрдиреЗ рдХреЗ рддрд░реАрдХреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рд╣реИ рдЬреЛ рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХрд░реЗрдЧрд╛ рдХрд┐ рдПрдХ рд╡реНрдпрдХреНрддрд┐ рдХреЛ рдмрдЪрд╛рдпрд╛ рдЬрд╛рдПрдЧрд╛ рдпрд╛ рдирд╣реАрдВред 2 рдлрд╛рдЗрд▓реЗрдВ рдХрд╛рд░реНрдп рд╕реЗ рдЬреБрдбрд╝реА рд╣реИрдВ:
- train.csv - рдПрдХ рдбреЗрдЯрд╛ рд╕реЗрдЯ рдЬрд┐рд╕рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдореЙрдбрд▓ рдмрдирд╛рдпрд╛ рдЬрд╛рдПрдЧрд╛ ( рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗрдЯ )
- test.csv - рдореЙрдбрд▓ рд╕рддреНрдпрд╛рдкрди рдХреЗ рд▓рд┐рдП рдбреЗрдЯрд╛ рд╕реЗрдЯ
рдЬреИрд╕рд╛ рдХрд┐ рдКрдкрд░ рд▓рд┐рдЦрд╛ рдЧрдпрд╛ рдерд╛, рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреЗ рд▓рд┐рдП рдЖрдкрдХреЛ рдкрдВрдбреЛрдВ рдФрд░ рд╕реНрдХрд┐рдЯ-рд▓рд░реНрди рдореЙрдбреНрдпреВрд▓ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛрдЧреАред
рдкрдВрдбреЛрдВ рдХреЗ рд╕рд╛рде
, рд╣рдо рдбреЗрдЯрд╛ рдХрд╛ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░реЗрдВрдЧреЗ, рдФрд░
рд╕реНрдХреЗрд▓реЗрд░рди рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рди рдореЙрдбрд▓ рдХреА рдЧрдгрдирд╛ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░реЗрдВрдЧреЗред рддреЛ, рд╢реБрд░реБрдЖрдд рдХреЗ рд▓рд┐рдП, рдЖрд╡рд╢реНрдпрдХ рдореЙрдбреНрдпреВрд▓ рд▓реЛрдб рдХрд░реЗрдВ:
рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдХреБрдЫ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреА рд╡реНрдпрд╛рдЦреНрдпрд╛ рдХреА рдЧрдИ рд╣реИ:
- рдпрд╛рддреНрд░реА рдЖрдИрдбреА - рдпрд╛рддреНрд░реА рдЖрдИрдбреА
- рдЬреАрд╡рди рд░рдХреНрд╖рд╛ - рд╡рд╣ рдХреНрд╖реЗрддреНрд░ рдЬрд┐рд╕рдореЗрдВ рд╡реНрдпрдХреНрддрд┐ рдХреЛ рдмрдЪрд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ (1) рдпрд╛ рдирд╣реАрдВ (0)
- Pclass - рдЗрд╕рдореЗрдВ рд╕рд╛рдорд╛рдЬрд┐рдХ-рдЖрд░реНрдерд┐рдХ рд╕реНрдерд┐рддрд┐ рд╢рд╛рдорд┐рд▓ рд╣реИ:
- рд▓рдВрдмрд╛
- рдФрд╕рдд
- рдХрдо
- рдирд╛рдо - рдпрд╛рддреНрд░реА рдХрд╛ рдирд╛рдо
- рд▓рд┐рдВрдЧ - рдпрд╛рддреНрд░реА рд▓рд┐рдВрдЧ
- рдЖрдпреБ - рдЖрдпреБ
- SibSp - 2 рдХреНрд░рдо рдХреЗ рдкрддрд┐ (рдкрддрд┐, рдкрддреНрдиреА, рднрд╛рдЗрдпреЛрдВ, рд╕реЗрддрд░рд╛) рдХреА рд╕рдВрдЦреНрдпрд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЬрд╛рдирдХрд╛рд░реА рд╢рд╛рдорд┐рд▓ рд╣реИ
- Parch - 1 рдХреНрд░рдо рдкрд░ рд░рд┐рд╢реНрддреЗрджрд╛рд░реЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЬрд╛рдирдХрд╛рд░реА рд╢рд╛рдорд┐рд▓ рд╣реИ (рдорд╛рдБ, рдкрд┐рддрд╛, рдмрдЪреНрдЪреЗ)
- рдЯрд┐рдХрдЯ - рдЯрд┐рдХрдЯ рдирдВрдмрд░
- рдХрд┐рд░рд╛рдпрд╛ - рдЯрд┐рдХрдЯ рдХреА рдХреАрдордд
- рдХреЗрдмрд┐рди - рдХреЗрдмрд┐рди
- рдЙрднрд╛рд░рд┐рдд - рдмрдВрджрд░рдЧрд╛рд╣ рдХрд╛ рд▓реИрдВрдбрд┐рдВрдЧ
- рд╕реА - рдЪреЗрд░рдмрд░реНрдЧ
- рдХреНрдпреВ - рдХреНрд╡реАрдиреНрд╕рдЯрд╛рдЙрди
- S - рд╕рд╛рдЙрдереИрдореНрдкрдЯрди
рдЗрдирдкреБрдЯ рд╡рд┐рд╢реНрд▓реЗрд╖рдг
> рддреЛ, рдХрд╛рд░реНрдп рдмрдирддрд╛ рд╣реИ рдФрд░ рд╣рдо рдЗрд╕реЗ рд╣рд▓ рдХрд░рдирд╛ рд╢реБрд░реВ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред
рдЖрд░рдВрдн рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдПрдХ рдкрд░реАрдХреНрд╖рдг рдирдореВрдирд╛ рдЕрдкрд▓реЛрдб рдХрд░реЗрдВ рдФрд░ рджреЗрдЦреЗрдВ рдХрд┐ рдпрд╣ рдХреИрд╕рд╛ рджрд┐рдЦрддрд╛ рд╣реИ:
from pandas import read_csv, DataFrame, Series data = read_csv('Kaggle_Titanic/Data/train.csv')
PassengerId | рдмрдЪ рдЧрдпрд╛ | Pclass | рдирд╛рдо | рд▓рд┐рдВрдЧ | рдЖрдпреБ | SibSp | рд╕реВрдЦрдирд╛ | рдЯрд┐рдХрдЯ | рдХрд┐рд░рд╛рдпрд╛ | рдХреЗрдмрд┐рди | рд╢реБрд░реВ |
---|
1 | 0 | 3 | рдмреНрд░реВрдВрдб, рдорд┐ред рдУрд╡реЗрди рд╣реИрд░рд┐рд╕ | рдирд░ | 22 | 1 | 0 | рдП / рел реирезрез /рез | 7.2500 | NaN | рдПрд╕ |
2 | 1 | 1 | рдХрдорд┐рдВрдЧреНрд╕, рд╢реНрд░реАрдорддреАред рдЬреЙрди рдмреНрд░реИрдбрд▓реА (рдлреНрд▓реЛрд░реЗрдВрд╕ рдмреНрд░рд┐рдЧреНрд╕ рде ... | рдорд╣рд┐рд▓рд╛ | 38 | 1 | 0 | рдкреАрд╕реА 17599 | 71.2833 | C85 | рд╕реА |
3 | 1 | 3 | рд╣рд┐рдХрдХрд┐рдирди, рдорд┐рд╕ред Laina | рдорд╣рд┐рд▓рд╛ | 26 | 0 | 0 | рдкрддреНрдерд░ / O2ред 3101282 | 7.9250 | NaN | рдПрд╕ |
4 | 1 | 1 | рдлреНрдпреВрдЯреНрд░реЗрд▓, рд╢реНрд░реАрдорддреАред рдЬреИрдХреНрд╕ рд╣реАрде (рд▓рд┐рд▓реА рдореЗ рдкреАрд▓) | рдорд╣рд┐рд▓рд╛ | 35 | 1 | 0 | 113,803 | 53.1000 | C123 | рдПрд╕ |
5 | 0 | 3 | рдПрд▓рди, рдорд┐ред рд╡рд┐рд▓рд┐рдпрдо рд╣реЗрдирд░реА | рдирд░ | 35 | 0 | 0 | 373,450 | 8.0500 | NaN | рдПрд╕ |
рдпрд╣ рдорд╛рдирд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдХрд┐ рд╕рд╛рдорд╛рдЬрд┐рдХ рд╕реНрдерд┐рддрд┐ рдЬрд┐рддрдиреА рдЕрдзрд┐рдХ рд╣реЛрдЧреА, рдореБрдХреНрддрд┐ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдЙрддрдиреА рд╣реА рдЕрдзрд┐рдХ рд╣реЛрдЧреАред рдЖрдЗрдП рдЬреАрд╡рд┐рдд рд░рд╣рдиреЗ рд╡рд╛рд▓реЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХреЛ рджреЗрдЦрддреЗ рд╣реБрдП рдФрд░ рдХрдХреНрд╖рд╛рдУрдВ рдХреЗ рдЯреВрдЯрдиреЗ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдбреВрдм рдЧрдПред рдРрд╕рд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рд╕рд╛рд░рд╛рдВрд╢ рдмрдирд╛рдПрдБ:
data.pivot_table('PassengerId', 'Pclass', 'Survived', 'count').plot(kind='bar', stacked=True)

рд╣рдорд╛рд░реА рдЙрдкрд░реЛрдХреНрдд рдзрд╛рд░рдгрд╛ рдпрд╣ рд╣реИ рдХрд┐ рдпрд╛рддреНрд░рд┐рдпреЛрдВ рдХреА рд╕рд╛рдорд╛рдЬрд┐рдХ рд╕реНрдерд┐рддрд┐ рдЬрд┐рддрдиреА рдЕрдзрд┐рдХ рд╣реЛрдЧреА, рдЙрдирдХреА рдореБрдХреНрддрд┐ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдЙрддрдиреА рд╣реА рдЕрдзрд┐рдХ рд╣реЛрдЧреАред рдЕрдм рдЖрдЗрдП рдПрдХ рдирдЬрд╝рд░ рдбрд╛рд▓рддреЗ рд╣реИрдВ рдХрд┐ рд░рд┐рд╢реНрддреЗрджрд╛рд░реЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдореЛрдХреНрд╖ рдХреЗ рддрдереНрдп рдХреЛ рдХреИрд╕реЗ рдкреНрд░рднрд╛рд╡рд┐рдд рдХрд░рддреА рд╣реИ:
fig, axes = plt.subplots(ncols=2) data.pivot_table('PassengerId', ['SibSp'], 'Survived', 'count').plot(ax=axes[0], title='SibSp') data.pivot_table('PassengerId', ['Parch'], 'Survived', 'count').plot(ax=axes[1], title='Parch')

рдЬреИрд╕рд╛ рдХрд┐ рд░реЗрдЦрд╛рдВрдХрди рд╕реЗ рджреЗрдЦрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рд╣рдорд╛рд░реА рдзрд╛рд░рдгрд╛ рдлрд┐рд░ рд╕реЗ рдкреБрд╖реНрдЯрд┐ рдХреА рдЧрдИ рдереА, рдФрд░ рдХрдИ рд▓реЛрдЧреЛрдВ рдХреЛ 1 рд╕реЗ рдЕрдзрд┐рдХ рд░рд┐рд╢реНрддреЗрджрд╛рд░реЛрдВ рд╕реЗ рдирд╣реАрдВ рдмрдЪрд╛рдпрд╛ рдЧрдпрд╛ рдерд╛ред
рдЕрдм рд╣рдо рдбреЗрдЯрд╛ рдХреЗ рд▓рд┐рдП рдЪрд░реНрдЪрд╛ рдХрд░реЗрдВрдЧреЗ, рдЬреЛ рдХрд┐ рдХреЗрдмрд┐рдиреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рд╣реИрдВред рд╕реИрджреНрдзрд╛рдВрддрд┐рдХ рд░реВрдк рд╕реЗ, рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдХреЗрдмрд┐рди рдкрд░ рдбреЗрдЯрд╛ рдирд╣реАрдВ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ, рддреЛ рдЖрдЗрдП рджреЗрдЦреЗрдВ рдХрд┐ рдпрд╣ рдХреНрд╖реЗрддреНрд░ рдХрд┐рддрдирд╛ рднрд░рд╛ рд╣реБрдЖ рд╣реИ:
data.PassengerId[data.Cabin.notnull()].count()
рдирддреАрдЬрддрди, рдХреБрд▓ 204 рдкреНрд░рд╡рд┐рд╖реНрдЯрд┐рдпрд╛рдВ рдФрд░ 890 рднрд░реА рдЧрдИрдВ, рдЗрд╕рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рд╣рдо рдпрд╣ рдирд┐рд╖реНрдХрд░реНрд╖ рдирд┐рдХрд╛рд▓ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдЗрд╕ рдХреНрд╖реЗрддреНрд░ рдХреЛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЫреЛрдбрд╝рд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред
рдЕрдЧрд▓рд╛ рдХреНрд╖реЗрддреНрд░ рдЬрд┐рд╕рдХрд╛ рд╣рдо рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░реЗрдВрдЧреЗ рд╡рд╣ рдЖрдпреБ рд╡рд╛рд▓рд╛ рдХреНрд╖реЗрддреНрд░ рд╣реЛрдЧрд╛ред рдЖрдЗрдП рджреЗрдЦреЗрдВ рдХрд┐ рдпрд╣ рдХрд┐рддрдирд╛ рднрд░рд╛ рд╣реИ:
data.PassengerId[data.Age.notnull()].count()
рдпрд╣ рдлрд╝реАрд▓реНрдб рд▓рдЧрднрдЧ рдкреВрд░реНрдг (714 рдЧреИрд░-рд░рд┐рдХреНрдд рдкреНрд░рд╡рд┐рд╖реНрдЯрд┐рдпрд╛рдБ) рд╣реИ, рд▓реЗрдХрд┐рди рдРрд╕реЗ рд░рд┐рдХреНрдд рдорд╛рди рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдирд╣реАрдВ рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдЖрдЗрдП рдЗрд╕реЗ рдкреВрд░реЗ рдирдореВрдиреЗ рдХреА рдЙрдореНрд░ рддрдХ рдорд╛рдзреНрдпрд┐рдХрд╛ рдХреЗ рдмрд░рд╛рдмрд░ рдорд╛рди рджреЗрдВред рдореЙрдбрд▓ рдХреЛ рдФрд░ рдЕрдзрд┐рдХ рд╕рдЯреАрдХ рд░реВрдк рд╕реЗ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдЗрд╕ рдХрджрдо рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ:
data.Age = data.Age.median()
рд╣рдореЗрдВ рдлреАрд▓реНрдб
рдЯрд┐рдХрдЯ ,
рдПрдореНрдмреНрд░реНрдбреЗрдб ,
рдлреЗрдпрд░ ,
рдирд╛рдо рд╕реЗ рдирд┐рдкрдЯрдирд╛ рд╣реЛрдЧрд╛ ред рдЖрдЗрдП рдПрдореНрдмрд╛рд░реНрдХреЗрдб рдлрд╝реАрд▓реНрдб рдХреЛ рджреЗрдЦреЗрдВ, рдЬрд╣рд╛рдВ рдПрдореНрдмрд╛рд░реНрдХреЗрд╢рди рдХрд╛ рдкреЛрд░реНрдЯ рд╕реНрдерд┐рдд рд╣реИ рдФрд░ рдЬрд╛рдВрдЪреЗрдВ рдХрд┐ рдХреНрдпрд╛ рдХреЛрдИ рдпрд╛рддреНрд░реА рд╣реИ рдЬрд┐рд╕рдХрд╛ рдкреЛрд░реНрдЯ рдирд┐рд░реНрджрд┐рд╖реНрдЯ рдирд╣реАрдВ рд╣реИ:
data[data.Embarked.isnull()]
PassengerId | рдмрдЪ рдЧрдпрд╛ | Pclass | рдирд╛рдо | рд▓рд┐рдВрдЧ | рдЖрдпреБ | SibSp | рд╕реВрдЦрдирд╛ | рдЯрд┐рдХрдЯ | рдХрд┐рд░рд╛рдпрд╛ | рдХреЗрдмрд┐рди | рд╢реБрд░реВ |
---|
62 | 1 | 1 | рдЖрдИрдХрд╛рд░реНрдб, рдорд┐рд╕ред рдПрдореАрд▓реА | рдорд╣рд┐рд▓рд╛ | 28 | 0 | 0 | 113,572 | 80 | B28 | NaN |
830 | 1 | 1 | рдкрддреНрдерд░, рд╢реНрд░реАрдорддреАред рдЬреЙрд░реНрдЬ рдиреЗрд▓реНрд╕рди (рдорд╛рд░реНрдерд╛ рдПрд╡рд▓рд┐рди) | рдорд╣рд┐рд▓рд╛ | 28 | 0 | 0 | 113,572 | 80 | B28 | NaN |
рддреЛ рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдРрд╕реЗ 2 рдпрд╛рддреНрд░реА рдереЗред рдЖрдЗрдП рдЗрди рдпрд╛рддреНрд░рд┐рдпреЛрдВ рдХреЛ рдЙрд╕ рдмрдВрджрд░рдЧрд╛рд╣ рдХреЛ рд╕реМрдВрдкреЗрдВ рдЬрд┐рд╕рдореЗрдВ рдЧрд╛рдБрд╡ рдХреЗ рд▓реЛрдЧ рд╕рдмрд╕реЗ рдЕрдзрд┐рдХ рд╣реИрдВ:
MaxPassEmbarked = data.groupby('Embarked').count()['PassengerId'] data.Embarked[data.Embarked.isnull()] = MaxPassEmbarked[MaxPassEmbarked == MaxPassEmbarked.max()].index[0]
рдЦреИрд░, рд╣рдордиреЗ рдПрдХ рдФрд░ рдХреНрд╖реЗрддреНрд░ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдпрд╛ рдФрд░ рдЕрдм рднреА рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдпрд╛рддреНрд░реА рдХреЗ рдирд╛рдо, рдЯрд┐рдХрдЯ рд╕рдВрдЦреНрдпрд╛ рдФрд░ рдЯрд┐рдХрдЯ рдХреА рдХреАрдордд рдХреЗ рд╕рд╛рде рдХреНрд╖реЗрддреНрд░ рд╣реИрдВред
рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ, рд╣рдореЗрдВ рдЗрди рддреАрди рдХреНрд╖реЗрддреНрд░реЛрдВ рд╕реЗ рдХреЗрд╡рд▓ рдХреАрдордд (
рдХрд┐рд░рд╛рдпрд╛ ) рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рдХреБрдЫ рд╣рдж рддрдХ, рд╣рдо
рдкрдХреНрд▓рд╛рд╕ рдХреНрд╖реЗрддреНрд░ рдХреА рдХрдХреНрд╖рд╛рдУрдВ рдХреЗ рдЕрдВрджрд░ рд░реИрдВрдХрд┐рдВрдЧ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░рддреЗ рд╣реИрдВред рдЕрд░реНрдерд╛рддреН, рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдордзреНрдпрдо рд╡рд░реНрдЧ рдХреЗ рд▓реЛрдЧреЛрдВ рдХреЛ рдЙрди рд▓реЛрдЧреЛрдВ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдЬреЛ рдкрд╣рд▓реЗ (рдЙрдЪреНрдЪ) рд╡рд░реНрдЧ рдХреЗ рдХрд░реАрдм рд╣реИрдВ, рдФрд░ рдЬреЛ рддреАрд╕рд░реЗ (рдХрдо) рдХреЗ рдХрд░реАрдм рд╣реИрдВред рд╣рдо рдЦрд╛рд▓реА рдорд╛рдиреЛрдВ рдХреЗ рд▓рд┐рдП рдЗрд╕ рдХреНрд╖реЗрддреНрд░ рдХреА рдЬрд╛рдБрдЪ рдХрд░реЗрдВрдЧреЗ рдФрд░ рдпрджрд┐ рдХреЛрдИ рд╣реЛ, рддреЛ рдореВрд▓реНрдп рдХреЛ рд╕рднреА рдирдореВрдиреЛрдВ рд╕реЗ рдХреАрдордд рдХреЗ рдорд╛рдзреНрдпрд┐рдХрд╛ рд╕реЗ рдмрджрд▓реЗрдВ:
data.PassengerId[data.Fare.isnull()]
рд╣рдорд╛рд░реЗ рдорд╛рдорд▓реЗ рдореЗрдВ, рдХреЛрдИ рд░рд┐рдХреНрдд рдкреНрд░рд╡рд┐рд╖реНрдЯрд┐рдпрд╛рдБ рдирд╣реАрдВ рд╣реИрдВред
рдмрджрд▓реЗ рдореЗрдВ, рдЯрд┐рдХрдЯ рд╕рдВрдЦреНрдпрд╛ рдФрд░ рдпрд╛рддреНрд░реА рдХрд╛ рдирд╛рдо рд╣рдорд╛рд░реА рдорджрдж рдирд╣реАрдВ рдХрд░реЗрдЧрд╛, рдХреНрдпреЛрдВрдХрд┐ рдпрд╣ рд╕рд┐рд░реНрдл рд╕рдВрджрд░реНрдн рдЬрд╛рдирдХрд╛рд░реА рд╣реИред рдПрдХрдорд╛рддреНрд░ рдХрд╛рд░рдг рд╡реЗ рдХрд╛рдо рдореЗрдВ рдЖ рд╕рдХрддреЗ рд╣реИрдВ рдпрд╣ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐ рдХреМрди рд╕реЗ рдпрд╛рддреНрд░реА рд╕рдВрднрд╛рд╡рд┐рдд рд░рд┐рд╢реНрддреЗрджрд╛рд░ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдЪреВрдВрдХрд┐ рдЬрд┐рди рд▓реЛрдЧреЛрдВ рдХреЗ рд░рд┐рд╢реНрддреЗрджрд╛рд░ рд╣реИрдВ рд╡реЗ рд╢рд╛рдпрдж рд╣реА рдЬреАрд╡рд┐рдд рд░рд╣рддреЗ рд╣реИрдВ (рдЬреИрд╕рд╛ рдХрд┐ рдКрдкрд░ рджрд┐рдЦрд╛рдпрд╛ рдЧрдпрд╛ рд╣реИ), рдЗрди рдЖрдВрдХрдбрд╝реЛрдВ рдХреА рдЙрдкреЗрдХреНрд╖рд╛ рдХреА рдЬрд╛ рд╕рдХрддреА рд╣реИред
рдЕрдм, рд╕рднреА рдЕрдирд╛рд╡рд╢реНрдпрдХ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рд╣рдЯрд╛рдиреЗ рдХреЗ рдмрд╛рдж, рд╣рдорд╛рд░рд╛ рд╕реЗрдЯ рдЗрд╕ рддрд░рд╣ рджрд┐рдЦрддрд╛ рд╣реИ:
data = data.drop(['PassengerId','Name','Ticket','Cabin'],axis=1)
рдмрдЪ рдЧрдпрд╛ | Pclass | рд▓рд┐рдВрдЧ | рдЖрдпреБ | SibSp | рд╕реВрдЦрдирд╛ | рдХрд┐рд░рд╛рдпрд╛ | рд╢реБрд░реВ |
---|
0 | 3 | рдирд░ | 28 | 1 | 0 | 7.2500 | рдПрд╕ |
1 | 1 | рдорд╣рд┐рд▓рд╛ | 28 | 1 | 0 | 71.2833 | рд╕реА |
1 | 3 | рдорд╣рд┐рд▓рд╛ | 28 | 0 | 0 | 7.9250 | рдПрд╕ |
1 | 1 | рдорд╣рд┐рд▓рд╛ | 28 | 1 | 0 | 53.1000 | рдПрд╕ |
0 | 3 | рдирд░ | 28 | 0 | 0 | 8.0500 | рдПрд╕ |
рдЗрдирдкреБрдЯ рдкреНрд░реАрдкреНрд░реЛрд╕реЗрд╕рд┐рдВрдЧ
рдбреЗрдЯрд╛ рдХрд╛ рдПрдХ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдкреВрд░рд╛ рд╣реЛ рдЧрдпрд╛ рд╣реИ, рдФрд░ рдЗрд╕рдХреЗ рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреЗ рдЕрдиреБрд╕рд╛рд░, рд╣рдореЗрдВ рдПрдХ рдирд┐рд╢реНрдЪрд┐рдд рдирдореВрдирд╛ рдорд┐рд▓рд╛ рд╣реИ рдЬрд┐рд╕рдореЗрдВ рдХрдИ рдлрд╝реАрд▓реНрдб рд╢рд╛рдорд┐рд▓ рд╣реИрдВ рдФрд░ рдРрд╕рд╛ рдкреНрд░рддреАрдд рд╣реЛрддрд╛ рд╣реИ рдХрд┐ рд╣рдо рдПрдХ рдореЙрдбрд▓ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдЖрдЧреЗ рдмрдврд╝ рд╕рдХрддреЗ рд╣реИрдВ рдпрджрд┐ рдПрдХ "рд▓реЗрдХрд┐рди" рдирд╣реАрдВ: рд╣рдорд╛рд░реЗ рдбреЗрдЯрд╛ рдореЗрдВ рди рдХреЗрд╡рд▓ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ, рдмрд▓реНрдХрд┐ рд╢рд╛рдмреНрджрд┐рдХ рдбреЗрдЯрд╛ рднреА рд╢рд╛рдорд┐рд▓ рд╣реИред
рдЗрд╕рд▓рд┐рдП, рдПрдХ рдореЙрдбрд▓ рдмрдирд╛рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ, рдЖрдкрдХреЛ рд╣рдорд╛рд░реЗ рд╕рднреА рдкрд╛рда рдорд╛рдиреЛрдВ рдХреЛ рдПрдирдХреЛрдб рдХрд░рдирд╛ рд╣реЛрдЧрд╛ред
рдЖрдк рдЗрд╕реЗ рдореИрдиреНрдпреБрдЕрд▓ рд░реВрдк рд╕реЗ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ, рдпрд╛ рдЖрдк
sklearn.preprocessing рдореЙрдбреНрдпреВрд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рджреВрд╕рд░реЗ рд╡рд┐рдХрд▓реНрдк рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред
рдЖрдк
рд▓реЗрдмрд▓рдЗрдиреНрдХреЛрдбрд░ () рдСрдмреНрдЬреЗрдХреНрдЯ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдирд┐рд╢реНрдЪрд┐рдд рдорд╛рди рдХреЗ рд╕рд╛рде рдПрдХ рд╕реВрдЪреА рдХреЛ рдПрдиреНрдХреЛрдб рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рдЗрд╕ рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рд╕рд╛рд░ рдпрд╣ рд╣реИ рдХрд┐ рдЗрдирдкреБрдЯ рдкрд░ рдпрд╣ рдЙрди рдорд╛рдиреЛрдВ рдХреА рдПрдХ рд╕реВрдЪреА рдкреНрд░рд╛рдкреНрдд рдХрд░рддрд╛ рд╣реИ рдЬрд┐рдиреНрд╣реЗрдВ рдПрдиреНрдХреЛрдб рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдП, рдЖрдЙрдЯрдкреБрдЯ рдкрд░ рдЙрди рд╡рд░реНрдЧреЛрдВ рдХреА рдПрдХ рд╕реВрдЪреА рд╣реИ рдЬрд┐рдирдХреЗ рд╕реВрдЪрдХрд╛рдВрдХ рдЗрдирдкреБрдЯ рдХреЛ рдЖрдкреВрд░реНрддрд┐ рдХреА рдЧрдИ рд╕реВрдЪреА рдХреЗ рддрддреНрд╡реЛрдВ рдХреЗ рдХреЛрдб рд╣реИрдВред
from sklearn.preprocessing import LabelEncoder label = LabelEncoder() dicts = {} label.fit(data.Sex.drop_duplicates())
рдкрд░рд┐рдгрд╛рдорд╕реНрд╡рд░реВрдк, рд╣рдорд╛рд░рд╛ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдбреЗрдЯрд╛ рдЗрд╕ рддрд░рд╣ рджрд┐рдЦрд╛рдИ рджреЗрдЧрд╛:
рдмрдЪ рдЧрдпрд╛ | Pclass | рд▓рд┐рдВрдЧ | рдЖрдпреБ | SibSp | рд╕реВрдЦрдирд╛ | рдХрд┐рд░рд╛рдпрд╛ | рд╢реБрд░реВ |
---|
0 | 3 | 1 | 28 | 1 | 0 | 7.2500 | 2 |
1 | 1 | 0 | 28 | 1 | 0 | 71.2833 | 0 |
1 | 3 | 0 | 28 | 0 | 0 | 7.9250 | 2 |
1 | 1 | 0 | 28 | 1 | 0 | 53.1000 | 2 |
0 | 3 | 1 | 28 | 0 | 0 | 8.0500 | 2 |
рдЕрдм рд╣рдореЗрдВ рд╡реЗрд░рд┐рдлрд┐рдХреЗрд╢рди рдлрд╛рдЗрд▓ рдХреЛ рдЙрд╕ рдлреЙрд░реНрдо рдореЗрдВ рд▓рд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдХреЛрдб рд▓рд┐рдЦрдирд╛ рд╣реЛрдЧрд╛ рдЬреЛ рд╣рдореЗрдВ рдЪрд╛рд╣рд┐рдПред рдРрд╕рд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдЖрдк рдмрд╕ рдКрдкрд░ рджрд┐рдП рдЧрдП рдХреЛрдб рдХреЗ рдЯреБрдХрдбрд╝реЛрдВ рдХреЛ рдХреЙрдкреА рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ (рдпрд╛ рдЗрдирдкреБрдЯ рдлрд╝рд╛рдЗрд▓ рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдлрд╝рдВрдХреНрд╢рди рд▓рд┐рдЦреЗрдВ):
test = read_csv('Kaggle_Titanic/Data/test.csv') test.Age[test.Age.isnull()] = test.Age.mean() test.Fare[test.Fare.isnull()] = test.Fare.median()
рдКрдкрд░ рд╡рд░реНрдгрд┐рдд рдХреЛрдб рд▓рдЧрднрдЧ рд╡рд╣реА рд╕рдВрдЪрд╛рд▓рди рдХрд░рддрд╛ рд╣реИ рдЬреЛ рд╣рдордиреЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдирдореВрдиреЗ рдХреЗ рд╕рд╛рде рдХрд┐рдпрд╛ рдерд╛ред рдЕрдВрддрд░ рдпрд╣ рд╣реИ рдХрд┐
рдлреЗрдпрд░ рдлреАрд▓реНрдб рдХреЛ рдкреНрд░реЛрд╕реЗрд╕ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рд▓рд╛рдЗрди рдЬреЛрдбрд╝реА рдЧрдИ рд╣реИ, рдЕрдЧрд░ рдпрд╣ рдЕрдЪрд╛рдирдХ рдирд╣реАрдВ рднрд░реА рдЬрд╛рддреА рд╣реИред
Pclass | рд▓рд┐рдВрдЧ | рдЖрдпреБ | SibSp | рд╕реВрдЦрдирд╛ | рдХрд┐рд░рд╛рдпрд╛ | рд╢реБрд░реВ |
---|
3 | 1 | 34.5 | 0 | 0 | 7.8292 | 1 |
3 | 0 | 47.0 | 1 | 0 | 7.0000 | 2 |
2 | 1 | 62.0 | 0 | 0 | 9.6875 | 1 |
3 | 1 | 27.0 | 0 | 0 | 8.6625 | 2 |
3 | 0 | 22.0 | 1 | 1 | 12.2875 | 2 |
рд╡рд░реНрдЧреАрдХрд░рдг рдореЙрдбрд▓ рдФрд░ рдЙрдирдХреЗ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд╛ рдирд┐рд░реНрдорд╛рдг
рдареАрдХ рд╣реИ, рдбреЗрдЯрд╛ рд╕рдВрд╕рд╛рдзрд┐рдд рд╣реИ рдФрд░ рдЖрдк рдореЙрдбрд▓ рдХрд╛ рдирд┐рд░реНрдорд╛рдг рд╢реБрд░реВ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдкрд╣рд▓реЗ рдЖрдкрдХреЛ рдпрд╣ рддрдп рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ рдХрд┐ рд╣рдо рдкрд░рд┐рдгрд╛рдореА рдореЙрдбрд▓ рдХреА рд╕рдЯреАрдХрддрд╛ рдХреА рдЬрд╛рдВрдЪ рдХреИрд╕реЗ рдХрд░реЗрдВрдЧреЗред рдЗрд╕ рдкрд░реАрдХреНрд╖рдг рдХреЗ рд▓рд┐рдП, рд╣рдо
рд╕реНрд▓рд╛рдЗрдбрд┐рдВрдЧ рдирд┐рдпрдВрддреНрд░рдг рдФрд░
рдЖрд░рдУрд╕реА рдШрдЯрддрд╛ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВрдЧреЗред рд╣рдо рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдирдореВрдиреЗ рдкрд░ рд╕рддреНрдпрд╛рдкрди рдХрд░реЗрдВрдЧреЗ, рдЬрд┐рд╕рдХреЗ рдмрд╛рдж рд╣рдо рдЗрд╕реЗ рдкрд░реАрдХреНрд╖рдг рдПрдХ рдкрд░ рд▓рд╛рдЧреВ рдХрд░реЗрдВрдЧреЗред
рддреЛ, рдЖрдЗрдП рдХреБрдЫ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдПрд▓реНрдЧреЛрд░рд┐рджрдо рдХреЛ рджреЗрдЦреЗрдВ:
рд╣рдореЗрдВ рдЬрд┐рди рдкреБрд╕реНрддрдХрд╛рд▓рдпреЛрдВ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ, рдЙрдиреНрд╣реЗрдВ рдбрд╛рдЙрдирд▓реЛрдб рдХрд░реЗрдВ:
from sklearn import cross_validation, svm from sklearn.neighbors import KNeighborsClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.linear_model import LogisticRegression from sklearn.metrics import roc_curve, auc import pylab as pl
рд╢реБрд░реВ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рд╣рдорд╛рд░реЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдирдореВрдиреЗ рдХреЛ рдЙрд╕ рд╕рдВрдХреЗрддрдХ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИ рдЬрд┐рд╕реЗ рд╣рдо рдЬрд╛рдВрдЪ рдХрд░ рд░рд╣реЗ рд╣реИрдВ, рдФрд░ рдЗрд╕рдХреЗ рдкрд░рд┐рднрд╛рд╖рд┐рдд рд╕рдВрдХреЗрдд:
target = data.Survived train = data.drop(['Survived'], axis=1)
рдЕрдм рд╣рдорд╛рд░рд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗрдЯ рдЗрд╕ рддрд░рд╣ рджрд┐рдЦрддрд╛ рд╣реИ:
Pclass | рд▓рд┐рдВрдЧ | рдЖрдпреБ | SibSp | рд╕реВрдЦрдирд╛ | рдХрд┐рд░рд╛рдпрд╛ | рд╢реБрд░реВ |
---|
3 | 1 | 28 | 1 | 0 | 7.2500 | 2 |
1 | 0 | 28 | 1 | 0 | 71.2833 | 0 |
3 | 0 | 28 | 0 | 0 | 7.9250 | 2 |
1 | 0 | 28 | 1 | 0 | 53.1000 | 2 |
3 | 1 | 28 | 0 | 0 | 8.0500 | 2 |
рдЕрдм рд╣рдо ROC рдШрдЯрддрд╛ рдХреА рдЧрдгрдирд╛ рдХреЗ рд▓рд┐рдП рдкрд╣рд▓реЗ рдкреНрд░рд╛рдкреНрдд рдХрд┐рдП рдЧрдП рд╕рдВрдХреЗрддрдХреЛрдВ рдХреЛ 2 рдЙрдк-рд╡рд░реНрдЧреЛрдВ (рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдФрд░ рдкрд░реАрдХреНрд╖рдг) рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░реЗрдВрдЧреЗ (рдЖрдкрдХреЛ рд░реЛрд▓рд┐рдВрдЧ рдирд┐рдпрдВрддреНрд░рдг рдХреЗ рд▓рд┐рдП рдРрд╕рд╛ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рд╕рддреНрдпрд╛рдкрди рдХрд╛рд░реНрдп рдпрд╣ рд╕реНрд╡рдпрдВ рдХрд░рддрд╛ рд╣реИред
cross_validation рдореЙрдбреНрдпреВрд▓ рдХрд╛
train_test_split рдлрд╝рдВрдХреНрд╢рди рд╣рдореЗрдВ рдЗрд╕рдореЗрдВ рдорджрдж рдХрд░реЗрдЧрд╛:
ROCtrainTRN, ROCtestTRN, ROCtrainTRG, ROCtestTRG = cross_validation.train_test_split(train, target, test_size=0.25)
рдЗрд╕рдХреЗ рд▓рд┐рдП рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдкреИрд░рд╛рдореАрдЯрд░ рджрд┐рдП рдЧрдП рд╣реИрдВ:
- рдорд╛рдкрджрдВрдбреЛрдВ рдХрд╛ рд╕рд░рдгреА
- рд╕реВрдЪрдХ рдореВрд▓реНрдпреЛрдВ рдХреА рд╕рд░рдгреА
- рдЬрд┐рд╕ рдЕрдиреБрдкрд╛рдд рдореЗрдВ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдирдореВрдирд╛ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рдПрдЧрд╛ (рд╣рдорд╛рд░реЗ рдорд╛рдорд▓реЗ рдореЗрдВ, рдкрд░реАрдХреНрд╖рдг рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рд▓рд┐рдП рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдирдореВрдиреЗ рдХрд╛ 1/4 рдбреЗрдЯрд╛ рдЖрд╡рдВрдЯрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рдПрдЧрд╛)
рдЖрдЙрдЯрдкреБрдЯ рдкрд░, рдлрд╝рдВрдХреНрд╢рди 4 рд╕рд░рдгрд┐рдпрд╛рдБ рджреЗрддрд╛ рд╣реИ:
- рдирдпрд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдкреИрд░рд╛рдореАрдЯрд░ рд╕рд░рдгреА
- рдорд╛рдкрджрдВрдбреЛрдВ рдХрд╛ рдкрд░реАрдХреНрд╖рдг рд╕рд░рдгреА
- рд╕рдВрдХреЗрддрдХ рдХреЗ рдирдП рд╕рд░рдгреА
- рд╕рдВрдХреЗрддрдХреЛрдВ рдХрд╛ рдкрд░реАрдХреНрд╖рдг рд╕рд░рдгреА
рдкреНрд░рдпреЛрдЧрд╛рддреНрдордХ рд░реВрдк рд╕реЗ рдЪрдпрдирд┐рдд рд╕рд░реНрд╡реЛрддреНрддрдо рдорд╛рдкрджрдВрдбреЛрдВ рдХреЗ рд╕рд╛рде рд╕реВрдЪреАрдмрджреНрдз рддрд░реАрдХреЗ рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рд╣реИрдВ:
model_rfc = RandomForestClassifier(n_estimators = 70)
рдЕрдм рд╣рдо рд╕реНрд▓рд╛рдЗрдбрд┐рдВрдЧ рдирд┐рдпрдВрддреНрд░рдг рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдкреНрд░рд╛рдкреНрдд рдореЙрдбрд▓ рдХреА рдЬрд╛рдВрдЪ рдХрд░реЗрдВрдЧреЗред рдРрд╕рд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рд╣рдореЗрдВ cross_val_score рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ
scores = cross_validation.cross_val_score(model_rfc, train, target, cv = kfold) itog_val['RandomForestClassifier'] = scores.mean() scores = cross_validation.cross_val_score(model_knc, train, target, cv = kfold) itog_val['KNeighborsClassifier'] = scores.mean() scores = cross_validation.cross_val_score(model_lr, train, target, cv = kfold) itog_val['LogisticRegression'] = scores.mean() scores = cross_validation.cross_val_score(model_svc, train, target, cv = kfold) itog_val['SVC'] = scores.mean()
рдЖрдЗрдП рдкреНрд░рддреНрдпреЗрдХ рдореЙрдбрд▓ рдХреЗ рдФрд╕рдд рдХреНрд░реЙрд╕-рд╕рддреНрдпрд╛рдкрди рдкрд░реАрдХреНрд╖рдг рд╕реНрдХреЛрд░ рдХреЗ рдЧреНрд░рд╛рдл рдХреЛ рджреЗрдЦреЗрдВ:
DataFrame.from_dict(data = itog_val, orient='index').plot(kind='bar', legend=False)

рдЬреИрд╕рд╛ рдХрд┐ рдЖрдк рдЧреНрд░рд╛рдл рд╕реЗ рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ, RandomForest рдПрд▓реНрдЧреЛрд░рд┐рдереНрдо рдиреЗ рдЦреБрдж рдХреЛ рд╕рдмрд╕реЗ рдЕрдЪреНрдЫрд╛ рджрд┐рдЦрд╛рдпрд╛ред рдЕрдм рдХреНрд▓рд╛рд╕реАрдлрд╛рдпрд░ рдХреА рд╕рдЯреАрдХрддрд╛ рдХрд╛ рдЖрдХрд▓рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЖрд░рдУрд╕реА-рдХрд░реНрд╡реНрд╕ рдХреЗ рдЧреНрд░рд╛рдл рдкрд░ рдПрдХ рдирдЬрд░ рдбрд╛рд▓рддреЗ рд╣реИрдВред рд╣рдо
matplotlib рд▓рд╛рдЗрдмреНрд░реЗрд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реБрдП рдЧреНрд░рд╛рдл
рдЦреАрдВрдЪреЗрдВрдЧреЗ :
pl.clf() plt.figure(figsize=(8,6))

рдЬреИрд╕рд╛ рдХрд┐ рдЖрд░рдУрд╕реА рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреЗ рдкрд░рд┐рдгрд╛рдореЛрдВ рд╕реЗ рджреЗрдЦрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рд╕рдмрд╕реЗ рдЕрдЪреНрдЫрд╛ рдкрд░рд┐рдгрд╛рдо рдлрд┐рд░ рд╕реЗ рд░реИрдВрдбрдордлреЙрд░рд╕реНрдЯ рджреНрд╡рд╛рд░рд╛ рджрд┐рдЦрд╛рдпрд╛ рдЧрдпрд╛ рдерд╛ред рдЕрдм рдпрд╣ рдХреЗрд╡рд▓ рд╣рдорд╛рд░реЗ рдореЙрдбрд▓ рдХреЛ рдкрд░реАрдХреНрд╖рдг рдирдореВрдиреЗ рдкрд░ рд▓рд╛рдЧреВ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдмрдирд╛ рд╣реБрдЖ рд╣реИ:
model_rfc.fit(train, target) result.insert(1,'Survived', model_rfc.predict(test)) result.to_csv('Kaggle_Titanic/Result/test.csv', index=False)
рдирд┐рд╖реНрдХрд░реНрд╖
рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ рдореИрдВрдиреЗ рдпрд╣ рджрд┐рдЦрд╛рдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХреА рдХрд┐ рдЖрдк
рд╕реНрдХреЗрд▓реЗрд░ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ
рдкреИрдХреЗрдЬ рдХреЗ рд╕рд╛рде рд╕рдВрдпреЛрдЬрди рдореЗрдВ
рдкрд╛рдВрдбрд╛ рдкреИрдХреЗрдЬ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХреИрд╕реЗ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рдХрд╛рдЧреНрд▓реЗ рдкрд░ рдПрдХ рдкреНрд░рд╕реНрддреБрдд рдХрд░рдиреЗ рдХреЗ рд╕рд╛рде рдкрд░рд┐рдгрд╛рдореА рдореЙрдбрд▓ рдиреЗ 0.77033 рдХреА рд╕рдЯреАрдХрддрд╛ рджрд┐рдЦрд╛рдИред рд▓реЗрдЦ рдореЗрдВ, рдореИрдВ рдПрдХ рд╡рд┐рд╕реНрддреГрдд рдПрд▓реНрдЧреЛрд░рд┐рдереНрдо рдХреЗ рдирд┐рд░реНрдорд╛рдг рдХреЗ рдмрдЬрд╛рдп рдЯреВрд▓рдХрд┐рдЯ рдФрд░ рдЕрдзреНрдпрдпрди рдХреА рдкреНрд░рдЧрддрд┐ рдХреЗ рд╕рд╛рде рдЕрдзрд┐рдХ рд╕рдЯреАрдХ рд░реВрдк рд╕реЗ рдХрд╛рдо рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рдерд╛, рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП рд▓реЗрдЦреЛрдВ рдХреА
рдЗрд╕ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдореЗрдВред