рдкрдВрдбреЛрдВ + рд╕реНрдХреЗрд▓реЗрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдЕрдЬрдЧрд░ рдореЗрдВ рдбреЗрдЯрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреА рдореВрд▓ рдмрд╛рддреЗрдВ

рд╢реБрдн рджреЛрдкрд╣рд░, рдкреНрд░рд┐рдп рдкрд╛рдардХреЛрдВред рдЖрдЬ рдХреА рдкреЛрд╕реНрдЯ рдореЗрдВ, рдореИрдВ рдкрдВрдбреЛрдВ рдХреЗ рдореЙрдбреНрдпреВрд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реБрдП рдЕрдЬрдЧрд░ рдореЗрдВ рдбреЗрдЯрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдкрд┐рдд рд▓реЗрдЦреЛрдВ рдХреА рдЕрдкрдиреА рд╢реНрд░реГрдВрдЦрд▓рд╛ рдХреЛ рдЬрд╛рд░реА рд░рдЦреВрдВрдЧрд╛ рдФрд░ рдЗрд╕ рдореЙрдбреНрдпреВрд▓ рдХреЛ рд╕реНрдХрд┐рдЯрд┐рдЯ-рд▓рд░реНрди рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЙрдбреНрдпреВрд▓ рдХреЗ рд╕рд╛рде рд╕рдВрдпреЛрдЬрди рдореЗрдВ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреЗ рд╡рд┐рдХрд▓реНрдкреЛрдВ рдореЗрдВ рд╕реЗ рдПрдХ рдХрд╛ рд╡рд░реНрдгрди рдХрд░реВрдВрдЧрд╛ ред рдЗрд╕ рдмрдВрдбрд▓ рдХрд╛ рдХрд╛рдо рдЯрд╛рдЗрдЯреИрдирд┐рдХ рд╕реЗ рдмрдЪрд╛рдП рдЧрдП рдХрд╛рд░реНрдп рдХреЗ рдЙрджрд╛рд╣рд░рдг рдкрд░ рджрд┐рдЦрд╛рдпрд╛ рдЬрд╛рдПрдЧрд╛ред рдпрд╣ рдХрд╛рд░реНрдп рдХреЗрд╡рд▓ рдбреЗрдЯрд╛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдФрд░ рдорд╢реАрди рд╕реАрдЦрдиреЗ рдореЗрдВ рд╕рдВрд▓рдЧреНрди рд▓реЛрдЧреЛрдВ рдХреЗ рдмреАрдЪ рдмрд╣реБрдд рд▓реЛрдХрдкреНрд░рд┐рдп рд╣реИред


рд╕рдорд╕реНрдпрд╛ рдХрд╛ рдмрдпрд╛рди


рдЗрд╕рд▓рд┐рдП рдХрд╛рд░реНрдп рдХрд╛ рд╕рд╛рд░ рдПрдХ рдореЙрдбрд▓ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдорд╢реАрди рд╕реАрдЦрдиреЗ рдХреЗ рддрд░реАрдХреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рд╣реИ рдЬреЛ рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХрд░реЗрдЧрд╛ рдХрд┐ рдПрдХ рд╡реНрдпрдХреНрддрд┐ рдХреЛ рдмрдЪрд╛рдпрд╛ рдЬрд╛рдПрдЧрд╛ рдпрд╛ рдирд╣реАрдВред 2 рдлрд╛рдЗрд▓реЗрдВ рдХрд╛рд░реНрдп рд╕реЗ рдЬреБрдбрд╝реА рд╣реИрдВ:

рдЬреИрд╕рд╛ рдХрд┐ рдКрдкрд░ рд▓рд┐рдЦрд╛ рдЧрдпрд╛ рдерд╛, рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреЗ рд▓рд┐рдП рдЖрдкрдХреЛ рдкрдВрдбреЛрдВ рдФрд░ рд╕реНрдХрд┐рдЯ-рд▓рд░реНрди рдореЙрдбреНрдпреВрд▓ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛрдЧреАред рдкрдВрдбреЛрдВ рдХреЗ рд╕рд╛рде , рд╣рдо рдбреЗрдЯрд╛ рдХрд╛ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░реЗрдВрдЧреЗ, рдФрд░ рд╕реНрдХреЗрд▓реЗрд░рди рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рди рдореЙрдбрд▓ рдХреА рдЧрдгрдирд╛ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░реЗрдВрдЧреЗред рддреЛ, рд╢реБрд░реБрдЖрдд рдХреЗ рд▓рд┐рдП, рдЖрд╡рд╢реНрдпрдХ рдореЙрдбреНрдпреВрд▓ рд▓реЛрдб рдХрд░реЗрдВ:
рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдХреБрдЫ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреА рд╡реНрдпрд╛рдЦреНрдпрд╛ рдХреА рдЧрдИ рд╣реИ:


рдЗрдирдкреБрдЯ рд╡рд┐рд╢реНрд▓реЗрд╖рдг


> рддреЛ, рдХрд╛рд░реНрдп рдмрдирддрд╛ рд╣реИ рдФрд░ рд╣рдо рдЗрд╕реЗ рд╣рд▓ рдХрд░рдирд╛ рд╢реБрд░реВ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред
рдЖрд░рдВрдн рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдПрдХ рдкрд░реАрдХреНрд╖рдг рдирдореВрдирд╛ рдЕрдкрд▓реЛрдб рдХрд░реЗрдВ рдФрд░ рджреЗрдЦреЗрдВ рдХрд┐ рдпрд╣ рдХреИрд╕рд╛ рджрд┐рдЦрддрд╛ рд╣реИ:

from pandas import read_csv, DataFrame, Series data = read_csv('Kaggle_Titanic/Data/train.csv') 

PassengerIdрдмрдЪ рдЧрдпрд╛Pclassрдирд╛рдорд▓рд┐рдВрдЧрдЖрдпреБSibSpрд╕реВрдЦрдирд╛рдЯрд┐рдХрдЯрдХрд┐рд░рд╛рдпрд╛рдХреЗрдмрд┐рдирд╢реБрд░реВ
103рдмреНрд░реВрдВрдб, рдорд┐ред рдУрд╡реЗрди рд╣реИрд░рд┐рд╕рдирд░2210рдП / рел реирезрез /рез7.2500NaNрдПрд╕
211рдХрдорд┐рдВрдЧреНрд╕, рд╢реНрд░реАрдорддреАред рдЬреЙрди рдмреНрд░реИрдбрд▓реА (рдлреНрд▓реЛрд░реЗрдВрд╕ рдмреНрд░рд┐рдЧреНрд╕ рде ...рдорд╣рд┐рд▓рд╛3810рдкреАрд╕реА 1759971.2833C85рд╕реА
313рд╣рд┐рдХрдХрд┐рдирди, рдорд┐рд╕ред Lainaрдорд╣рд┐рд▓рд╛2600рдкрддреНрдерд░ / O2ред 31012827.9250NaNрдПрд╕
411рдлреНрдпреВрдЯреНрд░реЗрд▓, рд╢реНрд░реАрдорддреАред рдЬреИрдХреНрд╕ рд╣реАрде (рд▓рд┐рд▓реА рдореЗ рдкреАрд▓)рдорд╣рд┐рд▓рд╛3510113,80353.1000C123рдПрд╕
503рдПрд▓рди, рдорд┐ред рд╡рд┐рд▓рд┐рдпрдо рд╣реЗрдирд░реАрдирд░3500373,4508.0500NaNрдПрд╕

рдпрд╣ рдорд╛рдирд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдХрд┐ рд╕рд╛рдорд╛рдЬрд┐рдХ рд╕реНрдерд┐рддрд┐ рдЬрд┐рддрдиреА рдЕрдзрд┐рдХ рд╣реЛрдЧреА, рдореБрдХреНрддрд┐ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдЙрддрдиреА рд╣реА рдЕрдзрд┐рдХ рд╣реЛрдЧреАред рдЖрдЗрдП рдЬреАрд╡рд┐рдд рд░рд╣рдиреЗ рд╡рд╛рд▓реЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХреЛ рджреЗрдЦрддреЗ рд╣реБрдП рдФрд░ рдХрдХреНрд╖рд╛рдУрдВ рдХреЗ рдЯреВрдЯрдиреЗ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдбреВрдм рдЧрдПред рдРрд╕рд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рд╕рд╛рд░рд╛рдВрд╢ рдмрдирд╛рдПрдБ:

 data.pivot_table('PassengerId', 'Pclass', 'Survived', 'count').plot(kind='bar', stacked=True) 

рдЫрд╡рд┐
рд╣рдорд╛рд░реА рдЙрдкрд░реЛрдХреНрдд рдзрд╛рд░рдгрд╛ рдпрд╣ рд╣реИ рдХрд┐ рдпрд╛рддреНрд░рд┐рдпреЛрдВ рдХреА рд╕рд╛рдорд╛рдЬрд┐рдХ рд╕реНрдерд┐рддрд┐ рдЬрд┐рддрдиреА рдЕрдзрд┐рдХ рд╣реЛрдЧреА, рдЙрдирдХреА рдореБрдХреНрддрд┐ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдЙрддрдиреА рд╣реА рдЕрдзрд┐рдХ рд╣реЛрдЧреАред рдЕрдм рдЖрдЗрдП рдПрдХ рдирдЬрд╝рд░ рдбрд╛рд▓рддреЗ рд╣реИрдВ рдХрд┐ рд░рд┐рд╢реНрддреЗрджрд╛рд░реЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдореЛрдХреНрд╖ рдХреЗ рддрдереНрдп рдХреЛ рдХреИрд╕реЗ рдкреНрд░рднрд╛рд╡рд┐рдд рдХрд░рддреА рд╣реИ:

 fig, axes = plt.subplots(ncols=2) data.pivot_table('PassengerId', ['SibSp'], 'Survived', 'count').plot(ax=axes[0], title='SibSp') data.pivot_table('PassengerId', ['Parch'], 'Survived', 'count').plot(ax=axes[1], title='Parch') 

рдЫрд╡рд┐
рдЬреИрд╕рд╛ рдХрд┐ рд░реЗрдЦрд╛рдВрдХрди рд╕реЗ рджреЗрдЦрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рд╣рдорд╛рд░реА рдзрд╛рд░рдгрд╛ рдлрд┐рд░ рд╕реЗ рдкреБрд╖реНрдЯрд┐ рдХреА рдЧрдИ рдереА, рдФрд░ рдХрдИ рд▓реЛрдЧреЛрдВ рдХреЛ 1 рд╕реЗ рдЕрдзрд┐рдХ рд░рд┐рд╢реНрддреЗрджрд╛рд░реЛрдВ рд╕реЗ рдирд╣реАрдВ рдмрдЪрд╛рдпрд╛ рдЧрдпрд╛ рдерд╛ред
рдЕрдм рд╣рдо рдбреЗрдЯрд╛ рдХреЗ рд▓рд┐рдП рдЪрд░реНрдЪрд╛ рдХрд░реЗрдВрдЧреЗ, рдЬреЛ рдХрд┐ рдХреЗрдмрд┐рдиреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рд╣реИрдВред рд╕реИрджреНрдзрд╛рдВрддрд┐рдХ рд░реВрдк рд╕реЗ, рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдХреЗрдмрд┐рди рдкрд░ рдбреЗрдЯрд╛ рдирд╣реАрдВ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ, рддреЛ рдЖрдЗрдП рджреЗрдЦреЗрдВ рдХрд┐ рдпрд╣ рдХреНрд╖реЗрддреНрд░ рдХрд┐рддрдирд╛ рднрд░рд╛ рд╣реБрдЖ рд╣реИ:

 data.PassengerId[data.Cabin.notnull()].count() 


рдирддреАрдЬрддрди, рдХреБрд▓ 204 рдкреНрд░рд╡рд┐рд╖реНрдЯрд┐рдпрд╛рдВ рдФрд░ 890 рднрд░реА рдЧрдИрдВ, рдЗрд╕рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рд╣рдо рдпрд╣ рдирд┐рд╖реНрдХрд░реНрд╖ рдирд┐рдХрд╛рд▓ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдЗрд╕ рдХреНрд╖реЗрддреНрд░ рдХреЛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЫреЛрдбрд╝рд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред
рдЕрдЧрд▓рд╛ рдХреНрд╖реЗрддреНрд░ рдЬрд┐рд╕рдХрд╛ рд╣рдо рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░реЗрдВрдЧреЗ рд╡рд╣ рдЖрдпреБ рд╡рд╛рд▓рд╛ рдХреНрд╖реЗрддреНрд░ рд╣реЛрдЧрд╛ред рдЖрдЗрдП рджреЗрдЦреЗрдВ рдХрд┐ рдпрд╣ рдХрд┐рддрдирд╛ рднрд░рд╛ рд╣реИ:

 data.PassengerId[data.Age.notnull()].count() 


рдпрд╣ рдлрд╝реАрд▓реНрдб рд▓рдЧрднрдЧ рдкреВрд░реНрдг (714 рдЧреИрд░-рд░рд┐рдХреНрдд рдкреНрд░рд╡рд┐рд╖реНрдЯрд┐рдпрд╛рдБ) рд╣реИ, рд▓реЗрдХрд┐рди рдРрд╕реЗ рд░рд┐рдХреНрдд рдорд╛рди рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдирд╣реАрдВ рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдЖрдЗрдП рдЗрд╕реЗ рдкреВрд░реЗ рдирдореВрдиреЗ рдХреА рдЙрдореНрд░ рддрдХ рдорд╛рдзреНрдпрд┐рдХрд╛ рдХреЗ рдмрд░рд╛рдмрд░ рдорд╛рди рджреЗрдВред рдореЙрдбрд▓ рдХреЛ рдФрд░ рдЕрдзрд┐рдХ рд╕рдЯреАрдХ рд░реВрдк рд╕реЗ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдЗрд╕ рдХрджрдо рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ:

 data.Age = data.Age.median() 

рд╣рдореЗрдВ рдлреАрд▓реНрдб рдЯрд┐рдХрдЯ , рдПрдореНрдмреНрд░реНрдбреЗрдб , рдлреЗрдпрд░ , рдирд╛рдо рд╕реЗ рдирд┐рдкрдЯрдирд╛ рд╣реЛрдЧрд╛ ред рдЖрдЗрдП рдПрдореНрдмрд╛рд░реНрдХреЗрдб рдлрд╝реАрд▓реНрдб рдХреЛ рджреЗрдЦреЗрдВ, рдЬрд╣рд╛рдВ рдПрдореНрдмрд╛рд░реНрдХреЗрд╢рди рдХрд╛ рдкреЛрд░реНрдЯ рд╕реНрдерд┐рдд рд╣реИ рдФрд░ рдЬрд╛рдВрдЪреЗрдВ рдХрд┐ рдХреНрдпрд╛ рдХреЛрдИ рдпрд╛рддреНрд░реА рд╣реИ рдЬрд┐рд╕рдХрд╛ рдкреЛрд░реНрдЯ рдирд┐рд░реНрджрд┐рд╖реНрдЯ рдирд╣реАрдВ рд╣реИ:

 data[data.Embarked.isnull()] 

PassengerIdрдмрдЪ рдЧрдпрд╛Pclassрдирд╛рдорд▓рд┐рдВрдЧрдЖрдпреБSibSpрд╕реВрдЦрдирд╛рдЯрд┐рдХрдЯрдХрд┐рд░рд╛рдпрд╛рдХреЗрдмрд┐рдирд╢реБрд░реВ
6211рдЖрдИрдХрд╛рд░реНрдб, рдорд┐рд╕ред рдПрдореАрд▓реАрдорд╣рд┐рд▓рд╛2800113,57280B28NaN
83011рдкрддреНрдерд░, рд╢реНрд░реАрдорддреАред рдЬреЙрд░реНрдЬ рдиреЗрд▓реНрд╕рди (рдорд╛рд░реНрдерд╛ рдПрд╡рд▓рд┐рди)рдорд╣рд┐рд▓рд╛2800113,57280B28NaN


рддреЛ рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдРрд╕реЗ 2 рдпрд╛рддреНрд░реА рдереЗред рдЖрдЗрдП рдЗрди рдпрд╛рддреНрд░рд┐рдпреЛрдВ рдХреЛ рдЙрд╕ рдмрдВрджрд░рдЧрд╛рд╣ рдХреЛ рд╕реМрдВрдкреЗрдВ рдЬрд┐рд╕рдореЗрдВ рдЧрд╛рдБрд╡ рдХреЗ рд▓реЛрдЧ рд╕рдмрд╕реЗ рдЕрдзрд┐рдХ рд╣реИрдВ:

 MaxPassEmbarked = data.groupby('Embarked').count()['PassengerId'] data.Embarked[data.Embarked.isnull()] = MaxPassEmbarked[MaxPassEmbarked == MaxPassEmbarked.max()].index[0] 


рдЦреИрд░, рд╣рдордиреЗ рдПрдХ рдФрд░ рдХреНрд╖реЗрддреНрд░ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдпрд╛ рдФрд░ рдЕрдм рднреА рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдпрд╛рддреНрд░реА рдХреЗ рдирд╛рдо, рдЯрд┐рдХрдЯ рд╕рдВрдЦреНрдпрд╛ рдФрд░ рдЯрд┐рдХрдЯ рдХреА рдХреАрдордд рдХреЗ рд╕рд╛рде рдХреНрд╖реЗрддреНрд░ рд╣реИрдВред
рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ, рд╣рдореЗрдВ рдЗрди рддреАрди рдХреНрд╖реЗрддреНрд░реЛрдВ рд╕реЗ рдХреЗрд╡рд▓ рдХреАрдордд ( рдХрд┐рд░рд╛рдпрд╛ ) рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рдХреБрдЫ рд╣рдж рддрдХ, рд╣рдо рдкрдХреНрд▓рд╛рд╕ рдХреНрд╖реЗрддреНрд░ рдХреА рдХрдХреНрд╖рд╛рдУрдВ рдХреЗ рдЕрдВрджрд░ рд░реИрдВрдХрд┐рдВрдЧ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░рддреЗ рд╣реИрдВред рдЕрд░реНрдерд╛рддреН, рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдордзреНрдпрдо рд╡рд░реНрдЧ рдХреЗ рд▓реЛрдЧреЛрдВ рдХреЛ рдЙрди рд▓реЛрдЧреЛрдВ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдЬреЛ рдкрд╣рд▓реЗ (рдЙрдЪреНрдЪ) рд╡рд░реНрдЧ рдХреЗ рдХрд░реАрдм рд╣реИрдВ, рдФрд░ рдЬреЛ рддреАрд╕рд░реЗ (рдХрдо) рдХреЗ рдХрд░реАрдм рд╣реИрдВред рд╣рдо рдЦрд╛рд▓реА рдорд╛рдиреЛрдВ рдХреЗ рд▓рд┐рдП рдЗрд╕ рдХреНрд╖реЗрддреНрд░ рдХреА рдЬрд╛рдБрдЪ рдХрд░реЗрдВрдЧреЗ рдФрд░ рдпрджрд┐ рдХреЛрдИ рд╣реЛ, рддреЛ рдореВрд▓реНрдп рдХреЛ рд╕рднреА рдирдореВрдиреЛрдВ рд╕реЗ рдХреАрдордд рдХреЗ рдорд╛рдзреНрдпрд┐рдХрд╛ рд╕реЗ рдмрджрд▓реЗрдВ:

 data.PassengerId[data.Fare.isnull()] 

рд╣рдорд╛рд░реЗ рдорд╛рдорд▓реЗ рдореЗрдВ, рдХреЛрдИ рд░рд┐рдХреНрдд рдкреНрд░рд╡рд┐рд╖реНрдЯрд┐рдпрд╛рдБ рдирд╣реАрдВ рд╣реИрдВред
рдмрджрд▓реЗ рдореЗрдВ, рдЯрд┐рдХрдЯ рд╕рдВрдЦреНрдпрд╛ рдФрд░ рдпрд╛рддреНрд░реА рдХрд╛ рдирд╛рдо рд╣рдорд╛рд░реА рдорджрдж рдирд╣реАрдВ рдХрд░реЗрдЧрд╛, рдХреНрдпреЛрдВрдХрд┐ рдпрд╣ рд╕рд┐рд░реНрдл рд╕рдВрджрд░реНрдн рдЬрд╛рдирдХрд╛рд░реА рд╣реИред рдПрдХрдорд╛рддреНрд░ рдХрд╛рд░рдг рд╡реЗ рдХрд╛рдо рдореЗрдВ рдЖ рд╕рдХрддреЗ рд╣реИрдВ рдпрд╣ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐ рдХреМрди рд╕реЗ рдпрд╛рддреНрд░реА рд╕рдВрднрд╛рд╡рд┐рдд рд░рд┐рд╢реНрддреЗрджрд╛рд░ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдЪреВрдВрдХрд┐ рдЬрд┐рди рд▓реЛрдЧреЛрдВ рдХреЗ рд░рд┐рд╢реНрддреЗрджрд╛рд░ рд╣реИрдВ рд╡реЗ рд╢рд╛рдпрдж рд╣реА рдЬреАрд╡рд┐рдд рд░рд╣рддреЗ рд╣реИрдВ (рдЬреИрд╕рд╛ рдХрд┐ рдКрдкрд░ рджрд┐рдЦрд╛рдпрд╛ рдЧрдпрд╛ рд╣реИ), рдЗрди рдЖрдВрдХрдбрд╝реЛрдВ рдХреА рдЙрдкреЗрдХреНрд╖рд╛ рдХреА рдЬрд╛ рд╕рдХрддреА рд╣реИред
рдЕрдм, рд╕рднреА рдЕрдирд╛рд╡рд╢реНрдпрдХ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рд╣рдЯрд╛рдиреЗ рдХреЗ рдмрд╛рдж, рд╣рдорд╛рд░рд╛ рд╕реЗрдЯ рдЗрд╕ рддрд░рд╣ рджрд┐рдЦрддрд╛ рд╣реИ:

 data = data.drop(['PassengerId','Name','Ticket','Cabin'],axis=1) 

рдмрдЪ рдЧрдпрд╛Pclassрд▓рд┐рдВрдЧрдЖрдпреБSibSpрд╕реВрдЦрдирд╛рдХрд┐рд░рд╛рдпрд╛рд╢реБрд░реВ
03рдирд░28107.2500рдПрд╕
11рдорд╣рд┐рд▓рд╛281071.2833рд╕реА
13рдорд╣рд┐рд▓рд╛28007.9250рдПрд╕
11рдорд╣рд┐рд▓рд╛281053.1000рдПрд╕
03рдирд░28008.0500рдПрд╕


рдЗрдирдкреБрдЯ рдкреНрд░реАрдкреНрд░реЛрд╕реЗрд╕рд┐рдВрдЧ


рдбреЗрдЯрд╛ рдХрд╛ рдПрдХ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдкреВрд░рд╛ рд╣реЛ рдЧрдпрд╛ рд╣реИ, рдФрд░ рдЗрд╕рдХреЗ рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреЗ рдЕрдиреБрд╕рд╛рд░, рд╣рдореЗрдВ рдПрдХ рдирд┐рд╢реНрдЪрд┐рдд рдирдореВрдирд╛ рдорд┐рд▓рд╛ рд╣реИ рдЬрд┐рд╕рдореЗрдВ рдХрдИ рдлрд╝реАрд▓реНрдб рд╢рд╛рдорд┐рд▓ рд╣реИрдВ рдФрд░ рдРрд╕рд╛ рдкреНрд░рддреАрдд рд╣реЛрддрд╛ рд╣реИ рдХрд┐ рд╣рдо рдПрдХ рдореЙрдбрд▓ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдЖрдЧреЗ рдмрдврд╝ рд╕рдХрддреЗ рд╣реИрдВ рдпрджрд┐ рдПрдХ "рд▓реЗрдХрд┐рди" рдирд╣реАрдВ: рд╣рдорд╛рд░реЗ рдбреЗрдЯрд╛ рдореЗрдВ рди рдХреЗрд╡рд▓ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ, рдмрд▓реНрдХрд┐ рд╢рд╛рдмреНрджрд┐рдХ рдбреЗрдЯрд╛ рднреА рд╢рд╛рдорд┐рд▓ рд╣реИред
рдЗрд╕рд▓рд┐рдП, рдПрдХ рдореЙрдбрд▓ рдмрдирд╛рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ, рдЖрдкрдХреЛ рд╣рдорд╛рд░реЗ рд╕рднреА рдкрд╛рда рдорд╛рдиреЛрдВ рдХреЛ рдПрдирдХреЛрдб рдХрд░рдирд╛ рд╣реЛрдЧрд╛ред
рдЖрдк рдЗрд╕реЗ рдореИрдиреНрдпреБрдЕрд▓ рд░реВрдк рд╕реЗ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ, рдпрд╛ рдЖрдк sklearn.preprocessing рдореЙрдбреНрдпреВрд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рджреВрд╕рд░реЗ рд╡рд┐рдХрд▓реНрдк рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред
рдЖрдк рд▓реЗрдмрд▓рдЗрдиреНрдХреЛрдбрд░ () рдСрдмреНрдЬреЗрдХреНрдЯ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдирд┐рд╢реНрдЪрд┐рдд рдорд╛рди рдХреЗ рд╕рд╛рде рдПрдХ рд╕реВрдЪреА рдХреЛ рдПрдиреНрдХреЛрдб рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рдЗрд╕ рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рд╕рд╛рд░ рдпрд╣ рд╣реИ рдХрд┐ рдЗрдирдкреБрдЯ рдкрд░ рдпрд╣ рдЙрди рдорд╛рдиреЛрдВ рдХреА рдПрдХ рд╕реВрдЪреА рдкреНрд░рд╛рдкреНрдд рдХрд░рддрд╛ рд╣реИ рдЬрд┐рдиреНрд╣реЗрдВ рдПрдиреНрдХреЛрдб рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдП, рдЖрдЙрдЯрдкреБрдЯ рдкрд░ рдЙрди рд╡рд░реНрдЧреЛрдВ рдХреА рдПрдХ рд╕реВрдЪреА рд╣реИ рдЬрд┐рдирдХреЗ рд╕реВрдЪрдХрд╛рдВрдХ рдЗрдирдкреБрдЯ рдХреЛ рдЖрдкреВрд░реНрддрд┐ рдХреА рдЧрдИ рд╕реВрдЪреА рдХреЗ рддрддреНрд╡реЛрдВ рдХреЗ рдХреЛрдб рд╣реИрдВред

 from sklearn.preprocessing import LabelEncoder label = LabelEncoder() dicts = {} label.fit(data.Sex.drop_duplicates()) #     dicts['Sex'] = list(label.classes_) data.Sex = label.transform(data.Sex) #       label.fit(data.Embarked.drop_duplicates()) dicts['Embarked'] = list(label.classes_) data.Embarked = label.transform(data.Embarked) 

рдкрд░рд┐рдгрд╛рдорд╕реНрд╡рд░реВрдк, рд╣рдорд╛рд░рд╛ рдкреНрд░рд╛рд░рдВрднрд┐рдХ рдбреЗрдЯрд╛ рдЗрд╕ рддрд░рд╣ рджрд┐рдЦрд╛рдИ рджреЗрдЧрд╛:
рдмрдЪ рдЧрдпрд╛Pclassрд▓рд┐рдВрдЧрдЖрдпреБSibSpрд╕реВрдЦрдирд╛рдХрд┐рд░рд╛рдпрд╛рд╢реБрд░реВ
03128107.25002
110281071.28330
13028007.92502
110281053.10002
03128008.05002


рдЕрдм рд╣рдореЗрдВ рд╡реЗрд░рд┐рдлрд┐рдХреЗрд╢рди рдлрд╛рдЗрд▓ рдХреЛ рдЙрд╕ рдлреЙрд░реНрдо рдореЗрдВ рд▓рд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдХреЛрдб рд▓рд┐рдЦрдирд╛ рд╣реЛрдЧрд╛ рдЬреЛ рд╣рдореЗрдВ рдЪрд╛рд╣рд┐рдПред рдРрд╕рд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдЖрдк рдмрд╕ рдКрдкрд░ рджрд┐рдП рдЧрдП рдХреЛрдб рдХреЗ рдЯреБрдХрдбрд╝реЛрдВ рдХреЛ рдХреЙрдкреА рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ (рдпрд╛ рдЗрдирдкреБрдЯ рдлрд╝рд╛рдЗрд▓ рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдлрд╝рдВрдХреНрд╢рди рд▓рд┐рдЦреЗрдВ):

 test = read_csv('Kaggle_Titanic/Data/test.csv') test.Age[test.Age.isnull()] = test.Age.mean() test.Fare[test.Fare.isnull()] = test.Fare.median() #      MaxPassEmbarked = test.groupby('Embarked').count()['PassengerId'] test.Embarked[test.Embarked.isnull()] = MaxPassEmbarked[MaxPassEmbarked == MaxPassEmbarked.max()].index[0] result = DataFrame(test.PassengerId) test = test.drop(['Name','Ticket','Cabin','PassengerId'],axis=1) label.fit(dicts['Sex']) test.Sex = label.transform(test.Sex) label.fit(dicts['Embarked']) test.Embarked = label.transform(test.Embarked) 


рдКрдкрд░ рд╡рд░реНрдгрд┐рдд рдХреЛрдб рд▓рдЧрднрдЧ рд╡рд╣реА рд╕рдВрдЪрд╛рд▓рди рдХрд░рддрд╛ рд╣реИ рдЬреЛ рд╣рдордиреЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдирдореВрдиреЗ рдХреЗ рд╕рд╛рде рдХрд┐рдпрд╛ рдерд╛ред рдЕрдВрддрд░ рдпрд╣ рд╣реИ рдХрд┐ рдлреЗрдпрд░ рдлреАрд▓реНрдб рдХреЛ рдкреНрд░реЛрд╕реЗрд╕ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рд▓рд╛рдЗрди рдЬреЛрдбрд╝реА рдЧрдИ рд╣реИ, рдЕрдЧрд░ рдпрд╣ рдЕрдЪрд╛рдирдХ рдирд╣реАрдВ рднрд░реА рдЬрд╛рддреА рд╣реИред
Pclassрд▓рд┐рдВрдЧрдЖрдпреБSibSpрд╕реВрдЦрдирд╛рдХрд┐рд░рд╛рдпрд╛рд╢реБрд░реВ
3134.5007.82921
3047.0107.00002
2162.0009.68751
3127.0008.66252
3022.01112.28752


рд╡рд░реНрдЧреАрдХрд░рдг рдореЙрдбрд▓ рдФрд░ рдЙрдирдХреЗ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд╛ рдирд┐рд░реНрдорд╛рдг


рдареАрдХ рд╣реИ, рдбреЗрдЯрд╛ рд╕рдВрд╕рд╛рдзрд┐рдд рд╣реИ рдФрд░ рдЖрдк рдореЙрдбрд▓ рдХрд╛ рдирд┐рд░реНрдорд╛рдг рд╢реБрд░реВ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдкрд╣рд▓реЗ рдЖрдкрдХреЛ рдпрд╣ рддрдп рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ рдХрд┐ рд╣рдо рдкрд░рд┐рдгрд╛рдореА рдореЙрдбрд▓ рдХреА рд╕рдЯреАрдХрддрд╛ рдХреА рдЬрд╛рдВрдЪ рдХреИрд╕реЗ рдХрд░реЗрдВрдЧреЗред рдЗрд╕ рдкрд░реАрдХреНрд╖рдг рдХреЗ рд▓рд┐рдП, рд╣рдо рд╕реНрд▓рд╛рдЗрдбрд┐рдВрдЧ рдирд┐рдпрдВрддреНрд░рдг рдФрд░ рдЖрд░рдУрд╕реА рдШрдЯрддрд╛ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВрдЧреЗред рд╣рдо рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдирдореВрдиреЗ рдкрд░ рд╕рддреНрдпрд╛рдкрди рдХрд░реЗрдВрдЧреЗ, рдЬрд┐рд╕рдХреЗ рдмрд╛рдж рд╣рдо рдЗрд╕реЗ рдкрд░реАрдХреНрд╖рдг рдПрдХ рдкрд░ рд▓рд╛рдЧреВ рдХрд░реЗрдВрдЧреЗред
рддреЛ, рдЖрдЗрдП рдХреБрдЫ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдПрд▓реНрдЧреЛрд░рд┐рджрдо рдХреЛ рджреЗрдЦреЗрдВ:

рд╣рдореЗрдВ рдЬрд┐рди рдкреБрд╕реНрддрдХрд╛рд▓рдпреЛрдВ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ, рдЙрдиреНрд╣реЗрдВ рдбрд╛рдЙрдирд▓реЛрдб рдХрд░реЗрдВ:

 from sklearn import cross_validation, svm from sklearn.neighbors import KNeighborsClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.linear_model import LogisticRegression from sklearn.metrics import roc_curve, auc import pylab as pl 

рд╢реБрд░реВ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рд╣рдорд╛рд░реЗ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдирдореВрдиреЗ рдХреЛ рдЙрд╕ рд╕рдВрдХреЗрддрдХ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИ рдЬрд┐рд╕реЗ рд╣рдо рдЬрд╛рдВрдЪ рдХрд░ рд░рд╣реЗ рд╣реИрдВ, рдФрд░ рдЗрд╕рдХреЗ рдкрд░рд┐рднрд╛рд╖рд┐рдд рд╕рдВрдХреЗрдд:

 target = data.Survived train = data.drop(['Survived'], axis=1) #    Id        kfold = 5 #    itog_val = {} #        

рдЕрдм рд╣рдорд╛рд░рд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗрдЯ рдЗрд╕ рддрд░рд╣ рджрд┐рдЦрддрд╛ рд╣реИ:
Pclassрд▓рд┐рдВрдЧрдЖрдпреБSibSpрд╕реВрдЦрдирд╛рдХрд┐рд░рд╛рдпрд╛рд╢реБрд░реВ
3128107.25002
10281071.28330
3028007.92502
10281053.10002
3128008.05002

рдЕрдм рд╣рдо ROC рдШрдЯрддрд╛ рдХреА рдЧрдгрдирд╛ рдХреЗ рд▓рд┐рдП рдкрд╣рд▓реЗ рдкреНрд░рд╛рдкреНрдд рдХрд┐рдП рдЧрдП рд╕рдВрдХреЗрддрдХреЛрдВ рдХреЛ 2 рдЙрдк-рд╡рд░реНрдЧреЛрдВ (рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдФрд░ рдкрд░реАрдХреНрд╖рдг) рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░реЗрдВрдЧреЗ (рдЖрдкрдХреЛ рд░реЛрд▓рд┐рдВрдЧ рдирд┐рдпрдВрддреНрд░рдг рдХреЗ рд▓рд┐рдП рдРрд╕рд╛ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рд╕рддреНрдпрд╛рдкрди рдХрд╛рд░реНрдп рдпрд╣ рд╕реНрд╡рдпрдВ рдХрд░рддрд╛ рд╣реИред cross_validation рдореЙрдбреНрдпреВрд▓ рдХрд╛ train_test_split рдлрд╝рдВрдХреНрд╢рди рд╣рдореЗрдВ рдЗрд╕рдореЗрдВ рдорджрдж рдХрд░реЗрдЧрд╛:

 ROCtrainTRN, ROCtestTRN, ROCtrainTRG, ROCtestTRG = cross_validation.train_test_split(train, target, test_size=0.25) 

рдЗрд╕рдХреЗ рд▓рд┐рдП рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдкреИрд░рд╛рдореАрдЯрд░ рджрд┐рдП рдЧрдП рд╣реИрдВ:

рдЖрдЙрдЯрдкреБрдЯ рдкрд░, рдлрд╝рдВрдХреНрд╢рди 4 рд╕рд░рдгрд┐рдпрд╛рдБ рджреЗрддрд╛ рд╣реИ:
  1. рдирдпрд╛ рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдкреИрд░рд╛рдореАрдЯрд░ рд╕рд░рдгреА
  2. рдорд╛рдкрджрдВрдбреЛрдВ рдХрд╛ рдкрд░реАрдХреНрд╖рдг рд╕рд░рдгреА
  3. рд╕рдВрдХреЗрддрдХ рдХреЗ рдирдП рд╕рд░рдгреА
  4. рд╕рдВрдХреЗрддрдХреЛрдВ рдХрд╛ рдкрд░реАрдХреНрд╖рдг рд╕рд░рдгреА


рдкреНрд░рдпреЛрдЧрд╛рддреНрдордХ рд░реВрдк рд╕реЗ рдЪрдпрдирд┐рдд рд╕рд░реНрд╡реЛрддреНрддрдо рдорд╛рдкрджрдВрдбреЛрдВ рдХреЗ рд╕рд╛рде рд╕реВрдЪреАрдмрджреНрдз рддрд░реАрдХреЗ рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рд╣реИрдВ:
 model_rfc = RandomForestClassifier(n_estimators = 70) #   -  model_knc = KNeighborsClassifier(n_neighbors = 18) #   -  model_lr = LogisticRegression(penalty='l1', tol=0.01) model_svc = svm.SVC() #  kernek='rbf' 

рдЕрдм рд╣рдо рд╕реНрд▓рд╛рдЗрдбрд┐рдВрдЧ рдирд┐рдпрдВрддреНрд░рдг рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдкреНрд░рд╛рдкреНрдд рдореЙрдбрд▓ рдХреА рдЬрд╛рдВрдЪ рдХрд░реЗрдВрдЧреЗред рдРрд╕рд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рд╣рдореЗрдВ cross_val_score рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ
 scores = cross_validation.cross_val_score(model_rfc, train, target, cv = kfold) itog_val['RandomForestClassifier'] = scores.mean() scores = cross_validation.cross_val_score(model_knc, train, target, cv = kfold) itog_val['KNeighborsClassifier'] = scores.mean() scores = cross_validation.cross_val_score(model_lr, train, target, cv = kfold) itog_val['LogisticRegression'] = scores.mean() scores = cross_validation.cross_val_score(model_svc, train, target, cv = kfold) itog_val['SVC'] = scores.mean() 

рдЖрдЗрдП рдкреНрд░рддреНрдпреЗрдХ рдореЙрдбрд▓ рдХреЗ рдФрд╕рдд рдХреНрд░реЙрд╕-рд╕рддреНрдпрд╛рдкрди рдкрд░реАрдХреНрд╖рдг рд╕реНрдХреЛрд░ рдХреЗ рдЧреНрд░рд╛рдл рдХреЛ рджреЗрдЦреЗрдВ:

 DataFrame.from_dict(data = itog_val, orient='index').plot(kind='bar', legend=False) 

рдЫрд╡рд┐

рдЬреИрд╕рд╛ рдХрд┐ рдЖрдк рдЧреНрд░рд╛рдл рд╕реЗ рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ, RandomForest рдПрд▓реНрдЧреЛрд░рд┐рдереНрдо рдиреЗ рдЦреБрдж рдХреЛ рд╕рдмрд╕реЗ рдЕрдЪреНрдЫрд╛ рджрд┐рдЦрд╛рдпрд╛ред рдЕрдм рдХреНрд▓рд╛рд╕реАрдлрд╛рдпрд░ рдХреА рд╕рдЯреАрдХрддрд╛ рдХрд╛ рдЖрдХрд▓рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЖрд░рдУрд╕реА-рдХрд░реНрд╡реНрд╕ рдХреЗ рдЧреНрд░рд╛рдл рдкрд░ рдПрдХ рдирдЬрд░ рдбрд╛рд▓рддреЗ рд╣реИрдВред рд╣рдо matplotlib рд▓рд╛рдЗрдмреНрд░реЗрд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реБрдП рдЧреНрд░рд╛рдл рдЦреАрдВрдЪреЗрдВрдЧреЗ :

 pl.clf() plt.figure(figsize=(8,6)) #SVC model_svc.probability = True probas = model_svc.fit(ROCtrainTRN, ROCtrainTRG).predict_proba(ROCtestTRN) fpr, tpr, thresholds = roc_curve(ROCtestTRG, probas[:, 1]) roc_auc = auc(fpr, tpr) pl.plot(fpr, tpr, label='%s ROC (area = %0.2f)' % ('SVC', roc_auc)) #RandomForestClassifier probas = model_rfc.fit(ROCtrainTRN, ROCtrainTRG).predict_proba(ROCtestTRN) fpr, tpr, thresholds = roc_curve(ROCtestTRG, probas[:, 1]) roc_auc = auc(fpr, tpr) pl.plot(fpr, tpr, label='%s ROC (area = %0.2f)' % ('RandonForest',roc_auc)) #KNeighborsClassifier probas = model_knc.fit(ROCtrainTRN, ROCtrainTRG).predict_proba(ROCtestTRN) fpr, tpr, thresholds = roc_curve(ROCtestTRG, probas[:, 1]) roc_auc = auc(fpr, tpr) pl.plot(fpr, tpr, label='%s ROC (area = %0.2f)' % ('KNeighborsClassifier',roc_auc)) #LogisticRegression probas = model_lr.fit(ROCtrainTRN, ROCtrainTRG).predict_proba(ROCtestTRN) fpr, tpr, thresholds = roc_curve(ROCtestTRG, probas[:, 1]) roc_auc = auc(fpr, tpr) pl.plot(fpr, tpr, label='%s ROC (area = %0.2f)' % ('LogisticRegression',roc_auc)) pl.plot([0, 1], [0, 1], 'k--') pl.xlim([0.0, 1.0]) pl.ylim([0.0, 1.0]) pl.xlabel('False Positive Rate') pl.ylabel('True Positive Rate') pl.legend(loc=0, fontsize='small') pl.show() 

рдЫрд╡рд┐
рдЬреИрд╕рд╛ рдХрд┐ рдЖрд░рдУрд╕реА рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХреЗ рдкрд░рд┐рдгрд╛рдореЛрдВ рд╕реЗ рджреЗрдЦрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рд╕рдмрд╕реЗ рдЕрдЪреНрдЫрд╛ рдкрд░рд┐рдгрд╛рдо рдлрд┐рд░ рд╕реЗ рд░реИрдВрдбрдордлреЙрд░рд╕реНрдЯ рджреНрд╡рд╛рд░рд╛ рджрд┐рдЦрд╛рдпрд╛ рдЧрдпрд╛ рдерд╛ред рдЕрдм рдпрд╣ рдХреЗрд╡рд▓ рд╣рдорд╛рд░реЗ рдореЙрдбрд▓ рдХреЛ рдкрд░реАрдХреНрд╖рдг рдирдореВрдиреЗ рдкрд░ рд▓рд╛рдЧреВ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдмрдирд╛ рд╣реБрдЖ рд╣реИ:

 model_rfc.fit(train, target) result.insert(1,'Survived', model_rfc.predict(test)) result.to_csv('Kaggle_Titanic/Result/test.csv', index=False) 


рдирд┐рд╖реНрдХрд░реНрд╖


рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ рдореИрдВрдиреЗ рдпрд╣ рджрд┐рдЦрд╛рдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХреА рдХрд┐ рдЖрдк рд╕реНрдХреЗрд▓реЗрд░ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкреИрдХреЗрдЬ рдХреЗ рд╕рд╛рде рд╕рдВрдпреЛрдЬрди рдореЗрдВ рдкрд╛рдВрдбрд╛ рдкреИрдХреЗрдЬ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХреИрд╕реЗ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рдХрд╛рдЧреНрд▓реЗ рдкрд░ рдПрдХ рдкреНрд░рд╕реНрддреБрдд рдХрд░рдиреЗ рдХреЗ рд╕рд╛рде рдкрд░рд┐рдгрд╛рдореА рдореЙрдбрд▓ рдиреЗ 0.77033 рдХреА рд╕рдЯреАрдХрддрд╛ рджрд┐рдЦрд╛рдИред рд▓реЗрдЦ рдореЗрдВ, рдореИрдВ рдПрдХ рд╡рд┐рд╕реНрддреГрдд рдПрд▓реНрдЧреЛрд░рд┐рдереНрдо рдХреЗ рдирд┐рд░реНрдорд╛рдг рдХреЗ рдмрдЬрд╛рдп рдЯреВрд▓рдХрд┐рдЯ рдФрд░ рдЕрдзреНрдпрдпрди рдХреА рдкреНрд░рдЧрддрд┐ рдХреЗ рд╕рд╛рде рдЕрдзрд┐рдХ рд╕рдЯреАрдХ рд░реВрдк рд╕реЗ рдХрд╛рдо рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рдерд╛, рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП рд▓реЗрдЦреЛрдВ рдХреА рдЗрд╕ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдореЗрдВред

Source: https://habr.com/ru/post/In202090/


All Articles