{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Datahåndtering IV: Maskinlæring\n",
"\n",
"```{admonition} Læringsutbytte\n",
"Etter å ha arbeidet med dette temaet, skal du kunne:\n",
"1. gjør rede for hva som menes med maskinlæring\n",
"2. lage, teste og evaluere enkle modeller ved hjelp av maskinlæring\n",
"```\n",
"\n",
"Når et barn har sett en hund som har blitt omtalt som en hund, generaliserer det ofte slik at det oppfatter alle dyr som hund. Men ettersom barnet ser flere ulike hunder og andre dyr, klarer det etter hvert å skille hund som en egen kategori. Vi danner oss forestillinger og generaliseringer basert på observasjoner i virkeligheten. Dette kalles _induksjon_. Slutningene vi tar, følger ikke med nødvendighet, men med sannsynlighet. Og ganske ofte kan vi ta feil. Men desto flere uttrykk vi utsettes for, desto større sannsynlighet er det som regel at vi har rett.\n",
"\n",
"Vi kan bruke induktiv læring på datamaskinen også. Da kaller vi det _maskinlæring_. Med de store mengdene digitale data vi omgir oss med, kan datamaskinen lære og trekke slutninger om verden rundt oss. Så istedenfor å eksplisitt kode alle valg en datamaskin kan ta, lar vi datamaskinen lære fra data og trekke slutninger selv.\n",
"\n",
"I dette kapitlet skal vi se på hvordan vi kan benytte biblioteket _scikit-learn_ og _keras_, som er en del av _tensorflow_. Disse bibliotekene må installeres først – du kan skrive for eksempel _pip install scikit-learn tensorflow_ i et terminalvindu for å gjøre dette. Bibliotekene fungerer svært godt sammen med Pandas med Jupyter Notebook som programmeringsplattform, så vi kommer til å benytte dette her.\n",
"\n",
"Vi vender atter tilbake til pingvinene våre. Vi skal her lage en maskinlæringsmodell for å artsbestemme ringpingviner, bøylepingviner og adeliepingviner.\n",
"\n",
"\n",
"
\n",
"\n",
"\n",
"## Steg 1: Les av og utforsk dataene"
]
},
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n", " | species | \n", "island | \n", "bill_length_mm | \n", "bill_depth_mm | \n", "flipper_length_mm | \n", "body_mass_g | \n", "sex | \n", "
---|---|---|---|---|---|---|---|
0 | \n", "Adelie | \n", "Torgersen | \n", "39.1 | \n", "18.7 | \n", "181.0 | \n", "3750.0 | \n", "MALE | \n", "
1 | \n", "Adelie | \n", "Torgersen | \n", "39.5 | \n", "17.4 | \n", "186.0 | \n", "3800.0 | \n", "FEMALE | \n", "
2 | \n", "Adelie | \n", "Torgersen | \n", "40.3 | \n", "18.0 | \n", "195.0 | \n", "3250.0 | \n", "FEMALE | \n", "
3 | \n", "Adelie | \n", "Torgersen | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "NaN | \n", "
4 | \n", "Adelie | \n", "Torgersen | \n", "36.7 | \n", "19.3 | \n", "193.0 | \n", "3450.0 | \n", "FEMALE | \n", "