## 1. Données de LimeSurvey : importation et mise en forme # a. Importation des données source("Surveydata_syntax.R", encoding = "UTF-8") summary(data) # Réponse : # id submitdate lastpage startlanguage token datestamp startdate # Min. : 1.00 Length:62 Min. :1.000 Length:62 Length:62 Length:62 Length:62 # 1st Qu.:16.25 Class :character 1st Qu.:4.000 Class :character Class :character Class :character Class :character # Median :31.50 Mode :character Median :4.000 Mode :character Mode :character Mode :character Mode :character # Mean :31.50 Mean :3.694 # 3rd Qu.:46.75 3rd Qu.:4.000 # Max. :62.00 Max. :4.000 # # ipaddr refurl num sexe anneeNaissance typeBAC typeBAC_other CP_BAC # Length:62 Length:62 Min. : 1.00 Homme:29 Min. : 21 ES :20 ES : 0 Min. : 31 # Class :character Class :character 1st Qu.: 12.75 Femme:27 1st Qu.:1987 L : 1 L : 0 1st Qu.:11000 # Mode :character Mode :character Median : 32.50 NA's : 6 Median :1988 S :27 S : 0 Median :31000 # Mean : 661.25 Mean :1953 STG : 1 STG : 0 Mean :36010 # 3rd Qu.: 53.25 3rd Qu.:1989 STI : 2 STI : 0 3rd Qu.:66000 # Max. :35198.00 Max. :1990 NA's:11 NA's:62 Max. :99000 # NA's : 6.00 NA's : 6 NA's : 13 # PaysBAC AnneeSTID DureeDUT SpeSTID2 ThemeStage_1 ThemeStage_2 # Length:62 2008:15 Min. :0.000 IP (Insertion professionnelle):25 Oui :26 Oui :28 # Class :character 2009:22 1st Qu.:2.000 PE (Poursuite d'études) :25 Non sélectionné:36 Non sélectionné:34 # Mode :character 2010:14 Median :2.000 NA's :12 # NA's:11 Mean :2.085 # 3rd Qu.:2.000 # Max. :3.000 # NA's :9.000 # ThemeStage_3 ThemeStage_4 ThemeStage_other PoursuiteEtudes niveauDD niveauDD_other # Oui : 6 Oui : 0 Length:62 Oui :38 BTS : 0 Min. : NA # Non sélectionné:56 Non sélectionné:62 Class :character Non :14 DUT : 0 1st Qu.: NA # Mode :character NA's:10 Licence professionnelle :12 Median : NA # Autre licence : 4 Mean :NaN # Master : 1 3rd Qu.: NA # Je n'ai obtenu aucun autre diplôme:14 Max. : NA # NA's :31 NA's : 62 # lieuObtention lieuObtention_other cpDD paysDD filiereDD_1 filiereDD_2 filiereDD_other # une université :12 Length:62 Min. : 31 Length:62 Oui : 7 Oui :13 Length:62 # une grande école: 1 Class :character 1st Qu.:11000 Class :character Non sélectionné:55 Non sélectionné:49 Class :character # NA's :49 Mode :character Median :31000 Mode :character Mode :character # Mean :24307 # 3rd Qu.:34000 # Max. :79000 # NA's : 45 # intituleDD niveauDC niveauDC_other lieuDC lieuDC_other # Length:62 BTS : 0 Length:62 dans une université :20 Length:62 # Class :character DUT : 0 Class :character dans une grande école: 7 Class :character # Mode :character Licence professionnelle : 6 Mode :character NA's :35 Mode :character # Autre licence : 7 # Master :10 # Je ne prépare aucun diplôme actuellement: 1 # NA's :38 # cpDC PaysDC filiereDC_1 filiereDC_2 filiereDC_other intituleDC cpActuel # Length:62 Length:62 Oui :17 Oui :23 Length:62 Length:62 Length:62 # Class :character Class :character Non sélectionné:45 Non sélectionné:39 Class :character Class :character Class :character # Mode :character Mode :character Mode :character Mode :character Mode :character # # # # # paysActuel situationActuelle situationActuelle_other travail dureeRecherche dureeDE # Length:62 Étudiant(e) :31 Length:62 Oui :19 Min. : 0.000 Min. : 1.000 # Class :character Salarié(e) :14 Class :character Non :33 1st Qu.: 0.000 1st Qu.: 2.000 # Mode :character En recherche d'emploi: 4 Mode :character NA's:10 Median : 3.000 Median : 6.000 # Chef d'entreprise : 0 Mean : 3.167 Mean : 7.263 # NA's :13 3rd Qu.: 5.000 3rd Qu.:12.000 # Max. : 8.000 Max. :18.000 # NA's :44.000 NA's :43.000 # typeEmploi typeEmploi_other poste poste_other secteurDE_1 secteurDE_2 # CDI : 5 Length:62 Technicien(ne) : 7 Length:62 Oui : 9 Oui : 7 # CDD : 4 Class :character Ingénieur(e) : 1 Class :character Non sélectionné:53 Non sélectionné:55 # Vacation/Intérim : 6 Mode :character Chargé(e) d'études : 0 Mode :character # Travailleur indépendant: 2 Chargé(e) de mission: 2 # NA's :45 NA's :52 # # # secteurDE_other salaire # Length:62 Min. : 950 # Class :character 1st Qu.: 1120 # Mode :character Median : 1284 # Mean : 1995 # 3rd Qu.: 1375 # Max. :14000 # NA's : 43 # b. Suppression des variables data$ipaddr <- NULL data$datestamp <- NULL data$lastpage <- NULL data$num <- NULL data$refurl <- NULL data$startdate <- NULL data$startlanguage <- NULL data$submitdate <- NULL data$token <- NULL # c. Utilisation de « id » comme identifiant des observations row.names(data) <- as.character(data$id) data$id <- NULL ## 2. Analyse du jeu de données simplifié # a. Transformation de CP_BAC en facteur d$CP_BAC <- as.factor(d$CP_BAC) # b. Analyse univariée de typeBAC pie(table(d$typeBAC),labels=levels(d$typeBAC),main="Distribution du type de baccalauréat\n des anciens STIDiens",col=rainbow(length(table(d$typeBAC)))) # Commentaire : Plus de la moitiés des sondés sont titulaires d'un baccalauréat de la série S et plus d'un tiers de la série ES. Les trois autres types de baccalauréat possédés par les sondés sont STI, STG et L mais ils sont très marginaux dans l'échantillon. # c. Analyse bivariée de typeBAC et ThemeStage_1 # Distribution de ThemeStage_1 conditionnellement à typeBAC cont.table <- table(d$typeBAC,d$ThemeStage_1) freq.typeBAC <- apply(cont.table,1,sum) cond.dist <- sweep(cont.table,1,freq.typeBAC,"/") cond.dist # Oui Non # ES 0.4210526 0.5789474 # L 0.0000000 1.0000000 # S 0.5769231 0.4230769 # STG 0.0000000 1.0000000 # STI 0.0000000 1.0000000 # Commentaire : Les résultats sont très contrastés selon les filières : les ES et les S ont fait des stages en statistique pour environ la moitié d'entre eux (ils sont plus nombreux chez les S) alors que les L, les STG et les STI n'en ont pas fait (mais ils sont peu nombreux : ce résultat n'est pas très parlant). # C de Cramer chisq <- chisq.test(cont.table) sqrt(chisq$statistic/sum(cont.table)) # Valeur : 0.3169965 ; Commentaires : Le type de baccalauréat du diplômé influence de manière modérée le choix de faire ou non un stage en statistique en deuxième année. # Graphique de la distribution conditionnelle layout(matrix(c(1,1,2),ncol=3)) barplot(t(cond.dist),col=c("red","green"),xlab="type de baccalauréat",ylab="fréquence conditionnelle",main="Répartition des stages en statistique\n selon le type de baccalauréat") plot.new() legend("center",pch=19,col=c("red","green"),legend=c("oui","non"),cex=3)