Modèle linéaire généralisé avec r

Si un modèle de GLM binomiale a été spécifié en donnant une réponse à deux colonnes, les pondérations retournées par les poids antérieurs. sont le nombre total de cas (factorisés par les pondérations de cas fournies) et le composant y du résultat est la proportion de réussites. Alors que les modèles linéaires généralisés sont généralement analysés à l`aide de la fonction GLM (), l`analyis de survie est généralement effectué à l`aide des fonctions du paquet de survie. Le paquet de survie peut traiter un et deux problèmes d`échantillon, des modèles d`échec paramétriques accélérés et le modèle de risques proportionnels de Cox. Le résumé général est: vous pouvez d`abord essayer la régression linéaire. Si ce n`est pas approprié pour votre problème, vous pouvez alors essayer de pré-transformer vos données y (une transformation log-like ou logit) et de voir si cela convient mieux. Toutefois, si vous transformez vos données y, vous utilisez un nouveau modèle d`erreur (dans l`espace transformé tel que les unités log (y) au lieu des unités y, cela peut être mieux ou peut être pire en fonction de votre situation). Si ce modèle d`erreur n`est pas approprié, vous pouvez passer à un modèle linéaire généralisé. Toutefois, le modèle linéaire généralisé ne minimise pas l`erreur carrée dans les unités y, mais maximise la probabilité de données dans le modèle choisi. La distinction est principalement technique et la probabilité maximale est souvent un bon objectif (donc vous devriez être disposé à renoncer à votre objectif de perte carrée d`origine). Si vous wan`t d`aller plus loin encore vous pouvez essayer un modèle additif généralisé qui en plus de remodeler la distribution y utilise des splines pour apprendre les reformes des x-données.

les valeurs moyennes ajustées obtenues en transformant les prédicteurs linéaires par l`inverse de la fonction de liaison. Cependant, la perte carrée a son propre gradient qui implique ses propres équations d`équilibre. Ces nouvelles équations de la balance des pertes carrées ne sont pas respectées. Les nouveaux contrôles (qui ne sont que la dérivée de la fonction de perte par rapport à chacun des paramètres a, b, c) sont: une grande caractéristique de la régression linéaire qui, dans des conditions assez générales: la solution de vraisemblance maximale est aussi la perte carrée minimale Solution. Cela se décompose pour les modèles d`autres formes (comme la régression logistique). Nous continuerons notre exemple numérique juste pour montrer que les deux solutions ne sont pas les mêmes pour la régression logistique. La raison pour laquelle nous travaillons un exemple est que les statistiques en général est difficile à écrire sur (comme lorsque vous écrivez à ce sujet, vous gérez de nombreuses préoccupations différentes: données, formulaire de modèle et d`erreur). Et les statistiques écrivent-UPS sont encore plus difficiles à lire (comme beaucoup de revendications de l`écriture statistique pour résoudre tous les problèmes à la fois ce qui signifie que les auteurs ont tendance à ne pas admettre à des choix et des compromis). Donc, au lieu d`essayer de penser à travers toutes les intentions possibles, nous travaillons un exemple de jouet (et étant donné que nous avons couru dans des complications dans l`exemple de jouet, vous pouvez être assuré que les choses sont encore plus compliquées une fois que nous exposons des techniques à des données réelles).

Si plus d`un de etastart, Start et Mustart est spécifié, le premier dans la liste sera utilisé. Il est souvent conseillé de fournir des valeurs de départ pour une quasi-famille, et aussi pour les familles avec des liens inhabituels tels que gaussien (“log”).