Boosting

Klassifizierung in fünf Klassen. Der durch Boosting erzeugte Klassifikator klassifiziert nur in zwei Klassen, sozusagen binär.

Boosting (engl. „Verstärken“) ist ein Algorithmus der automatischen Klassifizierung, der mehrere schlechte Klassifikatoren zu einem einzigen guten Klassifikator verschmilzt.

Die zum Verständnis benötigten Grundbegriffe werden im Artikel Klassifizierung erläutert.

Anwendungsgebiete

Boosting kann überall dort verwendet werden, wo eine automatische Klassifikation in zwei Klassen benötigt wird, beispielsweise um Bilder von Gesichtern in „bekannt“ und „unbekannt“ oder Produkte auf einem Fließband als „in Ordnung“ oder „fehlerhaft“ einzustufen. Die Anwendungsgebiete sind damit nahezu ebenso vielfältig wie die der automatischen Klassifizierung an sich.

Bedeutung

Obwohl es weitaus raffiniertere Methoden gibt, Klassifikatoren zu entwerfen, bildet Boosting in vielen Fällen eine annehmbare Alternative: Die Technik liefert akzeptable Ergebnisse und lässt sich einfach in ein Computerprogramm umsetzen, das sparsam im Speicherbedarf und schnell in der Laufzeit ist.

Funktionsweise

Vorgegeben ist eine Reihe von Objekten und eine Reihe schwacher Klassifikatoren. Gesucht ist ein Klassifikator, der die Objekte möglichst fehlerfrei in zwei Klassen einteilt. Boosting kombiniert die vorhandenen schwachen Klassifikatoren so, dass der entstehende neue Klassifikator möglichst wenige Fehler macht.

Schwache Klassifikatoren, auch base classifiers (engl. „Basisklassifikatoren“) oder weak learners (engl. „schwache Lerner“) genannt, sind sehr einfach aufgebaut und berücksichtigen meist nur ein einziges Merkmal der Objekte. Für sich genommen liefern sie deswegen einerseits schlechte Ergebnisse, können aber andererseits sehr schnell ausgewertet werden. Boosting führt alle schwachen Klassifikatoren so mit einer Gewichtung zusammen, dass die stärkeren unter den schwachen Klassifikatoren besonders berücksichtigt, die wirklich schwachen hingegen ignoriert werden.

Grundlagen

Gegeben ist ein Merkmalsraum M beliebiger Dimension und darin eine Trainingsstichprobe T der Größe n, also eine Menge von Mustervektoren x₁, …, x_n. Von jedem dieser Mustervektoren ist bekannt, in welche Klasse er gehört, das heißt zu jedem x_i ist ein y_i ∈ {+1, −1} gegeben, das angibt, in welche der beiden Klassen +1 oder −1 der Mustervektor gehört. Ferner sind m primitive Klassifikatoren f₁,v…, f_m: M → {+1, −1} gegeben, die jeweils den Merkmalsraum in die beiden Klassen +1 und −1 aufspalten.

Gesucht sind die m Gewichtungsfaktoren w₁, …, w_m des Klassifikators F: M → {+1, −1}, der über die Vorzeichenfunktion sgn durch

$F(x) := \sgn(\sum_{i=1}^m w_i f_i(x))$

gegeben ist. Die Gewichtungsfaktoren sollen so optimiert werden, dass F möglichst wenige Fehler macht.

Für die Optimierung bietet sich eine über die Exponentialfunktion e definierte, sogenannte „exponentielle Verlustfunktion“ L als Optimierungskriterium an:

$L := {1 \over n} \sum_{i=1}^n \mathrm{e}^{-y_i F(x_i)} \rightarrow \min$

L wird umso kleiner, je weniger Objekte F falsch klassifiziert. Das Ziel ist also, die Gewichtungsfaktoren so zu wählen, dass L minimal wird.

Diese Optimierung wird schrittweise über m ausgeführt, das heißt zunächst wird nur w₁ optimiert, dann w₂, dann w₃ und so weiter, bis alle Gewichtungsfaktoren optimal sind. Die Optimierung wird im nächsten Abschnitt erläutert.

Schrittweise Optimierung

Die schrittweise Optimierung benötigt m Durchläufe, um alle Gewichtungsfaktoren für F zu optimieren. In jedem Durchlauf wird ein Klassifikator F_s erzeugt, indem zum bisher erzeugten Klassifikator F_s−1 ein schwacher Klassifikator hinzugenommen wird. Das bedeutet, dass der Benutzer die Berechnung nach jedem Durchlauf abbrechen kann, falls das Zwischenergebnis bereits seinen Ansprüchen genügt.

Vor jedem Durchlauf wird beurteilt, welche Mustervektoren mit dem bislang erstellten Klassifikator gut eingeordnet werden können und welche nicht. Diejenigen Mustervektoren, die noch nicht gut klassiert werden, werden im nächsten Durchlauf besonders stark berücksichtigt. Dazu werden in jedem Durchlauf s n Hilfsvariablen t_s,1, …, t_s,n benötigt. Je höher der Wert von t_s,i, desto stärker geht der Mustervektor x_i in den aktuellen Durchgang ein.

Die Nummer des Durchgangs ist s:

1. Gewichte aktualisieren.

Im ersten Durchlauf (s = 1) werden alle Hilfsvariablen auf den Wert 1/n gesetzt: t_1,1, …, t_1,n:= 1/n; somit werden im ersten Durchgang alle Mustervektoren gleich stark berücksichtigt. In allen folgenden Durchläufen (s > 1) werden die Hilfsvariablen wie folgt gesetzt:

$t_{s,i} := t_{s-1,i} \mathrm{e}^{-y_i w_{s-1} f_{s-1}(x_i) }$

Damit werden alle Mustervektoren, die vom eben betrachteten schwachen Klassifikator f_s−1 falsch klassifiziert wurden, in diesem Durchlauf mit einem besonders hohen Hilfsgewicht versehen, alle anderen mit einem besonders geringen.

2. Gewichteten Trainingsfehler bestimmen.

In diesem Durchgang wird der schwache Klassifikator f_s hinzugenommen. Der „gewichtete Trainingsfehler“ ist ein Maß dafür, wie schlecht dieser primitive Klassifikator für sich genommen abschneidet. Für jeden von f_s falsch klassierten Mustervektor x_i summiert er die zugehörige Hilfsvariable t_s,i auf:

$err_s := \sum_{i: f_s(x_i) \ne y_i} t_{s,i}$

Ist der gewichtete Trainingsfehler 0, so klassifiziert f_s alle Mustervektoren richtig, ist er 1, so klassifiziert f_s alles falsch. Ist err_s = 1/2, so klassifiziert f_s genauso gut, als würde er bei jedem Mustervektor bloß raten oder eine Münze werfen.

3. Nächsten Gewichtungsfaktor optimieren.

Der Gewichtungsfaktor w_s des in diesem Durchgang hinzugenommenen primitiven Klassifikators f_s wird aus der folgenden Formel bestimmt:

$w_s = {1 \over 2} \log \left( {1-err_s \over err_s} \right)$

Nach der Formel wird f_s genau dann mit positivem Gewicht zum Endergebnis hinzugenommen, wenn err_s < ½ gilt, das heißt der schwache Klassifikator besser ist als bloßes Raten. Gilt exakt err_s = ½, so folgt w_s = 0, das heißt f_s wird ignoriert. Gilt hingegen err_s > ½, so ist der schwache Klassifikator durchaus brauchbar, er ist nur „falsch gepolt“, das heißt er klassifiziert genau falsch herum; indem er mit einem negativen Gewicht hinzugenommen wird, kann dieser Formfehler ausgeglichen werden und der umgedrehte Klassifikator mit verstärkendem Effekt hinzugenommen werden.

4. Zwischenergebnis aufstellen.

Das Zwischenergebnis F_s ergibt sich aus der Formel:

$F_s(x) := \sum_{i=1}^s w_i f_i(x)$

Es wird also genauso berechnet wie das eigentliche Ziel F, nur dass statt aller m schwachen Klassifikatoren nur die ersten s bereits optimierten berücksichtigt werden.

Diese Schritte werden in dieser Reihenfolge wiederholt, bis alle schwachen Klassifikatoren berücksichtigt wurden, also s = m ist, oder der Benutzer den Fortgang abbricht.

Schwache Klassifikatoren

Typische schwache Klassifikatoren sind sogenannte decision stumps (engl. „Entscheidungsstümpfe“). Diese Funktionen vergleichen den Wert einer einzelnen Koordinate j mit einem Schwellwert l und begründen damit ihre Entscheidung für +1 oder −1. Ist x:= (x₁, …, x_d) ∈ M ein Mustervektor im d-dimensionalen Merkmalsraum M, so hat ein solcher primitiver Klassifikator f im Allgemeinen die Form:

$f(x) = f((x_1, x_2, ..., x_d)) := \begin{cases} +1 & \mbox{falls } x_j \geqslant l \\ -1 & \mbox{falls } x_j < l \end{cases}$

Genauer gesagt unterteilt f den Merkmalsraum mit einer Hyperebene in zwei Klassen.

Der Name spielt auf die Analogie zu Entscheidungsbäumen an: Der erzeugte Gesamtklassifikator F kann als Entscheidungsbaum angesehen werden. Jeder schwache Klassifikator ist ein innerer Knoten dieses Baumes, an dem ein Unterbaum (vgl. engl. stump, „(Baum)Stumpf“) hängt. Die endgültige Klassifizierung in einem der Blätter des Baums wird als Folge binärer Entscheidungen (engl. decision) erreicht.

Solche decision stumps sind als Grundlage für Boosting sehr beliebt, denn sie sind einfach zu handhaben und können extrem schnell ausgewertet werden. Zudem müssen sie nicht von Anfang an vorgegeben sein, sondern können erstellt werden, während der Algorithmus läuft.

Unterarten von Boosting

^[1]

AdaBoost
AsymBoost
Bagging
BrownBoost
DiscreteAB
FloatBoost
GentleAB
GloBoost
KLBoost
LogitBoost
RealAB
WeightBoost

Einzelnachweise

↑ Boosting in der französischsprachigen Wikipedia

Kategorien:

Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

Boosting — is a machine learning meta algorithm for performing supervised learning. Boosting is based on the question posed by KearnsMichael Kearns. Thoughts on hypothesis boosting. Unpublished manuscript. 1988] : can a set of weak learners create a single… … Wikipedia
boosting — index cumulative (intensifying), promotion (encouragement) Burton s Legal Thesaurus. William C. Burton. 2006 … Law dictionary
Boosting — Le boosting est un domaine de l apprentissage automatique (branche de l intelligence artificielle). C est un principe qui regroupe de nombreux algorithmes qui s appuient sur des ensembles de classifieurs binaires : le boosting optimise leurs … Wikipédia en Français
Boosting — Boost Boost (b[=oo]st), v. t. [imp. & p. p. {Boosted}; p. pr. & vb. n. {Boosting}.] [Cf. {Boast}, v. i.] To lift or push from behind (one who is endeavoring to climb); to push up; hence, to assist in overcoming obstacles, or in making advancement … The Collaborative International Dictionary of English
boosting — See start boosting … Dictionary of automotive terms
Boosting (disambiguation) — Boosting may refer to:* Boosting, a machine learning meta algorithm * Boosted fission weapon * A slang term for stealing, usually shoplifting * Boosting (video game), cheating to obtain progress or increase ranks in a video game, especially… … Wikipedia
Boosting methods for object categorization — Given images containing various known objects in the world, a classifier can be learned from them to automatically categorize the objects in future images. Simple classifiers built based on some image feature of the object tend to be weak in… … Wikipedia
Boosting (Sport) — Als Boosting bezeichnet man eine Methode der unerlaubten Leistungssteigerung im Sport, bei der ein Sportler sich selbst Schmerzen zufügt, um durch den Adrenalinschub mehr leisten zu können. Damit ist es dem Doping vergleichbar. Allgemeines Das… … Deutsch Wikipedia
boosting — n. use of one drug to rais blood levels as to intensify the activity of another drug (Medicine) buËst n. push, shove; raising, lift; incentive, encouragement v. raise; push; urge … English contemporary dictionary
boosting ratio — Смотри коэффициент форсирования … Энциклопедический словарь по металлургии

Academic dictionaries and encyclopedias

Boosting

Inhaltsverzeichnis

Anwendungsgebiete

Bedeutung