R T I D

R T I D

A. Zusammenfassung in deutscher Sprache

A. Zusammenfassung in deutscher Sprache

Der Prämisse folgend, dass die relevanten Merkmale (Cues) für die Lokalisation innerhalb einer akustischen Umgebung im Schalldruck am Trommelfell vorhanden sind, ermöglicht die binaurale Synthese die Wiedergabe von virtuellen akustischen Umgebungen (VAE virtual acoustic environments).

In der sog. Duplextheorie des Hörens bestimmte Lord Rayleigh ( Strutt 1907 ) interaura-

le Pegel- (ILD, interaural level difference) und Laufzeitunterschiede (ITD, interaural time difference) als maßgebliche Cues für das räumliche Hören. Er stellte fest, dass der Einfall von Schall mit kleinen Wellenlängen im Vergleich zu den Kopfabmessungen eine Schallabschattung bewirkt, wodurch interaurale Pegeldifferenzen entstehen. Außerdem hat der

Ohrabstand zur Folge, dass interaurale Laufzeitdifferenzen entstehen.

Aufgrund ihrer Natur haben beide Cues für jedes Subjekt individuelle Ausprägungen. Da es aber unpraktikabel ist individuelle Messungen durchzuführen, werden für die datenbasierte Binauralsynthese sogenannte binaurale Raumimpulsantworten (BRIR, binaural room impulse response) verwendet (siehe Abb.

A.1

). Diese enthalten die binauralen Cues des bei

der Messung verwendeten (Kunst-)kopfes, welche, je nach Hörer, unterschiedliche Auswirkungen haben können.

In dieser Diplomarbeit werden sowohl ein Verfahren für die Individualisierung einer dieser

Cues – der ITD – sowie eine Software für die praktische Umsetzung vorgestellt. Darüber hinaus wird eine auf anthropometrischen Maßen basierende empirische Formel hergeleitet, welche dazu dient, die praktische Anwendung der Individualisierung zu vereinfachen.

A.1. Motivation

A.1.1. Die Verwendung von nicht-individuellen Lokalisationscues

Die Verwendung von nicht-individuellen binauralen Cues wurde von verschiedenen Auto-

ren ausfürlich untersucht ( Algazi et al. 1997

;

Wenzel et al. 1988

,

1993

). Dies kann anhand von zwei Aspekten verdeutlicht werden: i

A. Zusammenfassung in deutscher Sprache

Abbildung A.1.: Data-Set Akquise unter Verwendung des HATS (Head and torso simulator)

FABIAN ( Lindau 2006

).

die Veränderung der Klangfarbe, welche aufgrund der Verwendung von nichtindividuellen ILDs bzw. unterschiedlichen spektralen Charakteristika zustande kommt.

Da diese Unterschiede meistens nur im direktem Vergleich zur realen Schallquel-

le wahrnehmbar sind ( Møller and Hoffmann 2006

), werden sie im allgemeinen als nicht gravierend eingestuft.

Lokalisationsfehler aufgrund von nicht-individuellen ITDs sind dagegen störender, weil sie zu konstanten Quellverschiebungen und/oder zur Instabilität der virtuellen

Schallquellen führen.

Algazi et al.

( 2001b

) erwähnt dass bei dynamischen binauralen Systemen (d.h. der Kopfbewegung folgende Systeme), wenn der Kopfradius des

Hörers kleiner ist als der Kopfradius des zugrundeliegenden Data-Sets, die virtuellen

Schallquellen wahrgenommen werden, als würden sie in die Gegenrichtung wandern.

Hat der Hörer einen größeren Kopfradius als der bei der Akquisition verwendeten

Kopf, werden die virtuellen Schallquellen wahrgenommen, als würden sie mit der

Kopfbewegungsrichtung mitwandern.

A.1.2. Das vorgeschlagene Individualisierungsmodell

Um die im vorigen Abschnitt erwähnten Lokalisationsfehler zu vermeiden, wird ein Individualisierungsmodell entwickelt, basierend auf der frequenzunabhängigen Manipulation der

ITD in Echtzeit. Das Modell kann in drei Schritten beschrieben werden:

• Die im binauralen Data-Set enthaltene IT D

(

θ

,

φ

) soll in einen maschinenlesbaren

Format erfasst werden.

ii

A. Zusammenfassung in deutscher Sprache

Kopfposition [OSC] individuelle ITD Skalierung

[OSC] dynamische schnelle Faltung subsamplegenaue

Verzögerung

(durch SRC)

ITD.txt

BRIR Dataset ohne ITDs

Abbildung A.2.: Vereinfachtes Schema des ITD- Individualisierungsmodells

• Die Faltungseinheit verwendet ein Data-Set aus minimalphasigen anstelle der originalen Impulsantworten.

• Die fehlenden Laufzeitunterschiede zwischen linkem und rechtem Kanal werden durch eine subsample-genaue Zeitverzögerung ersetzt, welche die im ersten Schritt erfasste

ITD mit einem Individualisierungsfaktor skaliert.

Abbildung

A.2

zeigt eine schematische Darstellung des Modells.

A.1.3. Vorteile des Modells

Die Implementierung des Modells hat folgende Vorteile:

• Unter der Voraussetzung einer entsprechend skalierten ITD kann die Instabilität von virtuellen Schallquellen beseitigt werden.

• Reduktion der CPU Last aufgrund der Faltung von verkürzten Impulsantworten.

• Artefaktfreie Überblendung von Impulsantworten. Dynamische binaurale Systeme verwenden je nach Kopf- bzw. Quellposition unterschiedliche Impulsantworten. In unserem Modell enthalten diese während des Faltungsprozesses keine Laufzeit. Dadurch werden bei der Überblendung Kammfilter-, Repetitions- und Ommissionsartefakte vermieden.

iii

A. Zusammenfassung in deutscher Sprache

• Verbesserte Verteilung der CPU Last bei Multiprozessorsystemen. Virtuelle Schallquellen werden in unserem Modell getrennt behandelt, dies ermöglicht die Parallelisierung der Audioprozesse in Multiprozessorsystemen.

• Erhaltung des natürlichen Hörvorgangs. Das Individualisierungsmodell aus Abb.

A.2

sieht die Verwendung von Time-Stretching für das Wiedereinfügen der ITD vor. Dieser Prozess ähnelt dem physikalischen Vorgang des Dopplereffekts beim natürlichen

Hören, wenngleich die Auswirkungen nicht direkt wahrnehmbar sind (siehe Anhang

F ).

• Reduktion der Winkelauflösung bei der Data-Set Akquisition. Die getrennte Behandlung von spektralen und zeitlichen binauralen Cues ermöglicht die Verwendung von unterschiedlichen Auflösungen, z.B. eine grobe Auflösung bei der Data-Set Akquisition und beim Faltungsprozess während die temporalen Cues, unter Verwendung von

Interpolation, mit feinerer Auflösung repräsentiert werden können.

A.2. Stand der Forschung

A.2.1. Individualisierung mit Hilfe von anthropometrischen Maßen

Verschiedene Autoren beschäftigten sich mit der Individualisierung von HRTFs auf der

Basis von anthropometrischen Maßen. Bereits im Jahr 1962 wurde von Woodworth und

Schlosberg eine Formel für die Ermittlung von ITDs, auf Grundlage des Kopfradius entwickelt

15

. Diese Formel (Gl.

A.1

) nimmt als Modell einen sphärischen Kopf mit symmetrisch

zur Medianebene angebrachten Ohren an ( Woodworth et al. 1972

): mit:

a = Kopfradius

c = Schallgeschwindigkeit

θ

= Azimut in [Rad]

∈ −

π

2

<

θ

<

π

2

IT D

=

a c

(sin

θ

+

θ

)

(A.1)

Duda et al.

( 1999

) entwickelte ein ellipsoides Kopfmodell, das eine bessere Approximation der ITD für Elevationseinflüsse liefert. Allerdings sind dafür mehrere anthropometrische

Messungen notwendig und das Verfahren ist rechenintensiv. Daher eignet sich diese Methode nicht für die Echtzeitimplementierung.

15

Für den Fall synthetischer Schallfelder oder wenn die Position der Quelle bekannt ist.

iv

A. Zusammenfassung in deutscher Sprache

Algazi et al.

( 2001b

) untersuchten den Fehler, der unter Verwendung eines nicht angepassten Kopfradius in der Woodworth-Schlosberg Formel entsteht, und entwickelten eine empirische Formel für die Ermittlung eines optimalen Kopfradius basierend auf Messungen von

Kopfbreite, Kopftiefe und Kopfhöhe von 25 Versuchspersonen. Sie kamen zu dem Schluss, dass nur zwei Messungen notwendig sind, um einen optimalen Kopfradius zu berechnen, und zwar der Kopfbreite und der Kopftiefe.

Larcher und Jot erweiterten die Woodworth-Schlosberg Formel, um die Abhängigkeit der

ITD zur Elevation miteinzubeziehen ( Larcher and Jot 1999 ). Ebenso wurde in

Savioja et al.

( 1999

) eine Vereinfachung von Larcher’s Formel dargestellt.

Im Fall empirischer Data-Sets mit unbekannter Position von Schallquellen sind die o.g.

Methoden nicht anwendbar. Nichtsdestotrotz stellt die Verwendung von anthropometrischen

Maßen einen inspirierenden Individualisierungsansatz dar.

A.3. Methoden

Das vorgeschlagene Individualisierungsmodell setzt voraus, dass sowohl spektrale als auch temporale Cues für die räumliche Wahrnehmung in getrennten Prozessen behandelt werden können. Diese Annahme soll in diesem Abschnitt mit Hilfe der Systemtheorie begründet werden.

In der LTI (linear time invariant) Systemtheorie kann der komplexe Frequenzgang einer kopfbezogenen Transferfunktion als Betrag und Phase dargestellt werden:

H

( j

ω

) = |H(

ω

)| · e

j

ϕ

min

(

ω

)

· e

j

ϕ

excess

(

ω

)

(A.2)

Der frequenzabhängige Exzessphasenanteil kann wiederum durch ihre linearphasigen und allpass-haltigen Komponenten ausgedrückt werden.

H

( j

ω

) = |H(

ω

)| · e

j

ϕ

min

(

ω

)

· e

j

ϕ

lin

(

ω

)

· e

j

ϕ

all pass

(

ω

)

(A.3)

Aufgrund der geringen Hörbarkeit von Phasenspektren für Menschen ( Preis 1982

) und dadurch, dass für die meisten Schalleinfallswinkel die Allpass-Komponenten unhörbar sind, können diese vernachlässigt werden, ohne die räumliche Wahrnehmung zu beinträchtigen

( Minnaar et al. 1999

):

H

( j

ω

) = |H(

ω

)| · e

j

ϕ

min

(

ω

)

· e

j

ϕ

lin

(

ω

)

(A.4) v

A. Zusammenfassung in deutscher Sprache

Abbildung A.3.: ITD ermittelt durch Onset Detektion bei 10facher Überabtastung, Detektionschwelle -3dB. Data Set: FABIAN’s HRIRs (Elevation: 0

, Azimut:

−180

◦ bis

+180

, Auflösung: 1

)

Weiterhin kann die linearphasige Komponente in Gl.

A.4

durch eine Zeitverzögerung er-

setzt werden, solange diese einer geeigneten Näherung der ITD entspricht ( Kulkarni et al.

1999

).

A.3.1. Ermittlung der ITD aus binauralen Datensätsen mittels Onset

Detektion

Die Anwendung unseres Modells erfordert Methoden für die Ermittlung der IT D

(

θ

,

φ

) und die Extraktion von minimalphasigen Impulsantworten aus empirischen Data-Sets. In einer

Vorarbeit ( Estrella 2010

) wurden verschiedene Verfahren ausführlich quantitativ und perzeptiv ausgewertet. An dieser Stelle werden diese Methoden nur erwähnt.

Als geeignete Verfahren zur Ermittlung der ITD wurde die Onset Detektion ermittelt. Diese

Methode bestimmt für jede Impulsantwort eines BRIR-Paars die Sampleposition, bei der ein

Schwellwert bezüglich des BRIR-Spitzenwerts erreicht wird. Aus der Differenz der beiden

Samplepositionen kann der interaurale Laufzeitunterschied bestimmt werden. Es ist anzumerken, dass, um die Genauigkeit der Detektion zu verbessern, diese im überabgetasteten

Bereich erfolgen sollte. Abbildung

A.3

zeigt einen Beispiel dieses Verfahrens.

vi

A. Zusammenfassung in deutscher Sprache

Original HRTF pair

0

−20

−40

−60

0

0

−20

−40

−60

0

20 40 60 samples

Modified HRTF pair

80 left IR right IR

100 120 left IR right IR

20 40 60 samples

80 100 120

Abbildung A.4.: Extraktion von minimalphasigen Impulsantworten mit der Methode der

Onset Detektion. Die leichte Veränderung der Einhüllenden beruht auf dem Manipulationsvorgang an den BRIRs.

A.3.2. Extraktion von minimalphasigen Impulsantworten nach der Onset

Detektion Methode

Als geeignete Methode für die Extraktion von minimalphasigen Impulsantworten wurde in

Estrella ( 2010

) die Trennung der originalen BRIRs in einen minimalphasigen Anteil und einen Verzögerungsanteil am Abtastwert des jeweiligen Onsetkriteriums bestimmt. Abbildung

A.4

zeigt ein Beispiel dieses Verfahrens.

A.3.3. Fraktionale Zeitverzögerung

Um die ITD akkurat zu skalieren, sollte das System in der Lage sein, fraktionale Zeitverzögerungen (d.h. zwischen Abtastwerten) zu liefern:

nT <

τ

<

(n + 1)T wobei:

τ

= Zeitverzögerung

T

= Abtastintervall mit n ∈ N

Als optimaler Ansatz für die Umsetzung der fraktionalen Verzögerung in zeitdiskreten Systemen wird in

Välimäki et al.

( 1996

) die Anwendung der sinc Interpolation vorgeschlagen.

vii

A. Zusammenfassung in deutscher Sprache

Abbildung A.5.: Ideale fraktionale Zeitverzögerung. Oben: Delay D ist ganzzahlig, die Abtastung erfolgt an den Null-Übergängen. Unten: Delay D ist nicht ganzzahlig, Abtastung erfolgt zwischen den Null-Übergängen. Dem Idealfall entspricht eine Impulsantwort unendlicher Länge. Aus

Välimäki and Laakso

( 2000 ).

Die Methode, bekannt als bandbegrenzte Interpolation, basiert auf der Verwendung von versetzten sinc FIR Filtern (siehe Gl.

A.5

) die das zu verzögernde Signal erneut abtasten. Diese

Methode kann als eine Erweiterung des Nyquist Theorems interpretiert werden:

h id

(n) =

sin

[

π

(n D)]

π

(n D)

= sinc(n D)

(A.5)

Abbildung

A.5

zeigt ein Anwendungsbeispiel.

Da die sinc Filter keine unendliche Länge haben können, spielt die Auswahl der Anzahl von

Filterkoeffizienten eine große Rolle in Bezug auf die Bandbreite des Audiosignals.

A.4. Implementierung

In diesem Abschnitt werden praktische Aspekte der Implementation der Individualisierungsmethode als Softwareanwendung behandelt.

viii

A. Zusammenfassung in deutscher Sprache

A.4.1. Data-Set Vorbereitung

Wie in Sektion

A.3

bereits erklärt wurde, sind die Ermittlung der IT D

(

θ

,

φ

) und die Extraktion von minimalphasigen Impulsantworten Vorraussetzungen für die Verwendung der

Individualisierungssoftware. Diese Aufgaben werden mit Hilfe von einem Matlab

Skript durchgeführt (siehe Anhang

B ). Folgende Anforderungen dienen als Richtlinie für das De-

sign der ITD-Individualisierungssoftware:

• Individualisierung in Echtzeit. Dynamische binaurale Systeme erfordern dass alle

Prozesse in Echtzeit mit niedrigen Latenzen durchgeführt werden.

• Hoher SNR (signal to noise ratio).

• Die Bandbreite soll mindestens das menschliche Hörvermögen abdecken.

• Kompatibilität mit der Echzeitfaltungseinheit FWONDER.

• Sample-fraktionale Zeitverzögerung.

• Konfigurationsskripte.

• Konfiguration über die Kommandozeile.

• Echtzeitsteuerung über OSC, GUI (graphical user interface) und Tastatur.

A.4.2. Softwarekomponenten

Die Softwareanforderungen aus dem vorigen Abschnitt wurden unter Verwendung folgender Komponenten erfüllt:

Jack Audio Server

Sowohl die Kompatibilität mit der Echzeitfaltungseinheit FWONDER als auch die Durchführung der Audioprozesse mit niedriger Latenz werden bei der Wahl von Jack Audio als Basis für die Echtzeitanwendung erfüllt. Dabei arbeitet der Audioprozess der ITD Individualisierungssoftware änlich wie ein Plugin wobei die synchronisierte

Durchführung und Wiedergabe Jack überlassen wird.

Time-Stretching

Die in C++ geschriebene Softwareanwendung verwendet Quellcode- offene Bibliotheken für die Durchführung bestimmter Aufgaben. Für das Wiedereinfügen der ITD mittels Time-Stretching wird die

Libsamplerate SRC API

(API, application programing interface) verwendet. Diese Programmierschnittstelle bietet Sinc- Interpolation mit einer Bandbreite von bis zu 97% , einem SNR von 97 dB und der Abarbeitung von Audiostreams.

ix

A. Zusammenfassung in deutscher Sprache

Abbildung A.6.: Grafische Benutzeroberfläche der ITD-I Software unter GTK+2.2

OSC Steuerung

Der Headtracker am Kopfhörer sendet die aktuelle Kopfposition als OSC

(open sound control) Nachrichten. Diese werden in FWONDER zur Aktualisierung der Filter und in der Software zur Aktualisierung der ITD verwendet. Die OSC-Nachrichtenübertragung wird mit Hilfe der

Liblo OSC API

durchgeführt.

XML Skripte

Um die Kompatibilität mit FWONDER zu gewährleisten soll die ITD-I (ITD

Individualisierungssoftware) in der Lage sein, FWONDER’s Startparameter lesen und interpretieren zu können. Des weiteren soll die Software sowohl die bei der Vorbereitung des

Data-Sets erstellte Konfigurationsbeschreibung, sowie auch die im XML-Format vorliegenden ITD-I Konfigurationsskripte lesen können. Die Syntaxanalyse erfolgt hierbei mit Hilfe der

Libxml++

Library.

Grafische Benutzeroberfläche

Um eine gängige Verwendung der ITD-I Software zu ermöglichen, wurde ein GUI (graphical user interface) mit dem GTK+ Toolkit entwickelt.

Dieses Werkzeug ist unter der

GNU LGPL

Lizenz verfügbar und wird bei den meist verwendeten Betriebssystemen unterstützt. Abb.

A.6

zeigt einen Screenshot in der Linux-Gnome

Version.

x

A. Zusammenfassung in deutscher Sprache

Abbildung A.7.: Relevante anthropometrische Maße für die Bestimmung der individuellen

ITD

A.5. Anthropometrie-basierte ITD Individualisierung

Die korrekte Skalierung der fremden ITDs wird nur gewährleistet wenn diese in Verbindung mit den physikalischen Charakteristika des Höreranatomie gebracht werden kann. Dabei ist es wichtig anzumerken dass nicht alle Hörer in der Lage sind ihre eigene ITD akkurat zu skalieren. Deshalb wird eine Methode benötigt um diesen Schritt zu vereinfachen und die

Anwendung der ITD-I Software in der Praxis zu erleichtern.

A.5.1. Hörversuch zur Ermittlung des individuellen ITD-Skalierungsfaktors

Vergleichbar zu Algazi’s Ansatz ( Algazi et al. 2001b

) wurde ein Hörversuch entwickelt, um anthropometrische Maße der Versuchsteilnehmer mit einem Skalierungsfaktor in Verbindung zu bringen. Hierfür wurde an allen Teilnehmern Messungen von relevanten Kopfdimensionen durchgeführt. Es wurden die Kopfbreite, Kopftiefe und Kopfhöhe nach Norm

DIN33402-2E ( 2005

), sowie ergänzend die Kopfbreite anhand der Intertragusdistanz gemessen. Dieses Maß wurde aufgrund der, nahe dem Ohrkanal gelegenen und gut reproduzierbaren Position der incisura anterior gewählt. Abb.

A.7

zeigt diese Maße.

A.5.1.1. Hörversuchsaufbau

In einem akustisch bedämpften Raum (Volumen = 155 m

3

, RT = 0.47 s) wurde ein binaurales Data-Set mit Hilfe des FABIAN HATS aufgenommen. Die Messung deckte einen xi

A. Zusammenfassung in deutscher Sprache

Abbildung A.8.: Frequenzgang des Tiefpassfilters zur Minimierung des Lokalisationseinfluss der ILD.

Bereich von 180

◦ in der Horizontalebene ab und wurde mit 1

Auflösung durchgeführt (ohne Berücksichtigung der Elevation, bzw. Elevation = 0

).

Ein Lautsprecher Genelec 1030A, plaziert in 2 m Entfernung vom HATS bzw. vom Hörer, diente als Schallquelle für die Aufnahme und als Referenz während des Versuchs. Um den

Einfluss der ILD auf die Lokalisation zu minimieren wurde als Stimulus eine Folge von

Tiefpass-gefilterten (

ω

g

= 1.5kHz) Impulsen weißen Rauschens verwendet, welche mit dem aufgenommenen Data-Set auralisiert wurden (siehe Abb.

A.8

). Für die Durchführung des

Hörversuchs wurde eine Software mit folgenden Eigenschaften in C++ entwickelt:

• Umschaltung zwischen Referenzlautsprecher und Simulation mit Hilfe einer Steuerungsschnittstelle.

• Erzeugung von zufallsgenerierten Skalierungsfaktoren für jede neue ITD-Kalibrierung.

Die Werte konnten zwischen dem 0

.00- und 2.00-fachen der ITD vom Data-Set variiert werden.

• Speicherung des Hörversuchsergebnis in einem maschinell lesbaren Format (CSV).

• Überwachung des Hörversuchs über einen Computer im Netzwerk.

Als Steuerungsschnittstelle wurde eine Computertastatur verwendet, dessen für den Hörversuch relevanten Tasten entsprechend gekennzeichnet waren. Die Versuchsteilnehmer konnten damit den ITD-Skalierungsfaktor vergrößern bzw. verkleinern, zwischen Simulation und

Referenz beliebig umschalten und den gewünschten Stand der Kalibrierung speichern.

xii

A. Zusammenfassung in deutscher Sprache

A.5.1.2. Versuchsdurchführung

11 Versuchspersonen nahmen an diesem Hörversuch teil. Von allen wurden vor Beginn des

Hörversuchs die o.g. anthropometrischen Maße erfasst. Zunächst wurde jede Versuchsperson auf die Instabilität von Schallquellen bei unpassender ITD aufmerksam gemacht. Um sicher zu stellen dass die Versuchsaufgabe und die Bedienung der Schnittstelle verstanden wurden, wurde den Versuchsteilnehmern für das Training beliebig viel Zeit zur Verfügung gestellt.

Die Aufgabe im Hörversuch bestand darin, mit Hilfe der Schnittstelle die virtuelle Schallquelle stabil und in Übereinstimmung mit der reellen Schallquelle (aus dem Referenzlautsprecher) zu bringen. Es wurden von jedem Teilnehmer 10 Einstellungen von Kalibrierungsfaktoren erfasst.

A.5.2. Statistische Auswertung

Trotz des Trainings, und der deutlichen Hörbarkeit des Artefakts instabiler Schallquellen, war manchen Versuchspersonen der funktionale Zusammenhang und die Manipulation durch die variable ITD nicht klar zu machen. Durch Outliertests, Residualanalysen und nach

Selbstaussagen wurden 2 der Versuchspersonen ausgeschlossen, so dass nur noch 9 der

11 Ergebnisse in die weitere Auswertung einflossen.

Abbildung

A.9

zeigt die individuellen Verteilungen der je 9 hergestellten Skalierungsfaktoren als Boxplots. Die Medianwerte des Skalierungsfaktors der ITD überdecken einen Bereich von -5% bis +7%, individuell teils starke Streuungen sind erkennbar. Die korrigierte

Varianzaufklärung zeigt, dass lediglich ein Prädiktor, die Intertragusdistanz, zur Vorhersage ausreicht. Sie zeigt eine Korrelation von r = 0.84 auf einem Signifikanz-Niveau von 0.5%, und erreicht damit auch einen höheren Zusammenhang als die noch bei Algazi verwendete Kopfbreite nach DIN. Das endgültige Vorhersagemodell wurde daher aus einer linearen

Regression über die Intergtragusdistanz bestimmt. Abbildung

A.10

zeigt alle Messwerte, deren Standardabweichungen, die Regressionsgerade sowie die hyperbolischen 95% Konfidenzintervalle. Man erkennt den mit zunehmenden Abstand erwartungsgemäß ansteigenden

Skalierungsfaktor.

xiii

A. Zusammenfassung in deutscher Sprache

Abbildung A.9.: Verteilung der individuell hergestellten ITD-Skalierungsfaktoren von 9

Versuchsteilnehmern. Die großen Streuungen sind anzumerken.

Abbildung A.10.: Modellierung der Hörversuchsergebnisse: lineares Regressionsmodell dargestellt über die Intertragusdistanz mit 95% Konfidenzintervallen.

xiv

A. Zusammenfassung in deutscher Sprache

A.5.3. Anthropometrie-basierte ITD-Individualisierungsformel

Die durch Regression ermittelte Formel für die individualiserte Skalierung der fremden ITD lautet:

S

= 0.00304 · d

i

+ 0.5792

(A.6) mit d

i

= Intertragusdistanz in mm.

An dieser Stelle ist wichtig anzumerken, dass dieses Modell nur für binaurale Data-Sets, die mit dem HATS FABIAN aufgenommen sind, gültig ist. Das Modell könnte zu arbiträren Data-Sets verallgemeinert werden, wenn der mit Gl.

A.6

ermittelte Skalierungsfaktor mit dem Verhältnis der Intertragusdistanzen FABIAN / anderer Kunstkopf angepasst bzw.

skaliert wäre. Dieser Aspekt wurde jedoch noch nicht untersucht.

A.6. Zusammenfassung und Diskussion

Diese Diplomarbeit befasste sich mit der Problematik der nicht-individuellen ITD in der

Binauralsynthese. Es wurden sowohl eine Methode für die Individualisierung der ITD in

Echtzeit sowie eine Softwareanwendung für die Anwendung behandelt bzw. entwickelt.

Bei der Methode handelt es sich um die Trennung der Impulsantworten in ihre spektralen und temporale Merkmale. Hierfür werden minimalphasige Impulsantworten aus einem binauralen Data-Set extrahiert und für die Wiedergabe der spektralen Cues mittels Echtzeitfaltung verwendet.

Ebenso wird die ITD als temporales Lokalisationsmerkmal aus dem Data-Set ermittelt und als Zeitverzögerung zwischen linkem und rechtem Ohrsignalen wieder eingefügt. Dies geschieht durch lineare Skalierung der ermittelten ITD mit einem individualisierten Faktor.

Eine empirische Formel für die Feststellung des geeigneten Skalierungsfaktors auf Basis von anthropometrischen Maßen wurde durch Regression ermittelt. Zu diesem Zweck wurde ein Hörversuch durchgeführt, durch den anthropometrische Maße mit den ITD-

Skalierungsfaktoren von 9 Versuchspersonen in Verbindung gebracht werden konnten.

Ausblick

Die Methode zur Echtzeit ITD Individualisierung, die in dieser Arbeit dargestellt wurde, stellt eine Fortentwicklung in der binauralen Technologie dar, für sie bleiben jedoch noch xv

A. Zusammenfassung in deutscher Sprache offene Fragen und Entwicklungsmöglichkeiten. Einige Aspekte die noch zu untersuchen sind wären:

• Gl.

A.6

soll in einem Hörversuch und mit möglichst vielen Probanden perzeptiv untersucht und überprüft werden.

• Die Verwendung von Gl.

A.6

mit Datensätzen anderer HATS als FABIAN über einen

Korrekturfaktor der Intertragusdistanzen sollte ebenso in einem Hörversuch erforscht werden.

• Die minimale Auflösung für die Akquise eines Data-Sets im Fall der getrennten Behandlung von spektralen und temporalen Lokalisationscues, sowie Auswirkungen der

Interpolation der erfassten ITDs ist noch nicht bekannt.

• Die Annahme, dass die frequenzunabhängige Skalierung der ITD ausreichend ist, könnte weiter erforscht werden.

xvi

Was this manual useful for you? yes no
Thank you for your participation!

* Your assessment is very important for improving the work of artificial intelligence, which forms the content of this project

Download PDF

advertisement

Table of contents

Languages