Komplementieren Relativer und Absoluter Eigenlokalisierungsverfahren

BearbeiterIn:Felix Ott
Titel:Komplementieren Relativer und Absoluter Eigenlokalisierungsverfahren
Typ:masters thesis
Betreuer:Feigl, T.; Mutschler, C.; Philippsen, M.
Status:abgeschlossen am 1. Februar 2019
Vorausetzungen:
Thema:

Schlüsselwörter: Signal Processing, Time-Series Data, Simultaneous Localization and Mapping, Structure from Motion, Optical Flow, Visual Odometry, Recurrent Neural Networks.

Die Gruppe „Machine Learning & Information Fusion” am Fraunhofer-Institut für Integrierte Schaltungen (IIS) in Nürnberg forscht an der Verarbeitung von komplexen Sensor- und Positionsdatenströmen und deren Analyse und Auswertung auf verständlicher und abstrakter Ebene in Echtzeit. Das Institut betreibt das „Lokalisierungs-, Identifikations-, Navigations- und Kommunikations-" Testzentrum (L.I.N.K.), das weltweit einzigartig auf einer Fläche von über 1400 m2 zur Entwicklung und Evaluation neuester optischer und funkbasierter Lokalisierungstechnologien dient.

Ziel der im Kontext von „Industrie 4.0" durchgeführten Arbeiten ist es, Fertigungsprozesse in Industriestraßen zu automatisieren und mit Hilfe (teil)autonomer freibeweglicher (meist selbstfahrender) Robotersysteme gezielt zu optimieren. Dabei spielen sowohl zeitliche, finanzielle, als auch sicherheitskritische Faktoren eine wesentliche Rolle. Ein autonomer Roboter muss vorhersagbar und zuverlässig in Industriestraßen eingesetzt werden können. Er muss bewegte Objekte (bspw. Menschen) sicher und echtzeitnahe erkennen, seine Eigendynamik von der Umgebungsdynamik unterscheiden, und im Notfall moralisch unbedenklich handeln können. Um diese Ziele zu erreichen, muss unter anderem die Positionierung des Roboters so akkurat und präzise als möglich erfolgen und diese muss echtzeitnah zur Fahrtzeit in die Routenplanung einfließen.

Bisherige Verfahren des Standes der Technik und Wissenschaft ermöglichen quasi-autonome Roboter (hier Fahrzeuge), die sich selbst in der Umgebung lokalisieren können (Eigenlokalisierung). Zur Eigenlokalisierung werden sogenannte Inside-Out Lokalisierungsverfahren verwendet, die aber die oben aufgeführten Ziele aus folgenden Gründen nicht befriedigend erreichen:

  • 1) Optische SLAM-Verfahren (Simultaneous Localization and Mapping) [1] sind anwendungs- und ortsspezifisch, benötigen viel Rechenkapazität und sind durch den Einsatz von merkmalsbasierten Verfahren wie bspw. Scale-Invariant Feature Transform (SIFT) in homogen oder repetitiv texturierten Umgebungen fehleranfällig, da in diesen Fällen keine eindeutigen Merkmale zur Umgebungsidentifikation und -rekonstruktion vorhanden sind.
  • 2) Optical Flow Verfahren (bspw. FlowNet [3], PWC-Net [11] oder Visual Odometry [4]) können die aktuelle Pose des Systems nur relativ (im Raum) bestimmen.
  • 3) Klassische Verfahren des maschinellen Lernens wie Regression Forests [6] liefern sehr genaue Absolutpositionen, benötigen aber enorm viele Trainingsdaten mit hoch-präzisen Tiefeninformationen, die sehr aufwändig zu erheben sind. Structure from Motion [2] Verfahren können zwar 3D Modelle aus Bilddaten generieren, sind jedoch in homogen texturierten Umgebungen durch den Einsatz von SIFT fehleranfällig. Die Anzahl der Merkmale steigt mit der Umgebungskomplexität und -größe und schließt so Echtzeitanwendungen aus.
  • 4) Tiefe Neuronale Netze, wie bspw. PoseNet [5], benötigen im Gegensatz zu Regression Forests keine Trainingsdaten mit Tiefeninformationen, sind robuster in texturierten, repetitiven Umgebungen als klassische merkmalsbasierte Verfahren [7] und verfügen über hohe Kapazitäten für die Abbildung von Merkmalen der Umgebung. Allerdings sind sie ungenauer und unpräziser und benötigen viele Trainingsdaten.

Erste Vorstudien haben gezeigt, dass jedes bekannte Verfahren (1-4) für sich betrachtet viel zu ungenau und zu instabil ist, um den eingangs skizzierten Anforderungen an einen autonomen Roboter (hier Fahrzeug) zu genügen.

Ziel dieser Arbeit ist es daher, die Stärken möglichst komplementärer Verfahren (hier Verfahren 2 und 4) gegen ihre Schwächen in einem Ende-zu-Ende lernenden Ansatz kombiniert einzusetzen. So soll das durch diese Arbeit entwickelte Verfahren zur Eigenlokalisierung eines autonomen Roboterfahrzeuges in einer repräsentativ texturierten und repetitiven Umgebung in der Industrietesthalle L.I.N.K. des Fraunhofer IIS eine hohe Genauigkeit der Absolutpositionen ermöglichen.

  • a) Es soll in einem ersten Schritt versucht werden, die absolute Positionsgenauigkeit von Verfahren 4 zu steigern. Dazu soll PoseNet um zeitliche Zusammenhänge (mit Hilfe von Rekurrenten Neuronalen Netzen, RNN) erweitert werden. Die klassische PoseNet-Architektur soll daher um zeitsensitive Gedächtniszellen (bspw. Gated Recurrent Units (GRU) [8, 9] oder Minimal Gated Units (MGU) [10]) erweitert werden, um den zeitlichen Verlauf und Kontext zwischen Bildern zu berücksichtigen und speichereffizientere und akkuratere Modelle zu erlernen. Das Ziel ist eine möglichst akkurate absolute Trajektorie über lange Zeiträume.
  • b) In einem zweiten Schritt soll untersucht werden, wie die genaueren absoluten Positionen aus Schritt (a) genutzt werden können, um längerfristige Fehlschätzungen der relativen Positionierungsverfahren von Verfahren 2 zu korrigieren. Das Ziel ist, eine höchst akkurate relative Trajektorie über kurze Zeiträume zu erreichen.
  • c) Anschließend wird ein Fusionsalgorithmus implementiert, der die absolute Trajektorie (aus a) mit der relativen Trajektorie (aus b) zusammenführt. Ziel dieser Fusion ist das Erlernen der optimalen Komplementierung von relativen und absoluten Positionsänderungen, z. B. Geschwindigkeiten, und absoluten Positionen. Hierzu soll ein RNN verwendet werden, das die absolute Trajektorie aus der absoluten Langfristtrajektorie und der relativen Kurzzeittrajektorie erlernt.
  • d) Zur quantitativen Evaluation der drei Schritte wird das sub-millimeter genaue Fraunhofer IIS System-Evaluation-Framework eingesetzt, das Referenz-, Ortungs- und Positionierungssysteme reproduzierbar und vergleichbar vermisst. Dazu sollen bereits bestehende Trainingsdaten und Testdaten verwendet oder falls nötig weitere Datensätze erhoben werden.

Zeitplan (6 Monate):

  • [4 Wochen] Literatur und Patentrecherche; Einarbeitung in relevante Arbeiten zu den Themengebieten.
  • [6 Wochen] Adaptierung der Einzelkomponenten:
  • > [3 Wochen] Absolut positionierendes Verfahren, Schritt (a) (CNN, z. B. PoseNet).
  • > [3 Wochen] Relativ positionierendes Verfahren, Schritt (b).
  • [4 Wochen] Fusion, lernendes Verfahren zur Komplementierung der absoluten und relativen Komponenten (RNN), Schritt (c).
  • [4 Wochen] Evaluation mit Hilfe des Fraunhofer IIS System-Evaluation-Frameworks.
  • [6 Wochen] Niederschrift.

Erwartete Ergebnisse und wissenschaftlicher Mehrwert:

  • Kombination von PoseNet und FlowNet, um genauere Absolutpositionen zu erzielen.
  • Implementierung eines komplementären RNN-Fusionsalgorithmus zur Bestimmung der absoluten Position aus Positionsänderung und absoluter Position.
  • Ergebnisse der Evaluation mit Hilfe des Fraunhofer IIS System-Evaluation-Verfahrens. (Erheben weiterer Trainings- und Testdatensätze bei Bedarf.)

Referenzen:

  • [1] R. Mur-Artal, J. D. Tardós. ORB-SLAM2: An Open-Source SLAM System for Monocular, Stereo and RGB-D Cameras. Trans. Robotics, Vol. 33, No. 5, pp. 1255-1262, 2017
  • [2] C. Wu. Towards Linear-time Incremental Structure from Motion. Intl. Conf. 3D Vision, pp. 127-134, Seattle, WA, 2013
  • [3] E. Ilg, N. Mayer, T. Saikia, M. Keuper, A. Dosovitskiy, T. Brox. FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks. Conf. Computer Vision and Pattern Recognition, pp. 1647-1655, Honolulu, HI, 2017
  • [4] A. Valada, N. Radwan, W. Burgard. Deep Auxiliary Learning for Visual Localization and Odometry. Intl. Conf. Robotics and Automation, w/o pp., Brisbane, Australia, 2018
  • [5] A. Kendall, M. Grimes, R. Cipolla. PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization. Intl. Conf. Computer Vision, pp. 2938-2946, Santiago de Chile, Chile, 2015
  • [6] L. Meng, J. Chen, F. Tung, J. J. Little, J. Valentin, C. W. da Silva. Backtracking Regression Forests for Accurate Camera Relocalization. Intl. Conf. Intelligent Robots and Systems, pp. 6886-6893, Vancouver, BC, 2017
  • [7] F. Walch, C. Hazirbas, L. Leal-Taixé, T. Sattler, S. Hilsenbeck, D. Cremers. Image-based localization using LSTMs for structured feature correlation. Intl. Conf. Computer Vision, pp. 627-637, Venice, Italy, 2017
  • [8] R. Dey, F. M. Salem. Gate-Variants of Gated Recurrent Unit (GRU) Neural Networks. Intl. Midwest Symp., Circuits, Systems, and Neural Networks, pp. 1597-1600, Boston, MA, 2017
  • [9] J. Chung, C. Gulcehre, K. Cho, Y. Bengio. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling. arXiv preprint arXiv:1412.3555, 2014
  • [10] G. Zhou, J. Wu, C. Zhang, Z. Zhou. Minimal Gated Unit for Recurrent Neural Networks. Intl. Automation and Computing, Vol. 13, No. 3, pp. 226-234, Secaucus, New York, 2016
  • [11] D. Sun, X. Yang, M. Liu, J. Kautz. PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume. Conf. Computer Vision and Pattern Recognition, will be published, Salt Lake City, Utah, 2018
watermark seal