La filtracion del código Yandex revela varios detalles de clasificación del motor de búsqueda ruso

febrero 09, 2023 0 Comments

Yandex

Yandex es un motor de búsqueda y un portal web

Hace algunos días se dio a conocer información sobre la filtración de casi 45 GB de archivos de código fuente del gigante tecnológico ruso «Yandex», presuntamente robados por un ex empleado y los cuales han revelado los fundamentos de las muchas aplicaciones y servicios del motor de búsqueda que casi nunca se revelan al público.

Las «git sources of Yandex» se lanzaron como un archivo torrent el 25 de enero y muestran archivos aparentemente tomados en julio de 2022 y que datan de febrero de 2022. El ingeniero de software Arseniy Shestakov afirma que verificó con empleados actuales de Yandex que algunos archivos «ciertamente contienen código de los servicios de la empresa».

La empresa de tecnología rusa Yandex se disculpó después de que se encontraran insultos raciales en este código fuente filtrado, diciendo que no hubo violación de datos. La semana pasada se encontraron varias referencias a insultos raciales, incluida la «palabra N», en el código fuente de la compañía.

El ingeniero de software Arseniy Shestakov analizó el repositorio Yandex Git filtrado y dijo que contiene datos técnicos y códigos de los siguientes productos:

  • motor de búsqueda Yandex y bot de indexación
  • Mapas Yandex
  • Alice (asistente de IA)
  • Yandex Taxi
  • Yandex Direct (servicio de anuncios)
  • Yandex mail
  • Yandex Disk (servicio de almacenamiento en la nube)
  • Yandex market
  • Yandex Travel (plataforma de reserva de viajes)
  • Yandex360 (servicio de espacios de trabajo)
  • Yandex cloud
  • Yandex Pay (servicio de procesamiento de pagos)
  • Yandex Metrika (analítica web).

Shestakov también compartió una lista de directorios de los archivos filtrados en GitHub para aquellos que quieren ver el código fuente fue robado.

«Hay al menos algunas claves API, pero probablemente solo se usen para probar la implementación», dijo Shestakov sobre los datos filtrados.

En un comunicado, Yandex dijo que sus sistemas no fueron hackeados y que un ex empleado filtró el repositorio del código fuente:

Yandex no fue hackeado. Nuestro servicio de seguridad encontró fragmentos de código de un repositorio interno de dominio público, pero el contenido difiere de la versión actual del repositorio utilizado en los servicios de Yandex.

Un repositorio es una herramienta para almacenar y trabajar con código. El código se utiliza de esta manera internamente por la mayoría de las empresas.

Los repositorios son necesarios para trabajar con código y no están destinados a almacenar datos personales de los usuarios. Estamos realizando una investigación interna sobre los motivos del lanzamiento público de fragmentos de código fuente, pero no vemos ninguna amenaza para los datos de los usuarios o el rendimiento de la plataforma.

Los registros datan en particular de febrero de 2022, cuando Rusia lanzó una invasión a gran escala de Ucrania. Un ex ejecutivo de Yandex dijo que la filtración era «política» y señaló que el ex empleado no había intentado vender el código a los competidores de Yandex. El código antispam tampoco fue revelado.

Si bien no está claro si la revelación del código fuente de Yandex tiene implicaciones estructurales o de seguridad, la filtración de 1.922 factores de clasificación en el algoritmo de búsqueda de Yandex ciertamente está causando sensación.

La empresa de tecnología rusa Yandex se disculpó después de que se encontraran insultos raciales en el código fuente filtrado. Se encontraron varias referencias a insultos raciales en el código fuente de la empresa. Un investigador reveló por primera vez el uso de terminología ofensiva en una serie de publicaciones en Twitter el 26 de enero, lo que generó fuertes críticas.

En un comunicado, Yandex dijo que una investigación inicial mostró que el código filtrado «parece ser fragmentos antiguos diferentes de la versión actual del repositorio de la compañía». La compañía agregó que el código filtrado «nunca habría afectado ninguno de los servicios de la compañía».

“Lamentamos profundamente que estas palabras hayan aparecido en nuestros códigos internos”, dijo Yandex. «Esto es inaceptable y una violación flagrante de nuestra ética corporativa». «Actualmente estamos realizando una revisión interna para comprender mejor cómo sucedió esto, y tomaremos las medidas apropiadas, incluso para asegurarnos de que esto no vuelva a suceder».

Se rociaron insultos raciales en la base de código Git filtrada de Yandex. Se han utilizado en nombres de funciones y variables, mensajes impresos y otros lugares en archivos de configuración.

Los desarrolladores suelen utilizar términos o nombres específicos para ayudar a otros desarrolladores a comprender qué función o acción realiza una determinada línea de código.

Cabe mencionar que este no es el primer problema de este tipo al que se enfrenta Yandex, ya que en 2015 vio desaparecer el código de su motor de búsqueda, cuando un exempleado intentó venderlo en el mercado negro por 28.000 dólares para financiar su propia startup. El número sorprendentemente bajo del código principal del producto principal de Yandex sugirió que desconocía su valor real. Este empleado recibió una sentencia suspendida de dos años y el código nunca se vio públicamente.

Finalmente si estás interesado en poder conocer más al respecto, puedes consultar los detalles en el siguiente enlace.


Some say he’s half man half fish, others say he’s more of a seventy/thirty split. Either way he’s a fishy bastard.