Rosenberg lab at Stanford University
Note: this was originally posted somewhere on the internet and the accuracy of the translation is not guaranteed.


Science Vol. 298, 20 de Diciembre de 2002, pp. 2381-2385


Estructura Genética de las Poblaciones Humanas

Noah A. Rosenberg1*, Jonathan K. Pritchard2, James L. Weber3, Howard M. Cann4, Kenneth K. Kidd5, Lev A. Zhivotovsky6 y Marcus W. Feldman7

1* Departamento de Biología Molecular y Computacional, 1042 West 36th Place DRB 289, Universidad de California Sur, Los Ángeles, California 90089, EE.UU.

2 Departamento de Genética Humana, Universidad de Chicago, 920 East 58th Street, Chicago Illinois 60637, EE.UU.

3 Centro para la Medicina Genética, Fundación para la Investigación Medica Marshfield, Marshfield, Wisconsin 54449, EE.UU.

4 Fundación Jean Dausset - Centro de Estudios del Polimorfismo Humano (CEPH), 27 rue Juliette Dodu, 75010 Paris, Francia.

5 Departamento de Genética, Escuela de Medicina de la Universidad de Yale, 333 Cedar Street, New Haven, Conneticut 06520, EE.UU.

6 Instituto Vavilov de Genética General, Academia Rusa de las Ciencias, 3 Gubkin Street, Moscú 117809, Rusia.

7 Departamento de Ciencias Biológicas, Universidad de Stanford, Stanford, California 94305, EE.UU.

La correspondencia debe ser enviada al siguiente correo electrónico: noahr@usc.edu

Haga click aquí para ver las tablas y los gráficos

Hemos estudiado la estructura de las poblaciones humanas, usando los genotipos de 377 loci microsatelitales en 1056 individuos provenientes de 52 poblaciones de todo el mundo. Las diferencias intra-poblacionales entre los individuos constituyen entre el 93% y el 95% de la variación genética; mientras que las diferencias entre los mayores grupos continentales constituyen solo entre el 3% y el 5% de la variación. No obstante, sin haber usado información previa sobre los orígenes de los individuos, nosotros identificamos seis grandes grupos genéticos principales, cinco de los cuales se corresponden con las mayores regiones geográficas, y varios subgrupos que corresponden a poblaciones individuales. La concordancia entre las poblaciones predefinidas y las definidas por la genética sugiere que el ancestro auto reportado por los mismos individuos de estudio, puede facilitar las valoraciones de riesgos epidemiológicos aunque no termina con la necesidad de usar la información genética en los estudios genéticos de asociación.

La mayoría de los estudios de la variación humana empiezan muestreando "poblaciones" predefinidas. Estas poblaciones son definidas usualmente basándose en la cultura o la geografía, las cuales no podrían reflejar bien sus relaciones genéticas (1). Debido a que el conocimiento sobre la estructura genética de las poblaciones humanas modernas puede ayudar en la investigación de la historia evolutiva humana, nosotros utilizamos el Tablero de Línea celular de Diversidad del Genoma Humano HGDP-CEPH (2, 3) para probar la concordancia de los grupos predefinidos con aquellos definidos luego de la examinación de los genotipos multilocus individuales (ver el texto en línea).

La proporción promedio de diferencias genéticas entre individuos de diferentes poblaciones humanas sólo excede ligeramente a la que hay entre individuos no relacionados pertenecientes a una misma población (4-9). Esta es, el componente de variación genética dentro de la población, estimado aquí entre 93% y 95% (tabla 1), incluye la mayor parte de la diversidad genética humana. Quizás como resultado de las diferencias en esquemas probados (4-6, 9), nuestro estimado es mas alto que otros estimados previos provenientes de estudios de cobertura geográfica parecida (4-6, 9), uno de los cuales también utilizo marcadores microsatelitales (6). Esta similitud global de las poblaciones humanas también es evidente en la naturaleza de la mayoría de los alelos (Fig. S1). De los 4199 alelos presentes más de una vez en la muestra, 46.7% aparecieron en todas las regiones representadas: África Subsahariana, Europa, Medio Oriente, Asia Central/Sur, Asia Oriental y América. Solo el 7.4% de esos 4199 alelos fueron exclusivos a una región; los alelos específicos regionales usualmente son raros, y tienen una frecuencia promedio relativa de 1.0% en la región donde ocurre (11).

A pesar de lo pequeño de la variación de los componentes entre poblaciones y de la rareza de los alelos "privados," el análisis de genotipos multilocus permite la deducción del ancestro genético sin tomar en cuenta la información previa sobre las locaciones de los individuos (12-14). Nosotros aplicamos un algoritmo de agrupamiento basado en modelos, que, en pocas palabras, identifica a los sub-grupos de poblaciones que tienen frecuencias distintas de alelos. Este procedimiento, implementado en la estructura del programa informático (14), coloca a los individuos en grupos K, donde K es elegido de antemano pero puede variar por las carreras independientes del algoritmo. Los individuos pueden pertenecer a múltiples K, con los coeficientes de pertenencia finalizando en 1 entre los grupos.

En una muestra mundial, los individuos de la misma muestra de población predefinida casi siempre comparten similares coeficientes de pertenencia en grupos deducidos (Fig. 1). Los grupos de K=2 fueron fijados por África subsahariana y América, regiones separadas por una distancia genética relativamente grande (tabla S1). Cada incremento en K divide uno de los grupos obtenidos con el valor previo. En K=5, los grupos se corresponden mayormente a las regiones geográficas mas importantes. Sin embargo, el próximo grupo: K=6 no pertenece a ninguna región sino que consiste mayormente de individuos pertenecientes a la población aislada de Kalash, quienes hablan un lenguaje Indo-Europeo y viven en el Noroeste de Pakistán (Fig. 1 y tabla S2). En varias poblaciones, los individuos pertenecen parcialmente a múltiples grupos, con similares coeficientes de pertenencia en la mayoría de los individuos de esas poblaciones. Estas poblaciones podrían reflejar gradaciones continuas en frecuencias de alelos pertenecientes a otras regiones o mezcla genética proveniente de grupos vecinos. Al contrario de otras poblaciones de Pakistán, los Kalash no muestran pertenencia parcial al grupo asiático oriental en K=5, lo que es consistente con la sugerencia de su origen europeo o del Medio Oriente (15).

En América y Oceanía, ambas regiones de baja heterocigosis (tabla S3), los grupos deducidos a través de los métodos genéticos se corresponden estrechamente con las poblaciones predefinidas (Fig. 2). Estas regiones tienen los mas grandes componentes de variación entre poblaciones, y en ellas se requieren menos loci para obtener los grupos observados con los datos completos. Los grupos deducidos para el África y el Medio Oriente también son consistentes entre las carreras pero no todos corresponden a los grupos predefinidos. Para las otras muestras, los componentes de variación entre poblaciones estuvieron por debajo de 2%, y la estructura independiente fue menos consistente. Para K ≥ 3, los coeficientes de similaridad para los pares de carreras fueron típicamente moderados (0.1 a 0.85), en vez de grandes (0.85 a 0.1). Sin embargo, varios patrones fueron observados entre las carreras.

En Asia Oriental, los yakutos, cuyo lenguaje es Altaico, y los Japoneses, cuyo lenguaje es a menudo clasificado como Altaico, usualmente son identificados como distintos. Otras poblaciones que hablan lenguajes Altaicos, entre las que se incluyen los Daures, los Hezhen, los Mongoles, los Oroqen y los Xibo, todos provenientes del norte de China, comparten un gran grado de pertenencia genética con los Japoneses y los Yakutos que con poblaciones mas sureñas de otras familias lingüísticas, como las Camboyanas, las Dai, Han, Miao, Naxi, She, Tujia y Yi. Sin embargo, los Tu, quienes hablan un lenguaje Altaico y viven en la región norte-central de China, mayormente se agrupan con las poblaciones sureñas. Los Lahu, quienes hablan un lenguaje Sino-Tibetano y son la población menos heterocigota en la región, frecuentemente son separados a pesar de su proximidad geográfica con otras poblaciones examinadas del Sur de China (16).

Eurasia frecuentemente se separó en sus regiones componente, como sucedió con los Kalash. Los Adygei, del Cáucaso, tuvieron pertenencia genética tanto en Europa como en Asia Central y Sur, los Burusho del norte de Pakistán, una población aislada lingüísticamente, se separaron de los otros grupos, aunque de forma menos clara que la población mas aislada genéticamente: los kalash. Quizás como resultado del ancestro Mongol compartido (15,16), los hazaras de Pakistán y los Uygures del noroeste de China, cuyos lenguajes son Indoeuropeos y Altaicos, respectivamente, quedaron dentro del mismo grupo. Los Balochis, Makaranis, Pathunes y los Sindhis, todos indo-europeo parlantes, y en parte los Brahuis Dravidiano-parlantes, tuvieron pertenencia en múltiples grupos, con individuos de muchas poblaciones formando parte de cada grupo.

Europa, el continente con el componente mas pequeño de variación entre poblaciones (0.7%), fue la región mas difícil para detectar la estructura de la población. La mas alta carrera de probabilidad para K=3 no encontró estructura; en otras carreras, los Vascos y los Sardos fueron identificados como poblaciones distintas. Los Rusos fueron agrupados con los Adygeis y los Orcadianos (escoceses de las Islas Orkney); la similaridad ruso-orcadiana podría derivar de un ancestro Vikingo compartido por ambos (17). Los Franceses, Italianos, y Toscanos muestran pertenencia a subgrupos que contienen otras poblaciones Europeas.

Debido a que la deriva genética ocurre de manera mucho mas rápida en poblaciones pequeñas, particularmente en aquellas que también están aisladas geográficamente, en estas poblaciones aumentan rápidamente las frecuencias de alelos distintivos. Por consiguiente, la estructura es detectada de manera eficiente en poblaciones aisladas y relativamente homogéneas, incluso si sus divergencias o intercambios con otros grupos son cortos (18). Este fenómeno podría explicar la diferenciación deducida de las poblaciones con baja heterocigosis, tales como los lahus y los grupos indígenas Americanos, y de aquellos que son mas pequeños y aislados, tales como los Kalash. Los grupos con muestras mucho mas extensas son los mas fácil de separar; por consiguiente, la dificultad para agrupar a las poblaciones fue exacerbada por el pequeño tamaño de las muestras. Debido a que la obtención de la muestra se baso en las poblaciones, la muestra producirá grupos mucho mas distintos que los que habrían sido encontrados en una muestra con representación mundial aleatoria. No obstante, los limites mas importantes a nivel mundial entre los mayores grupos se corresponden con las mayores barreras físicas (océanos, los Himalayas, el Desierto del Sahara, etc).

La cantidad de variación entre grupos afecta el numero de loci requeridos para producir agrupamientos similares a aquellos obtenidos con los datos completos. Para el Medio Oriente, una región con un componente de variación entre poblaciones de 1.3%, casi todos los loci fueron requeridos para lograr una similaridad de 0.8 en el agrupamiento basado en los datos completos, y el uso de mas loci para producir un agrupamiento mas consistente. Solo fueron necesarios ~200 loci para Oceanía y África Subsahariana; para la muestra mundial, fueron necesarios ~150 (Fig. S2), y ~100 fueron suficientes para América. Menos loci son suficientes para muestras mas grandes (18); controversialmente, la exactitud disminuyó considerablemente cuando sólo fue usada la mitad de la muestra (Fig. 2). El número de loci requerido también disminuiría si marcadores sumamente informativos, tales como aquellos con alta heterocigosis (tabla S4), son genotipiados (18). Los loci aquí provienen de un tablero pensado principalmente para el uso en individuos de descendencia Europea (19). Aunque 10 de los loci tuvieron una heterocigosis menor que 0.5% en Asia Oriental, ninguno tuvo una similaridad menor que la heterocigosis europea; así, la deducción de subgrupos usando marcadores "aleatorios" podría ser menos difícil que la observada aquí, especialmente en Europa. Sin embargo, el efecto de excluir los marcadores con baja heterocigosis europea es probablemente mínimo, porque las heterocigosis generalmente altas del microsatélite aseguran que los relativamente pocos loci sean descartados en estos campos (20). El hecho de que las heterocigosis regionales aquí (tabla S3) sigan el mismo orden relativo y que tengan casi valores iguales a aquellos de los loci que fueron determinados en un tablero geográficamente diverso (12) proporciona evidencia extensa que dice que el efecto de precisión sobre los estimados de heterocigosis, y sobre las estadísticas derivada de esos estimados, tales como los componentes genéticos (21), es pequeño.

Los grupos deducidos a través de la genética abiertamente se corresponden con los grupos de poblaciones predefinidas regionalmente o con las colecciones de poblaciones geográficamente y lingüísticamente similares. Entre excepciones, la similaridad lingüística no provee una explicación general para los agrupamientos de poblaciones que están relativamente distantes geográficamente hablando, tales como los Hazaras, los Uygures o los Tu y las poblaciones del Sur de China. La fineza de nuestros resultados de agrupamientos comparados con otros estudios multilocus derivan de nuestra disponibilidad de una cantidad mayor de datos. Ha sido reportada una correspondencia general entre la afiliación regional y el ancestro genético (12-14), con mas clara correspondencia en estudios que usan mas loci (13) que en aquellos que usan menos loci (9, 22); hemos identificado la correspondencia entre estructura genética y la afiliación de población en regiones con componentes de variación entre-poblaciones mayores a 2% y 3%.

La estructura genética de las poblaciones humanas es relevante en varios contextos epidemiológicos. Como resultado de la variación en frecuencias de los factores de riesgo genéticos y no genéticos, las tasas de enfermedad y fenotipos tales como respuestas adversas a las drogas, varían entre las poblaciones (22, 23). Más aún, la información sobre la población a la que pertenece un paciente podría proveer información importante sobre el riesgo a los trabajadores de la salud, cuando las causas de la enfermedad son desconocidas (23). Recientes artículos han considerado si es preferible usar el ancestro auto identificado o el ancestro genéticamente deducido en tales situaciones (22-25). Nosotros hemos encontrado que la auto-identificación es muy informativa sobre la pertenencia en grupos genéticos, incluso para las poblaciones intermedias, en las cuales la mayoría de los individuos tiene similares coeficientes de pertenencia en varios grupos. Variaciones importantes en ancestro dentro de poblaciones predefinidas sólo pocas veces, como sucedió en poblaciones geográficamente próximas del Medio Oriente.

Por consiguiente, para muchas aplicaciones en epidemiología, así como también en el diagnostico de riesgos de enfermedad individuales, el ancestro auto-identificado puede ser un medidor mucho mas conveniente del ancestro genético. El ancestro auto-identificado puede ser obtenido de manera mucho menos intrusiva que el ancestro genético, y si el ancestro auto-identificado subdivide a un grupo genético en múltiples grupos, podría proveer información útil sobre factores de riesgo medioambientales desconocidos (23, 25). Una excepción a estos comentarios generales debe ser tomada en poblaciones recientemente mestizadas, en las cuales el ancestro varia substancialmente entre los individuos; esta variación se podría correlacionar con el riesgo como resultado de factores culturales o genéticos (24). En algunos contextos, no obstante, el uso de grupos genéticos es mas apropiado el ancestro auto-identificado. En los estudios genéticos de asociación caso-control, los falsos-positivos pueden ser obtenidos si el riesgo enfermedad es correlacionado con el ancestro genético (24, 26). Los análisis basados en ancestro auto-identificado reducen la proporción de falsos-positivos considerablemente (25). Sin embargo, los estudios de asociación son analizados normalmente por las pruebas de importancia, las cuales pequeñas diferencias en ancestro genético entre casos y controles podrían producir asociaciones falsas-positivas estadísticamente importantes en muestras grandes. Por consiguiente, los errores que aparecen al usar el ancestro auto-identificado en vez del deducido por la genética podrían causar serios problemas en estudios grandes que se requerirán para identificar loci de susceptibilidad con pequeños efectos (26). El agrupamiento genético es mucho mas apropiado para algunos tipos de estudios específicos de poblaciones, debido a que la estructura genética no reconocida podría producir falsos-positivos en pruebas estadísticas por culpa del crecimiento de la población o la selección natural (27).

Uno de los mayores desafíos de los estudios genéticos de la historia humana es usar la cantidad mas pequeña de diferenciación genética entre las poblaciones para deducir la historia de las migraciones humanas. Debido a que la mayoría de los alelos están extendidos, las diferencias genéticas entre poblaciones humanas derivan mayormente de las gradaciones en frecuencias de alelos que de distintos genotipos de "diagnostico." De hecho, sólo estaban en la acumulación de las pequeñas diferencias de frecuencias de alelos entre muchos loci que fueron idenficados de la estructura de población. Los patrones de la estructura de las poblaciones modernas humanas discutidos aquí pueden ser usados para guiar la construcción de los modelos históricos de migración y mezcla que podrían ser útiles en próximos estudios deductivos sobre la historia genética humana.

Referencias y notas

1. M. W. Foster and R. R. Sharp, Genome Res. 12, 844 (2002).

2. H. M. Cann, et al., Science 296, 261 (2002).

3. Los genotipos de este estudio están disponibles aquí: http://research.marshfieldclinic.org/genetics/Freq/FreqInfo.htm.

4. R. C. Lewontin, Evol. Biol. 6, 381 (1972).

5. B. D. H. Latter, Am. Nat. 116, 220 (1980).

6. G. Barbujani, A. Magagni, E. Minch, L. L Cavalli-Sforza, Proc. Natl. Acad. Sci. U.S.A. 94, 4516 (1997).

7. L. B. Jorde, et al., Am. J. Hum. Genet. 66, 979 (2000).

8. R. A. Brown and G. J. Armelagos, Evol. Anthropol. 10, 34 (2001).

9. C. Romualdi, et al., Genome Res. 12, 602 (2002).

10. Smaller within-population variance components of comparable studies may result from their use of isolated and geographically well- separated populations to construct samples. Such a scheme might exaggerate among-group differences compared with those in the present sample, which had a smaller proportion of such populations. Indeed, when we restricted analysis to a set of populations that approximated a previous data set (6), we obtained a larger among-region component. Variance components also depend on sample sizes and on marker properties (7-9). Differential natural selection on protein variants across geographic regions might exaggerate among-group differences. Conversely, for a fixed level of within-group diversity, recurrent microsatellite mutations reduce among-group differences in comparison with those observed at markers for which each mutation produces a novel allele (28).

11. Recurrent mutation might be expected to influence allelic distributions considerably. However, widespread distributions of most alleles and the paucity of alleles found only in two disconnected regions suggest that recurrent mutations are only rarely followed by independent drift to sizable frequencies in multiple regions (29).

12. A. M. Bowcock, et al., Nature 368, 455 (1994).

13. J. L. Mountain and L. L. Cavalli-Sforza, Am. J. Hum. Genet. 61, 705 (1997).

14. J. K. Pritchard, M. Stephens, P. Donnelly, Genetics 155, 945 (2000).

15. R. Qamar, et al., Am. J. Hum. Genet. 70, 1107 (2002).

16. R. Du, V. F. Yip, Ethnic Groups in China (Lubrecht and Cramer, Port Jervis, NY, 1996).

17. J. Haywood, The Penguin Historical Atlas of the Vikings (Penguin Books, London, 1995).

18. N. A. Rosenberg, et al., Genetics 159, 699 (2001).

19. J. L. Weber and K. W. Broman, Adv. Genet. 42, 77 (2001).

20. A. R. Rogers and L. B. Jorde, Am. J. Hum. Genet. 58, 1033 (1996).

21. M. Urbanek, D. Goldman, J. C. Long, Mol. Biol. Evol. 13, 943 (1996).

22. J. F. Wilson, et al., Nature Genet. 29, 265 (2001).

23. N. Risch, E. Burchard, E. Ziv, H. Tang, Genome Biol. 3, 2007.1 (2002).

24. D. C. Thomas and J. S. Witte, Cancer Epidemiol. Biomark. Prev. 11, 505 (2002).

25. S. Wacholder, N. Rothman, N. Caporaso, Cancer Epidemiol. Biomark. Prev. 11, 513 (2002).

26. J. K. Pritchard and P. Donnelly, Theor. Popul. Biol. 60, 227 (2001).

27. S. E. Ptak and M. Przeworski, Trends Genet. 18, 559 (2002).

28. L. Jin and R. Chakraborty, Heredity 74, 274 (1995).

29. F. Calafell, et al., Eur. J. Hum. Genet. 6, 38 (1998).

Agradecemos a D. Altshuler, M. Cho, D. Falush, H. Innan, L. Kurina, J. Mountain, D. Nettle, M. Nordborg, M. Przeworski, N. Risch, D. Rosenberg, M. Stephens, D. Thomas, y a E. Ziv por sus desinteresados cometarios y por su ayuda. The Mammalian Genotyping Service is supported by the National Heart, Lung, and Blood Institute. El Servicio de Genotipeo de Mamiferos fue financiado por el Instituto Nacional de Cardiologia. Esta investigación fue financiada por un NSF Biological Informatics Postdoctoral Fellowship (N.A.R.), una conseción Burroughs-Wellcome Fund Hitchings Elion (J.K.P.) y por NIH GM28428 (M.W.F.).

19 de Junio de 2002; aceptado el 30 de Octubre de 2002 10.1126/science.1078311